Hinton、DALL-E 2 皆上榜，盤點 AI 影象 10 年合成史！

合成影象怎麼做

整理 | 劉春霖責編 | 張紅月

出品 | CSDN（ID：CSDNnews）

現在，已是2022年底。

深度學習模型在生成影象上的表現已經非常出色。

很顯然，未來還會給我們更多的驚喜。

這十年來，是如何走到今天這一步的？

在下面的時間線裡，將會追溯一些里程碑式的時刻，例如 AI 影象合成的論文、架構、模型、資料集、實驗登場的時候。

一切，都要從十年前的那個人工智慧夏天說起。

開端（ 2012 年 - 2015 年）

在深度神經網路面世之後，人們則意識到：它將徹底改變影象分類。同時，研究人員開始探索“相反”的方向，“如果使用一些對分類非常有效的技術（例如卷積層）來製作影象，會發生什麼？”

2012 年 12 月，“人工智慧之夏”誕生的開始。

在這一年，論文《深度卷積神經網路的 ImageNet 分類》釋出。論文作者之一，就是 AI 三巨頭之一的 Hinton。

這是第一次將深度卷積神經網路（CNN）、GPU 和巨大的網際網路來源資料集（ImageNet）結合在一起。

2014 年 12 月，Ian Goodfellow 等大佬發表了史詩性論文鉅作《生成式對抗網路》。

GAN 是第一個致力於影象合成而不是分析的現代（即2012年後）神經網路架構。

它引入了一種基於博弈論的獨特學習方法，其中兩個子網路“生成器”和“鑑別器”進行競爭。

最終，只有“生成器”從系統中保留下來，並用於影象合成。

Hello World！來自 Goodfellow 等人 2014 年論文的 GAN 生成人臉樣本。該模型是在Toronto Faces 資料集上訓練的，該資料集已從網路上刪除。

2015 年 11 月，具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。其中，作者描述了第一個實際可用的 GAN 架構（DCGAN）。

這篇論文首次提出了潛在空間操縱的問題——概念是否對映到潛在空間方向？

GAN 的五年（ 2015 年 - 2020 年）

這五年內 GAN 被應用於各種影象處理任務，例如樣式轉換、修復、去噪和超解析度。期間，GAN 架構的論文開始爆炸式井噴。

地址：https：//github。com/nightrome/really-awesome-gan

與此同時，GAN 的藝術實驗開始興起，Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個“AI 藝術”醜聞發生在 2018 年。

在 2018 年 10 月 25 日，Christie‘s 的一場拍賣會上，正在拍賣 Edmond Belamy 的肖像，這是一副金色框架中的畫布，展示了看起來像 18 世紀紳士的汙跡人物。當拍賣槌落下時，也將標誌著人工智慧藝術在世界拍賣舞臺上的到來。

同時，Transformer 架構徹底改變了 NLP。在不久的將來，這件事會對影象合成產生重大影響。

2017 年 6 月，《Attention Is All You Need》論文釋出。

在《Transformers， Explained： Understand the Model Behind GPT-3， BERT， and T5》中有詳實的解釋。

自此，Transformer 架構（以BERT等預訓練模型的形式）徹底改變了自然語言處理（NLP）領域。

2018 年 7 月，《概念性標註：用於自動影象字幕的清理、上位化、影象替代文字資料集》論文發表。

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極其重要。

MarioKlingenmann，MemoriesofPasserbyI，2018。Thebaconesquefaces是該地區AI藝術的典型代表，其中生成模型的非寫實性是藝術探索的重點

2018-20年，NVIDIA 的研究人員對 GAN 架構進行了一系列徹底改進。在《使用有限資料訓練生成對抗網路》論文中，介紹了最新的 StyleGAN2-ada。

GAN 生成的影象首次變得與自然影象無法區分，至少對於像 Flickr-Faces-HQ （FFHQ）等這樣高度最佳化的資料集來說是這樣。

2020 年 5 月，論文《語言模型是小樣本學習者》發表。OpenAI 的 LLM Generative Pre-trained Transformer 3（GPT-3）展示了變壓器架構的強大功能。

2020 年 12 月，論文《用於高解析度影象合成的 Taming transformers》發表。ViT 表明，Transformer 架構可用於影象。

論文中介紹的方法 VQGAN 在基準測試中產生了 SOTA 結果。

2010 年代後期的 GAN 架構的質量主要根據對齊的面部影象進行評估，對於更多異構資料集的效果很有限。因此，在學術/工業和藝術實驗中，人臉仍然是一個重要的參考點。

Transformer 的時代（ 2020 年 - 2022 年）

Transformer 架構的出現，徹底改變了影象合成的歷史。從此，影象合成領域開始拋下 GAN。“多模態”深度學習整合了 NLP 和計算機視覺的技術，“即時工程”取代了模型訓練和調整，成為影象合成的藝術方法。

《從自然語言監督中學習可遷移視覺模型》論文中提出了 CLIP 架構。可以說，當前的影象合成熱潮，是由 CLIP 首次引入的多模態功能推動的。

2021 年 1 月，論文《零樣本文字到影象生成》發表（另請參閱OpenAI 的部落格文章），其中介紹了 DALL-E 的第一個版本。

此版本的工作原理是透過將文字和影象（由 VAE 壓縮為「TOKEN」）組合在單個數據流中。該模型只是“continues”和“sentence”。資料（250M 影象）包括來自維基百科的文字影象對、概念說明和 YFCM100M 的過濾子集。CLIP 為影象合成的“多模態”方法奠定了基礎。

2021 年 1 月，論文《從自然語言監督學習可遷移視覺模型》發表。論文中介紹了 CLIP，這是一種結合了 ViT 和普通 Transformer 的多模態模型。

CLIP 會學習影象和標題的“共享潛在空間”，因此可以標記影象。模型在論文附錄A。1中列出的大量資料集上進行培訓。

2021 年 6 月，論文《擴散模型的釋出在影象合成方面擊敗了 GAN》發表。

擴散模型引入了一種不同於 GAN 方法的影象合成方法。研究者透過從人工新增的噪聲（“去噪”）中重建影象來學習。它們與變分自動編碼器（VAE）相關。

“金髮女郎的人像照片，用數碼單反相機拍攝，中性背景，高解析度”，使用 DALL-E 2 生成。基於 Transformer 的生成模型與後來的 GAN 架構（如 StyleGAN 2）的照片級真實感相匹配，但允許建立廣泛的各種主題和圖案。

2021 年 7 月，DALL-E mini 釋出。

這是 DALL-E 的複製品（體積更小，對架構和資料的調整很少）。資料包括 Conceptual 12M、Conceptual Captions 以及 OpenAI 用於原始 DALL-E 模型的 YFCM100M 相同過濾子集。因為沒有任何內容過濾器或 API 限制，DALL-E mini 為創造性探索提供了巨大的潛力，並導致推特上“奇怪的 DALL-E”影象呈爆炸式增長。

2021-2022 年，Katherine Crowson 釋出了一系列 CoLab 筆記，探索製作 CLIP 引導生成模型的方法。例如 512x512 CLIP-guided diffusion 和 VQGAN-CLIP（Open domain image generation and editing with natural language guidance，僅在 2022 年作為預印本釋出，但 VQGAN 釋出後就出現了公共實驗）。

就像在早期的 GAN 時代一樣，藝術家和開發者以非常有限的手段對現有架構進行重大改進，然後由公司簡化，最後由 wombo。ai 等“初創公司”商業化。

2022 年 4 月，論文《具有 CLIP 潛能的分層文字條件影象生成》發表。本論文介紹了 DALL-E 2，它建立在僅幾周前釋出的 GLIDE 論文（《 GLIDE：使用文字引導擴散模型實現逼真影象生成和編輯》的基礎上。

同時，由於DALL-E2的訪問受限和有意限制，人們對DALL-Emini重新產生了興趣。

根據模型卡，資料由“公開可用資源和我們許可的資源的組合”組成，以及根據該論文的完整 CLIP 和 DALL-E 資料集。

2022 年 5-6 月，5 月釋出論文《具有深度語言理解的真實感文字到影象擴散模型》。

6 月論文《用於內容豐富的文字到影象生成的縮放自迴歸模型》發表。

這兩篇論文中介紹了 Imagegen 和Parti ，以及谷歌對 DALL-E 2 的回答。

“你知道我今天為什麼阻止你嗎？” 由DALL-E 2 生成，“prompt engineering”從此成為藝術影象合成的主要方法。

AI Photoshop（ 2022 年至今）

雖然 DALL-E 2 為影象模型設定了新標準，但它迅速商業化，也意味著在使用上從一開始就受到限制。使用者仍繼續嘗試 DALL-E mini 等較小的模型。

隨著 Stable Diffusion 的釋出，所有這一切都發生了變化。這可以說，Stable Diffusion 標誌著影象合成“Photoshop時代”的開始。

“有四串葡萄的靜物，試圖創造出像古代畫家 Zeuxis Juan El Labrador Fernandez，1636 年，馬德里普拉多的葡萄一樣栩栩如生的葡萄”，Stable Diffusion 產生的六種變化。

2022 年 8 月，Stability。ai 釋出了 Stable Diffusion 模型。在論文《具有潛在擴散模型的高解析度影象合成》中，Stability。ai 隆重推出了 Stable Diffusion，這個模型可以實現與 DALL-E 2 同等的照片級真實感。

除了 DALL-E 2，該模型幾乎可以立即向公眾開放，並且可以在 CoLab 和 Huggingface 平臺上執行。

2022 年 8 月，谷歌發表論文《DreamBooth：為主題驅動生成微調文字到影象擴散模型》。DreamBooth 提供了對擴散模型越來越細粒度的控制。

然而，即使沒有這些額外的技術干預，使用像 Photoshop 這樣的生成模型也變得可行，從粗略的草圖開始，逐層新增生成的修改。

2022 年 10 月，最大的相簿公司之一 Shutterstock 宣佈與 OpenAI 合作提供/許可生成影象，預計相簿市場將受到 Stable Diffusion 等生成模型的嚴重影響。

參考連結：

https：//zentralwerkstatt。org/blog/ten-years-of-image-synthesis

☞☞

農林漁牧網

Hinton、DALL-E 2 皆上榜，盤點 AI 影象 10 年合成史！

相關文章