農林漁牧網

您現在的位置是:首頁 > 農業

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

2023-01-18由 CSDN 發表于 農業

合成影象怎麼做

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

整理 | 劉春霖 責編 | 張紅月

出品 | CSDN(ID:CSDNnews)

現在,已是2022年底。

深度學習模型在生成影象上的表現已經非常出色。

很顯然,未來還會給我們更多的驚喜。

這十年來,是如何走到今天這一步的?

在下面的時間線裡,將會追溯一些里程碑式的時刻,例如 AI 影象合成的論文、架構、模型、資料集、實驗登場的時候。

一切,都要從十年前的那個人工智慧夏天說起。

開端( 2012 年 - 2015 年)

在深度神經網路面世之後,人們則意識到:它將徹底改變影象分類。同時,研究人員開始探索“相反”的方向,“如果使用一些對分類非常有效的技術(例如卷積層)來製作影象,會發生什麼?”

2012 年 12 月,“人工智慧之夏”誕生的開始。

在這一年,論文《深度卷積神經網路的 ImageNet 分類》釋出。論文作者之一,就是 AI 三巨頭之一的 Hinton。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

這是第一次將深度卷積神經網路 (CNN)、GPU 和巨大的網際網路來源資料集(ImageNet)結合在一起。

2014 年 12 月,Ian Goodfellow 等大佬發表了史詩性論文鉅作《生成式對抗網路》。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

GAN 是第一個致力於影象合成而不是分析的現代(即2012年後)神經網路架構。

它引入了一種基於博弈論的獨特學習方法,其中兩個子網路“生成器”和“鑑別器”進行競爭。

最終,只有“生成器”從系統中保留下來,並用於影象合成。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

Hello World!來自 Goodfellow 等人 2014 年論文的 GAN 生成人臉樣本。該模型是 在Toronto Faces 資料集上訓練的,該資料集已從網路上刪除。

2015 年 11 月,具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。其中,作者描述了第一個實際可用的 GAN 架構 (DCGAN)。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

這篇論文首次提出了潛在空間操縱的問題——概念是否對映到潛在空間方向?

GAN 的五年( 2015 年 - 2020 年)

這五年內 GAN 被應用於各種影象處理任務,例如樣式轉換、修復、去噪和超解析度。期間,GAN 架構的論文開始爆炸式井噴。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

地址:https://github。com/nightrome/really-awesome-gan

與此同時,GAN 的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個“AI 藝術”醜聞發生在 2018 年。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

在 2018 年 10 月 25 日,Christie‘s 的一場拍賣會上,正在拍賣 Edmond Belamy 的肖像,這是一副金色框架中的畫布,展示了看起來像 18 世紀紳士的汙跡人物。當拍賣槌落下時,也將標誌著人工智慧藝術在世界拍賣舞臺上的到來。

同時,Transformer 架構徹底改變了 NLP。在不久的將來,這件事會對影象合成產生重大影響。

2017 年 6 月,《Attention Is All You Need》論文釋出。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》中有詳實的解釋。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

自此,Transformer 架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。

2018 年 7 月,《概念性標註:用於自動影象字幕的清理、上位化、影象替代文字資料集》論文發表。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極其重要。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

MarioKlingenmann,MemoriesofPasserbyI,2018。Thebaconesquefaces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點

2018-20年,NVIDIA 的研究人員對 GAN 架構進行了一系列徹底改進。在《使用有限資料訓練生成對抗網路》論文中,介紹了最新的 StyleGAN2-ada。

GAN 生成的影象首次變得與自然影象無法區分,至少對於像 Flickr-Faces-HQ (FFHQ) 等這樣高度最佳化的資料集來說是這樣。

2020 年 5 月,論文《語言模型是小樣本學習者》發表。OpenAI 的 LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

2020 年 12 月,論文《用於高解析度影象合成的 Taming transformers》發表。ViT 表明,Transformer 架構可用於影象。

論文中介紹的方法 VQGAN 在基準測試中產生了 SOTA 結果。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

2010 年代後期的 GAN 架構的質量主要根據對齊的面部影象進行評估,對於更多異構資料集的效果很有限。因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。

Transformer 的時代( 2020 年 - 2022 年)

Transformer 架構的出現,徹底改變了影象合成的歷史。從此,影象合成領域開始拋下 GAN。“多模態”深度學習整合了 NLP 和計算機視覺的技術,“即時工程”取代了模型訓練和調整,成為影象合成的藝術方法。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

《從自然語言監督中學習可遷移視覺模型》論文中提出了 CLIP 架構。可以說,當前的影象合成熱潮,是由 CLIP 首次引入的多模態功能推動的。

2021 年 1 月,論文《零樣本文字到影象生成》發表(另請參閱OpenAI 的部落格文章),其中介紹了 DALL-E 的第一個版本。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

此版本的工作原理是透過將文字和影象(由 VAE 壓縮為「TOKEN」)組合在單個數據流中。該模型只是“continues”和“sentence”。資料(250M 影象)包括來自維基百科的文字影象對、概念說明和 YFCM100M 的過濾子集。CLIP 為影象合成的“多模態”方法奠定了基礎。

2021 年 1 月,論文《從自然語言監督學習可遷移視覺模型》發表。論文中介紹了 CLIP,這是一種結合了 ViT 和普通 Transformer 的多模態模型。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

CLIP 會學習影象和標題的“共享潛在空間”,因此可以標記影象。模型在論文附錄A。1中列出的大量資料集上進行培訓。

2021 年 6 月,論文《擴散模型的釋出在影象合成方面擊敗了 GAN》發表。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

擴散模型引入了一種不同於 GAN 方法的影象合成方法。研究者透過從人工新增的噪聲(“去噪”)中重建影象來學習。它們與變分自動編碼器 (VAE) 相關。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

“金髮女郎的人像照片,用數碼單反相機拍攝,中性背景,高解析度”,使用 DALL-E 2 生成。基於 Transformer 的生成模型與後來的 GAN 架構(如 StyleGAN 2)的照片級真實感相匹配,但允許建立廣泛的各種主題和圖案。

2021 年 7 月,DALL-E mini 釋出。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

這是 DALL-E 的複製品(體積更小,對架構和資料的調整很少)。資料包括 Conceptual 12M、Conceptual Captions 以及 OpenAI 用於原始 DALL-E 模型的 YFCM100M 相同過濾子集。因為沒有任何內容過濾器或 API 限制,DALL-E mini 為創造性探索提供了巨大的潛力,並導致推特上“奇怪的 DALL-E”影象呈爆炸式增長。

2021-2022 年,Katherine Crowson 釋出了一系列 CoLab 筆記,探索製作 CLIP 引導生成模型的方法。例如 512x512 CLIP-guided diffusion 和 VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在 2022 年作為預印本釋出,但 VQGAN 釋出後就出現了公共實驗)。

就像在早期的 GAN 時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然後由公司簡化,最後由 wombo。ai 等“初創公司”商業化。

2022 年 4 月,論文《具有 CLIP 潛能的分層文字條件影象生成》發表。本論文介紹了 DALL-E 2,它建立在僅幾周前釋出的 GLIDE 論文(《 GLIDE:使用文字引導擴散模型實現逼真影象生成和編輯》的基礎上。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

同時,由於DALL-E2的訪問受限和有意限制,人們對DALL-Emini重新產生了興趣。

根據模型卡,資料由“公開可用資源和我們許可的資源的組合”組成,以及根據該論文的完整 CLIP 和 DALL-E 資料集。

2022 年 5-6 月,5 月釋出論文《具有深度語言理解的真實感文字到影象擴散模型》。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

6 月論文《用於內容豐富的文字到影象生成的縮放自迴歸模型》發表。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

這兩篇論文中介紹了 Imagegen 和Parti ,以及谷歌對 DALL-E 2 的回答。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

“你知道我今天為什麼阻止你嗎?” 由DALL-E 2 生成,“prompt engineering”從此成為藝術影象合成的主要方法。

AI Photoshop( 2022 年至今)

雖然 DALL-E 2 為影象模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。使用者仍繼續嘗試 DALL-E mini 等較小的模型。

隨著 Stable Diffusion 的釋出,所有這一切都發生了變化。這可以說,Stable Diffusion 標誌著影象合成“Photoshop時代”的開始。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

“有四串葡萄的靜物,試圖創造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄”,Stable Diffusion 產生的六種變化。

2022 年 8 月,Stability。ai 釋出了 Stable Diffusion 模型。在論文《具有潛在擴散模型的高解析度影象合成》中,Stability。ai 隆重推出了 Stable Diffusion,這個模型可以實現與 DALL-E 2 同等的照片級真實感。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

除了 DALL-E 2,該模型幾乎可以立即向公眾開放,並且可以在 CoLab 和 Huggingface 平臺上執行。

2022 年 8 月,谷歌發表論文《DreamBooth:為主題驅動生成微調文字到影象擴散模型》。DreamBooth 提供了對擴散模型越來越細粒度的控制。

Hinton、DALL-E 2 皆上榜,盤點 AI 影象 10 年合成史!

然而,即使沒有這些額外的技術干預,使用像 Photoshop 這樣的生成模型也變得可行,從粗略的草圖開始,逐層新增生成的修改。

2022 年 10 月,最大的相簿公司之一 Shutterstock 宣佈與 OpenAI 合作提供/許可生成影象,預計相簿市場將受到 Stable Diffusion 等生成模型的嚴重影響。

參考連結:

https://zentralwerkstatt。org/blog/ten-years-of-image-synthesis

☞☞