叫板DALL·E 2，預訓練大模型做編碼器，谷歌把文字轉影象模型捲上天

圖片的文字編碼是什麼

選自arXiv

作者：Chitwan Saharia等

機器之心編譯

機器之心編輯部

OpenAI：DALLE 2 就是最好的。谷歌：看下我們 Imagen 生成的柴犬？

多模態學習近來受到重視，特別是文字 - 影象合成和影象 - 文字對比學習兩個方向。一些模型因在創意影象生成、編輯方面的應用引起了公眾的廣泛關注，例如 OpenAI 的文字轉影象模型 DALLE、英偉達的 GauGAN。現在，來自谷歌的研究者也在這一方向做出了探索，提出了一種文字到影象的擴散模型 Imagen。

Imagen 結合了 Transformer 語言模型和高保真擴散模型的強大功能，在文字到影象的合成中提供前所未有的逼真度和語言理解能力。與僅使用影象 - 文字資料進行模型訓練的先前工作相比，Imagen 的關鍵突破在於：谷歌的研究者發現在純文字語料庫上預訓練的大型 LM 的文字嵌入對文字到影象的合成顯著有效。Imagen 的文字到影象生成可謂天馬行空，能生成多種奇幻卻逼真的有趣影象。

比如正在戶外享受騎行的柴犬：

泰迪熊的 400 米蝶泳首秀：

狗狗照鏡子發現自己是隻貓：

火龍果成精要打空手道了：

如果你覺得這些圖片過於魔幻，那下面這張小鳥生氣的圖就非常真實了，隔著螢幕都能感覺到它的憤怒：

我們發現這些圖片的解析度都很高，像是人工精心 PS 過的。然而這些模型都出自 Imagen 這個 AI 模型之手。

Imagen 模型中包含一個 frozen T5-XXL 編碼器，用於將輸入文字對映到一系列嵌入和一個 64×64 的影象擴散模型中，並帶有兩個超解析度擴散模型，用於生成 256×256 和 1024×1024 的影象。

其中，所有擴散模型都以文字嵌入序列為條件，並使用無分類器指導。藉助新型取樣技術，Imagen 允許使用較大的指導權重，而不會發生樣本質量下降，使得生成的影象具有更高的保真度、影象與文字更加吻合。

雖然架構簡單且易於訓練，但 Imagen 產生了令人驚訝的強大結果。Imagen 在 COCO 上的零樣本 FID-30K 分數為 7。27，效能顯著優於之前的方法（GLIDE、DALL-E 2 等），並超越了當前的 SOTA 模型 Make-A-Scene（7。27 VS 7。55）。從人工評估看，Imagen 生成的樣本在影象文字對齊方面與 COCO captions 的參考影象相當。

此外，研究者還提出了一種用於文字到影象評估的文字 prompt 結構化新套件 DrawBench。DrawBench 對文字到影象模型進行多維評估，文字 prompt 旨在探索模型的不同語義屬性。這些 prompt 包括組合性、基數、空間關係、處理複雜文字 prompt 或帶有稀有單詞的 prompt 的能力，它們包括創造性 prompt，這些 prompt 將模型生成高度難以置信的場景的能力擴充套件到訓練資料範圍之外。

藉助 DrawBench，研究者進行了廣泛的人工評估，結果表明，Imagen 的效能明顯優於其他方法。研究者進一步展示了相對於多模態嵌入（例如 CLIP），使用大型預訓練語言模型作為 Imagen 的文字編碼器具有明顯的優勢。

論文地址：https：//gweb-research-imagen。appspot。com/paper。pdf

不過，和前段時間大火的 DALLE 2 一樣，我們很難指望谷歌將這個模型開源。對此，有網友建議說，可以去 GitHub 上找一些「野生」復現來玩一玩，比如已經放出一段時間的「DALL-E 2-Pytorch」專案：

專案地址：https：//github。com/lucidrains/DALLE2-pytorch

Imagen 細節

Imagen 由一個文字編碼器和一系列條件擴散模型組成，前者將文字對映為一系列嵌入，後者將這些嵌入對映為解析度不斷提高的影象，如圖 Fig。 A。4 所示。

預訓練文字編碼器

在構建 Imagen 的過程中，研究者探索了幾個預訓練文字編碼器：BERT、T5 和 CLIP。為了簡單起見，他們凍結了這些文字編碼器的權重。凍結有幾個優點，例如嵌入的離線計算，這使得文字 - 影象模型訓練期間的計算或記憶體佔用可以忽略。

在這項工作中，研究者發現，擴充套件文字編碼器的大小可以提高文字到影象生成的質量。他們還發現，雖然 T5-XXL 和 CLIP 文字編碼器在 MS-COCO 等簡單基準上效能相似，但在 DrawBench 上的影象 - 文字對齊和影象保真度方面，人類評估員更喜歡 T5-XXL 編碼器而不是 CLIP 文字編碼器。

擴散模型和無分類器指導

擴散模型是一類生成模型，透過迭代去噪過程，將高斯噪聲從已知的資料分佈轉換為樣本。這類模型可以是有條件的，例如類標籤、文字或低解析度影象。

分類器指導是一種在取樣期間使用來自預訓練模型 p （c|z_t）的梯度來提高樣本質量，同時減少條件擴散模型多樣性的技術。無分類器指導是一種替代技術，透過在訓練期間隨機丟棄 c（例如 10% 的機率），在有條件和無條件目標上聯合訓練單個擴散模型，從而避開上述預訓練模型。

較大指導權重取樣器

研究者證實了最近的文字指導擴散工作的結果，並發現增加無分類器指導權重可以改善影象 - 文字對齊，但也會損害影象保真度，產生高度飽和、不自然的影象。他們發現這是由於高指導權重引起的訓練 - 測試不匹配所造成的。並且由於擴散模型在整個取樣過程中迭代地應用於其自身的輸出，取樣過程就產生了不自然的影象。

為了解決這個問題，他們研究了靜態閾值（static thresholding）和動態閾值（dynamic thresholding）。他們發現，動態閾值對於提升影象真實感和影象 - 文字對齊能力要有效得多，特別是在使用非常大的指導權重的時候。

穩健的擴散模型組

Imagen 利用一個 64 × 64 基本模型、兩個文字條件超解析度擴散模型將生成的 64 × 64 影象上取樣為 256 × 256 影象，然後再上取樣為 1024 × 1024 影象。具有噪聲調節增強的擴散模型組在逐步生成高保真影象方面非常有效。

此外，研究者透過噪聲水平調節使超解析度模型意識到新增的噪聲量，顯著提高了樣本質量，而且有助於提高超解析度模型處理較低解析度模型產生的 artifacts 的穩健性。Imagen 對兩個超解析度模型都使用了噪聲調節增強。研究者發現這是生成高保真影象的關鍵。

給定調節低解析度影象和增強水平（aug_level，例如高斯噪聲或模糊的強度），研究者用增強（對應於 aug_level）破壞低解析度影象，並在 aug_level 上調節擴散模型。在訓練期間，aug_level 是隨機選擇的，而在推理期間，可以掃描它的不同值以找到最佳樣本質量。在這項研究中，研究者使用高斯噪聲作為一種增強形式，並應用類似於擴散模型中使用的正向過程的方差來保持高斯噪聲增強。

神經網路架構

基本模型

研究者採用 U-Net 架構作為基本的 64 × 64 文字到影象擴散模型。該網路透過池化嵌入向量以文字嵌入為條件，加入到擴散時間步嵌入中，類似於［16， 29］中使用的類嵌入條件方法。透過在多解析度的文字嵌入上新增交叉注意力，研究者進一步對整個文字嵌入序列進行了限制。此外，他們在注意力層和池化層發現了用於文字嵌入、可以大大提高效能的層歸一化。

超解析度模型

對於 64 × 64→256 × 256 的超解析度模型，研究者採用了改編自［40，58］的 U-Net 模型。為了提高記憶體效率、推理時間和收斂速度，研究者對 U-Net 模型進行了一些修改（該變體比［40，58］中使用的 U-Net 模型的每秒速度快 2-3 倍），並稱這種變體為 Efficient U-Net。256 × 256→1024 × 1024 的超解析度模型是在 1024 × 1024 影象的 64×64 → 256×256 crop 上訓練的。他們去掉了自注意力層，但保留了文字交叉注意力層，這一點是很關鍵的。

在推理過程中，模型接收完整 256 × 256 低解析度影象作為輸入，輸出上取樣的 1024 × 1024 影象。注意，研究者在兩個超解析度模型上都使用了文字交叉注意力。

DrawBench

儘管 COCO 是一個很有價值的基準，但很明顯它的 prompt 範圍是有限的，不能很好地提供對模型之間差異的洞察。因此，研究者提出了 DrawBench，這是一個綜合的、具有挑戰性的 prompt 集，支援文字到影象模型的評估和比較。

DrawBench 包含 11 種類型的 prompt，用於測試模型的不同功能，比如顏色渲染、物件數量、空間關係、場景中的文字以及物件之間的非常規互動。類別中還包括複雜的 prompt，包括冗長複雜的文字描述、不常見詞彙以及拼寫錯誤的 prompt。此外也包含從 DALL-E、Gary Marcus et al。［38］、Reddit 收集的幾個 prompt 集。

在 11 個類別中，DrawBench 共包含 200 個 prompt，且在「足夠大而全面」與「足夠小而人工評估可行」之間取得了很好的平衡。圖 2 展示了來自帶有 Imagen 樣本的 DrawBench 的示例 prompt。

實驗

第 4。1 節描述了訓練細節，第 4。2 節和第 4。3 節分析了 MS-COCO 和 DrawBench 上的實驗結果，第 4。4 節總結了消融研究和主要發現。對於下面的所有實驗，影象是來自 Imagen 的公平隨機樣本，沒有後期處理或重新排序。

COCO 實驗結果

研究者使用了 FID 評分對 COCO 驗證集上的 Imagen 進行了評估，結果如表 1 所示。

Imagen 以 7。27 的得分在 COCO 上實現了 zero-shot FID 的 SOTA 結果，超越了 DALL-E 2 及其他同期工作，甚至超過了其他在 COCO 上訓練的模型。

表 2 展示了在 COCO 驗證集上測試影象質量和對齊的人工評估結果，包括原始 COCO 驗證集和過濾後的版本。在這個版本中，所有與人相關的參考資料都被刪除了。在沒有人的設定下，Imagen 的偏好率提高到了 43。6% ，這表明 Imagen 生成逼真人物的能力有限。在標題相似度方面，Imagen 的得分與原始的參考圖片相當，這表明 Imagen 有能力生成與 COCO 標題相一致的圖片。

DrawBench 實驗結果

使用 DrawBench，研究者將 Imagen 與 DALL-E 2 （公共版本）、 GLIDE、Latent Diffusion 和 CLIP-guided VQGAN 進行了比較。

圖 3 展示了三個模型中每一個模型對 Imagen 成對比較的人類評估結果，包括偏好模型 A、模型 B，或者不受影象保真度和影象文字對齊影響。可以看出，在圖文對齊和影象保真度方面，人類評估者極其偏愛 Imagen 模型。讀者可以參考附錄 E，瞭解更詳細的類別對比和定性對比。

更多研究細節，可參考原論文。

5月25日14：30，深度解讀從聯邦學習到可信聯邦學習的跨越路徑，從理論完美走向實用完美，一場隱私計算聯邦學習生態圈的研討盛宴，邀請您共同參與！

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com

原標題：《叫板DALL·E 2，預訓練大模型做編碼器，谷歌把文字轉影象模型捲上天》

農林漁牧網

叫板DALL·E 2，預訓練大模型做編碼器，谷歌把文字轉影象模型捲上天

相關文章