何愷明團隊新作劍指AIGC！只需一個trick，CLIP訓練速度快3.7倍

矯正視力5分制怎麼填

楊淨豐色發自凹非寺

量子位 | 公眾號 QbitAI

何愷明團隊又上新了。

這次，他們的成果圍繞當下最火的AIGC背後的CLIP展開。

——只在該模型的極簡結構上，施加了一個簡單的mask，就讓新模型的速度快了3。7倍。

同時，效能還可以做到

不降反升

。

團隊表示，希望他們的工作能幫助未來視覺語言模型實現規模化。

這波，讓大家直呼：不愧是何愷明，還是熟悉的味道啊～

是的，還是“大道至簡”的feel。

就連論文也一如既往，短短12頁，一行公式也沒有。

一起來拜讀吧。

引入類似MAE的mask

本文提出了一個用來訓練CLIP的快速、簡單且有效的方法

FLIP

。

Fast Language-Image Pre-training（快速文字-影象預訓練方法），也是很直接了。

簡單來說，就是基於原有的CLIP架構，對輸入影象的那一側，隨機掩蔽影象區塊，之後只對可見區塊編碼。

△

原有CLIP架構

更直白來講，對CLIP架構引入類似於MAE的思路，於是FLIP架構也就變成了這樣。

這樣一來，既可以減少計算量，提高訓練效率，相同的時間可以進行更多影象-文字樣本學習；每次迭代還能可對比更多樣本，但保持相似的記憶體佔用率。

具體來說，本文采用的是ViT作為影象編碼器。

影象首先被劃分為一個不重疊的網格，並隨機地遮蔽掉大部分的區塊。本文采用的遮蔽比例為

50%

、

75%

。隨後ViT只對可區塊編碼，時間複雜度相應降低為原來的二分之一（50%），或者四分之一（75%）。

同樣的方式還可以用到文字遮蔽上。不過研究者認為由於文字編碼器比較小，帶來的加速效果並不能帶來整體的增益。

不過跟MAE不同的是，此次FLIP並沒有對被遮蔽的影象內容

重建

，也沒有解碼器。

△

MAE架構

因為他們發現，放棄解碼器和重建可以產生更好的速度。雖然編碼器在被遮蔽的影象上進行了預訓練，但它可以直接應用在完整影象上。

相同效能，速度為3。7x

總的來看，採用了mask機制的FLIP相比CLIP，在準確性和訓練時間上取得了平衡，即效能在訓練時間大幅減少的情況下，不降反升。

——尤其是在mask程度高達50%和75%的情況下。

其中，當mask=75%時，FLIP達到和基線模型CLIP相同的效能時，訓練速度是它的3。7x。

這也就意味著，CLIP花費大約2500 TPU-days訓練完成時，FLIP可以大約節省1800 TPU-days。

這一結果在ImageNet-1K驗證集上的Zero-shot transfer任務中得出，每個不同mask比例的模型都在LAION-400M上進行了6。4、12。8或32個epoch的訓練，包含了4億個影象-文字對。

接著，採用64k batch，50% mask比和unmasked微調的FLIP，在ImageNet-1K分類資料集上的三個主要指標上也獲得了比CLIP更好的效能。

注：是比他們復現出來的CLIP更好，和原始CLIP還差一點，當然，兩者資料集不一樣。

而在基於各類資料集的大量下游任務中（包括零樣本分類、文字/圖片檢索等），FLIP同樣表現出了優勢，且基本全線碾壓了CLIP（見綠色高亮，幾乎點滿）。

最後，對於FLIP模型的scale up也是一大看點，結果可圈可點。

可以看到，當增加FLIP的

模型大小和資料規模

時，FLIP繼續漲點，尤其增加模型大小時最為明顯（最左）。不過單純增加訓練時長基本沒用（最右）。

從下表我們還能看出，模型大小和資料規模一起增加，效果又上了一個新高度。證明大模型+大資料就是好使。

何愷明擔任通訊作者

FLIP一共5位作者。

3位共同一作，都是FAIR研究工程師。其中：

Li Yanghao，本碩畢業於北京大學計算機科學專業，已發表多篇頂會；

Fan Haoqi，畢業於CMU機器人學院；

Hu Ronghang，本科畢業於清華，2020年博士畢業於UC伯克利。

通訊作者有兩位：

何愷明和他的同事Christoph Feichtenhofer，擁有同等指導貢獻。

One More Thing

值得一提的是，有細心的網友統計了近三年CVPR引用量最高的論文（截至2022年11月），分別是

Moco

（2020）、

SimSiam

（2021）、

MAE

（2022）。

而這三篇文章唯一的共同作者就是何愷明，其中兩篇還是一作，且都是與自監督學習相關。據谷歌學術統計，目前他們的引用量分別為5224、1374、834。

愷明大神還是一如既往地穩定發揮呀~

對於他們團隊的最新力作，你怎麼看？

比如，為什麼對影象patch進行了隨機mask，反而讓模型效能不降反升呢？

農林漁牧網

何愷明團隊新作劍指AIGC！只需一個trick，CLIP訓練速度快3.7倍

相關文章