農林漁牧網

您現在的位置是:首頁 > 漁業

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

2022-12-31由 量子位 發表于 漁業

矯正視力5分制怎麼填

楊淨 豐色 發自 凹非寺

量子位 | 公眾號 QbitAI

何愷明團隊又上新了。

這次,他們的成果圍繞當下最火的AIGC背後的CLIP展開。

——只在該模型的極簡結構上,施加了一個簡單的mask,就讓新模型的速度快了3。7倍。

同時,效能還可以做到

不降反升

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

團隊表示,希望他們的工作能幫助未來視覺語言模型實現規模化。

這波,讓大家直呼:不愧是何愷明,還是熟悉的味道啊~

是的,還是“大道至簡”的feel。

就連論文也一如既往,短短12頁,一行公式也沒有。

一起來拜讀吧。

引入類似MAE的mask

本文提出了一個用來訓練CLIP的快速、簡單且有效的方法

FLIP

Fast Language-Image Pre-training(快速文字-影象預訓練方法),也是很直接了。

簡單來說,就是基於原有的CLIP架構,對輸入影象的那一側, 隨機掩蔽影象區塊,之後只對可見區塊編碼。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

原有CLIP架構

更直白來講,對CLIP架構引入類似於MAE的思路,於是FLIP架構也就變成了這樣。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

這樣一來,既可以減少計算量,提高訓練效率,相同的時間可以進行更多影象-文字樣本學習;每次迭代還能可對比更多樣本,但保持相似的記憶體佔用率。

具體來說,本文采用的是ViT作為影象編碼器。

影象首先被劃分為一個不重疊的網格,並隨機地遮蔽掉大部分的區塊。本文采用的遮蔽比例為

50%

75%

。隨後ViT只對可區塊編碼,時間複雜度相應降低為原來的二分之一(50%),或者四分之一(75%)。

同樣的方式還可以用到文字遮蔽上。不過研究者認為由於文字編碼器比較小,帶來的加速效果並不能帶來整體的增益。

不過跟MAE不同的是,此次FLIP並沒有對被遮蔽的影象內容

重建

,也沒有解碼器。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

MAE架構

因為他們發現,放棄解碼器和重建可以產生更好的速度。雖然編碼器在被遮蔽的影象上進行了預訓練,但它可以直接應用在完整影象上。

相同效能,速度為3。7x

總的來看,採用了mask機制的FLIP相比CLIP,在準確性和訓練時間上取得了平衡,即效能在訓練時間大幅減少的情況下,不降反升。

——尤其是在mask程度高達50%和75%的情況下。

其中,當mask=75%時,FLIP達到和基線模型CLIP相同的效能時,訓練速度是它的3。7x。

這也就意味著,CLIP花費大約2500 TPU-days訓練完成時,FLIP可以大約節省1800 TPU-days。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

這一結果在ImageNet-1K驗證集上的Zero-shot transfer任務中得出,每個不同mask比例的模型都在LAION-400M上進行了6。4、12。8或32個epoch的訓練,包含了4億個影象-文字對。

接著,採用64k batch,50% mask比和unmasked微調的FLIP,在ImageNet-1K分類資料集上的三個主要指標上也獲得了比CLIP更好的效能。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

注:是比他們復現出來的CLIP更好,和原始CLIP還差一點,當然,兩者資料集不一樣。

而在基於各類資料集的大量下游任務中(包括零樣本分類、文字/圖片檢索等),FLIP同樣表現出了優勢,且基本全線碾壓了CLIP(見綠色高亮,幾乎點滿)。

最後,對於FLIP模型的scale up也是一大看點,結果可圈可點。

可以看到,當增加FLIP的

模型大小和資料規模

時,FLIP繼續漲點,尤其增加模型大小時最為明顯(最左)。不過單純增加訓練時長基本沒用(最右)。

從下表我們還能看出,模型大小和資料規模一起增加,效果又上了一個新高度。證明大模型+大資料就是好使。

何愷明擔任通訊作者

FLIP一共5位作者。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

3位共同一作,都是FAIR研究工程師。其中:

Li Yanghao,本碩畢業於北京大學計算機科學專業,已發表多篇頂會;

Fan Haoqi,畢業於CMU機器人學院;

Hu Ronghang,本科畢業於清華,2020年博士畢業於UC伯克利。

通訊作者有兩位:

何愷明和他的同事Christoph Feichtenhofer,擁有同等指導貢獻。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

One More Thing

值得一提的是,有細心的網友統計了近三年CVPR引用量最高的論文(截至2022年11月),分別是

Moco

(2020)、

SimSiam

(2021)、

MAE

(2022)。

何愷明團隊新作劍指AIGC!只需一個trick,CLIP訓練速度快3.7倍

而這三篇文章唯一的共同作者就是何愷明,其中兩篇還是一作,且都是與自監督學習相關。據谷歌學術統計,目前他們的引用量分別為5224、1374、834。

愷明大神還是一如既往地穩定發揮呀~

對於他們團隊的最新力作,你怎麼看?

比如,為什麼對影象patch進行了隨機mask,反而讓模型效能不降反升呢?