農林漁牧網

您現在的位置是:首頁 > 農業

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

2022-03-07由 量子位 發表于 農業

芝麻街裡面的人物叫什麼

蕭簫 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

最新訊息,谷歌推出了NLP系列「芝麻街」的新成員

Big Bird

這個在外界眼中看起來有點可愛的動漫小鳥,搖身一變,解決了BERT模型中的全注意力機制帶來的

序列長度二次依賴限制

,可以兼顧更長的上下文。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

△ 「芝麻街」中的Big Bird

眾所周知,谷歌開發的BERT,曾經被稱為「地表最強」NLP模型。

而BERT,則與美國知名動畫片「芝麻街」(Sesame Street)裡的虛擬人物同名。

此前,谷歌的「芝麻街」系列已經有5個成員(論文連結見傳送門),現在Big Bird的到來,意味著谷歌在NLP的研究上更進一步。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

△ 少了一位ELMo

來看看Big Bird實現了什麼。

突破全注意力機制的侷限

在NLP模組表現最好的幾種深度學習模型,例如BERT,都是基於

Transformer

作為特徵抽取器的模型,但這種模型有它的侷限性,核心之一就是

全注意力機制

這種機制會帶來序列長度二次依賴限制,主要表現在儲存方面。

為了解決這個問題,團隊提出了一種名為Big Bird的稀疏注意力機制。

作為

更長序列

上的Transformers,Big Bird採用稀疏注意力機制,將二次依賴降至線性。

下面這張圖片,展示了Big Bird所用的注意力機制模組構建。

其中,白色的部分代表著注意力的空缺。

圖(a)表示r=2的隨機注意力機制,圖(b)表示w=3的區域性注意力機制,圖(c)表示g=2的全域性注意力機制,圖(d)則是前三者融合起來的Big Bird模型。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

之所以提出這樣的模型,是因為團隊希望能在將二次依賴降至線性的同時,Big Bird的模型還能最大程度上接近並保持BERT模型的各項指標。

從下圖來看,無論是單一採用隨機注意力機制、區域性注意力機制,還是二者結合的方式,都沒有將三者進行結合的效果好。

也就是說,隨機+區域性+全域性的注意力機制融合,最大程度上接近了BERT-base的各項指標。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

不僅如此,這種稀疏注意力機制的一部分,還包括了採用O(1)的全域性詞例(global token),例如CLS。

這部分使得長程注意力開銷從O(N√N)降至O(N)。

NLP問答和摘要任務中超越了SOTA

模型採用Books、CC-News、Stories和Wikipedia幾種資料集對四類模型進行了訓練,根據留出法評估,BigBird-ETC的損失達到了最低。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

從結果來看,Big Bird在

問答

任務中展示出的精度非常不錯。

下圖是Big Bird與RoBERTa和Longformer對比所展現出來的精度效果,可以看見,在各項資料及上,BigBird的兩個模型都展現出了更高的精度。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

而在對模型進行微調後,可以看見,BigBird-ETC在HotpotQA的Sup、NaturalQ的LA、TriviaQA的Verified和WikiHop上均超越了SOTA。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

與此同時,Big Bird在NLP的

摘要

任務中表現也比較亮眼。

摘要,顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章資料集Arxiv、PubMed和BigPatent中測試的效果。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

從圖中來看,與其他非常先進的NLP模型相比,BigBird極大地提高了摘要任務的各項精度,效能表現非常優異。

不僅如此,Big Bird被證明是

圖靈完備

的,這也就意味著,一切可以計算的問題,Big Bird都能計算,理論上,它能夠用來解決任何演算法。

此外,Big Bird在基因組資料處理方面也極具潛力。

但雖然如此,也有網友認為,這樣的模型與Longformer在概念上並無本質區別,不能算是一個大突破。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

你怎麼看?

作者介紹

論文的兩位共同一作是Manzil Zaheer和Guru Guruganesh,均來自谷歌。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

△ Manzil Zaheer

Manzil Zaheer,CMU機器學習博士,3篇論文曾經發表於NIPs上,除此之外,在ACL和EMNLP等頂會上也發表過相應文章。

谷歌新模型突破BERT侷限:NLP版「芝麻街」新成員Big Bird長這樣

△ Guru Guruganesh

Guru Guruganesh,CMU機器學習博士,主要在近似演算法、拉姆齊定理、半正定規劃等方向有所研究。

傳送門

「芝麻街」系列論文列表:

ELMo:https://arxiv。org/abs/1802。05365

BERT:https://arxiv。org/abs/1810。04805

ERNIE:https://arxiv。org/abs/1904。09223

Grover:https://arxiv。org/abs/1905。12616

KERMIT:https://arxiv。org/abs/1906。01604

Big Bird:https://arxiv。org/abs/2007。14062