農林漁牧網

您現在的位置是:首頁 > 漁業

AlphaFold預測出35萬個蛋白結構?“狂歡”之餘還需冷靜

2022-03-13由 知識分子 發表于 漁業

優勢構象式怎麼寫

AlphaFold預測出35萬個蛋白結構?“狂歡”之餘還需冷靜

有評論認為,AlphaFold對人類蛋白質組的結構進行“準確”預測所帶來的衝擊是 “革命性” 的 | 圖源:pixabay。com

導 讀

過去兩週,生物學界因《自然》先後發表的兩篇論文陷入“狂歡”。一篇是DeepMind公司公佈了其開發的人工智慧(AI)軟體AlphaFold的原始碼,另外一篇稱AlphaFold實現了對人類蛋白質組的準確結構預測,其資料集涵蓋了人類蛋白質組近60%氨基酸的結構位置預測,且預測結果具有可信度,並將透過歐洲生物資訊研究所(EMBL-EBI)託管的公用資料庫免費開放。

有評論認為這一技術帶來的衝擊是“革命性”的,是本世紀最重要的科學突破之一,將深刻地改變生命科學的程序和工作正規化;也有科學家認為,AlphaFold在工程上確實做得令人印象深刻,但從基本概念和思想上來說,有一些創新,但不是很多,其影響究竟如何,等過幾年評價會更客觀。

撰文|邸利會 陳曉雪

責編|陳曉雪

2017年,谷歌旗下DeepMind公司開發的AlphaGo機器人戰勝了世界圍棋冠軍柯潔。在一年之後的演講中,柯潔回憶當時的場景說,在第三局AlphaGo下出令他絕望的一步棋,內心知道獲勝無望後,他感到渾身寒冷的顫抖。不過,柯潔最終釋然,這是人類新智慧戰勝了古老智慧的標誌,他希望人類實現更多這樣的自我超越。

在過去的幾年裡,各個行業都在拓展人工智慧(AI)的能力邊界,圖片影片的搜尋、語音識別、人臉識別、自動駕駛、醫療影像,其中也包括了科研領域——天文學家已經用深度學習

(Deep Learning)

對海量的天體自動分類、發現稀有的天體、探測引力波、發現系外行星。如今,傳統上被認為是實驗科學的生物學也因人工智慧迎來了鉅變。

這一次,源頭正是DeepMind團隊的人工智慧軟體系統

AlphaFold

7月23日,DeepMind團隊和歐洲生物資訊研究所

(EMBL-EBI)

合作,釋出由人工智慧系統AlphaFold預測的蛋白結構資料庫

(AlphaFold Protein Structure Database)

,供科學家免費使用。如同人類基因組圖譜的公佈代表著基因組學革命的起點,這一資料庫的釋出很快被認為有望為生命科學帶來革命性的變化。

不過,釋出後初步試用過這一系統的科學家,在接受《知識分子》採訪時對其評價不一。有科學家認為在其解析蛋白結構預測上給了自己更多的靈感,但也有科學家在對比AlphaFold預測的結果和自己已經解析出結構但未發表文章的資料之後,發現AlphaFold預測的大部分結果不對,因此認為AlphaFold對自己的工作(幫助)作用不大。

“革命性的改變”?

“革命性的改變”

,文章一經發布,在和業內多位結構生物學家聊過後,這是《知識分子》聽到的最多的描述。一向桀驁不馴的結構生物學家,似乎要謙虛接受這一行業因為人工智慧而極大加速的事實。

此次公佈的AlphaFold蛋白結構資料庫,

覆蓋了人類以及20種生物學研究中常用模式生物

(大腸桿菌、果蠅、斑馬魚、小鼠等)

約35萬個蛋白結構,其中包括98.5%的人類蛋白結構預測結果。

此前,科學家們在數十年的努力之後,解析的蛋白結構只覆蓋了人類蛋白序列中17%的氨基酸。在《自然》雜誌發表的論文中,研究人員指出,AlphaFold能夠對人類蛋白質組中58%的氨基酸的結構位置做出可信預測

(confident prediction)

,對35。7%的氨基酸的結構預測達到很高的置信度

(very high confidence)

DeepMind和歐洲生物資訊研究所還表示,雙方將不斷為這一資料庫新增新的蛋白三維預測結構。到今年年底,資料庫可能包含1。3億個蛋白結構。DeepMind團隊的目標是為所有具有已知序列的蛋白提供預測結構。

“我覺得這個對結構生物學而言又是一次革命,將大大提升結構生物學研究的水平和速度。目前短期來看實驗手段還是金標準,但是這個標準是否消失或者被取代還要看今後一段時間的情況。” 西湖大學特聘研究員

周強

告訴《知識分子》。

生物學一直以來是以實驗為基礎的學科,實驗手段測定的資料因此成為認知的金標準

(gold standard)

。周強認為,如果預測的結果屢次被實驗證實的話,那麼預測所用的工具或者規律將上升到定律的高度,從而改變研究者的認知和研究的正規化。

歷史上,伴隨著解析蛋白結構的工具的日益強大,結構生物學也獲得了重大發展。最早是X射線晶體衍射,之後是冷凍電鏡。第三次是結合了強大計算力和演算法的新一代人工智慧技術,而這一切來的如此之快。

2020年11月30日,AlphaFold在第14屆國際蛋白質結構預測競賽

(CASP)

中摘得桂冠,

在接受檢驗的近100個蛋白靶點中,AI系統對三分之二的蛋白靶點給出的預測結構與實驗手段獲得的結構相差無幾。

當時,DeepMind在官網釋出新聞稿,稱對於困擾生物學界50年的 “蛋白質摺疊” 難題,AlphaFold系統已成為業內專家認可的解決方案;

Nature

新聞更是以 “it will change everything”

(將改變一切)

作為標題,指出DeepMind在解決蛋白結構問題上 “邁出一大步”。

僅僅過了半年,2021年7月16日,DeepMind團隊就在《自然》雜誌上發表論文,公開了最佳化後的AlphaFold人工智慧系統的原始碼,並詳細描述了其設計框架和訓練方法。

如今,一個包含了預測的約35萬個蛋白結構預測資訊的資料庫問世。

工程創新 “令人印象深刻”

專注於使用深度學習預測蛋白質結構的芝加哥大學豐田計算技術研究所終身教授

許錦波

認為,做分子生物學的很多人一直都在用人工智慧手段預測出來蛋白結構,“現在

(AlphaFold)

有更準確的預測,對他們的幫助應當會更大”。

專注於使用深度學習預測蛋白質結構的芝加哥大學豐田計算技術研究所終身教授許錦波認為,做分子生物學的很多人一直都在用人工智慧手段預測蛋白結構,“現在

(AlphaFold)

有更準確的預測,對他們的幫助應當會更大”。

許錦波解釋,AlphaFold在預測一個目標蛋白質的結構的時候,會先在已有的蛋白質序列和結構資料庫裡面尋找這個目標蛋白質的同源蛋白。這些同源蛋白跟目標蛋白在序列上可能不太一樣,但是結構是相似的。這些同源蛋白構成了AlphaFold神經網路的輸入。

透過使用基於注意力機制的神經網路以及現有實驗結構的訓練,AlphaFold可以從同源蛋白中預測出目標蛋白氨基酸之間的相互作用強度圖。然後AlphaFold利用另外的神經網路以及蛋白質結構固有的物理約束從氨基酸之間的相互作用強度生成目標蛋白質原子的三維座標。

對於AlphaFold的預測精度,許錦波稱,這依賴於同源蛋白的數量和相似性,以及同源蛋白是否已經有實驗結構。如果同源蛋白數量很少又沒有實驗結構,那麼AlphaFold一般就很難做出準確的預測

(當然也有例外)

“至於是不是本世紀最重要的科學突破之一 ,每個人的看法不一樣,再過幾年評價會更客觀一些。” 許錦波說。他指出,人類蛋白質結構對很多問題很重要,但並不是說有了結構其他問題就能很容易解決,比如說藥物發現和設計, 蛋白相互作用等等,這些問題依然存在。

他評價,從基本概念和思想上來說,Alphafold有一些創新,但不是很多,在工程上確實做得非常 “impressive”

(令人印象深刻)

“這場蛋白結構預測的革命其實是從我2017年1月份發表的一篇論文開始的。DeepMind 把這個過程加速了,沒有他們

(DeepMind團隊)

,學術界可能還需要5,6年或更長時間。” 許錦波說。

2017年1月,許錦波首次提出使用全域性性的深度卷積殘差神經網路

(Deep Convolutional Residual Neural Network)

的方法去預測接觸圖或者距離圖,以預測蛋白的三維結構,而這是AlphaFold系統執行的重要基礎。不同的是,AlphaFold把卷積換成注意力機制,也把氨基酸之間的距離圖換成相互作用圖。

“使用基於神經網路的深度學習預測蛋白結構,之前已經有很多人在做,但是DeepMind把它做到了極致,證明人工智慧預測蛋白結構可行。”清華大學生命科學學院教授

王宏偉

也評價稱,“

(AlphaFold)

更多的是一種工程層面的組織”。

王宏偉

指出,這種新型的科研正規化,與大學實驗室一兩個人或者幾個人去做研究非常不同。“它其實是透過一種公司的組織方式,把相關的不同多個領域的專家,包括結構生物學專家、生物資訊學的專家,結構預測的專家,計算機的專家,人工智慧的專家,把他們組合到一塊,一起透過這種新的組織方式去做這樣的事情,然後利用公司的非常強大的資源作為支撐去做”。

值得注意的是,DeepMind公佈Alpahfold原始碼這天

(7月16日)

,華盛頓大學David Baker團隊也公佈了自己的人工智慧預測蛋白結構的系統RoseTTAFold原始碼。

不管是否因學術界的壓力公佈原始碼,王宏偉說,DeepMind最終沒有把Alpahfold作為公司自己的獨有的技術封存起來,這次完全公開,“我覺得對於整個人類來講是一個很重要的貢獻”。

搶飯碗還是賦能結構生物學?

伴隨著AlphaFold強大的預測能力,也許,今後解析一個蛋白結構不再那麼難。

“計算驗證生物學時代羞羞答答地正式開啟。” 清華大學生命科學學院教授

楊茂君

評論說。

他所說的計算驗證生物學,可以理解為在人工智慧完成蛋白結構的預測後,科學家再用實驗的方法進行驗證。

“以前要想看到結構,再去闡述的話很困難,因為獲取結構的過程比較困難,但如果有這個軟體,兩三分鐘就可以給出一個大致的模型,就可以很容易進行闡述,然後做幾個蛋白突變,就可以驗證你的想法,所以說叫做結構驗證學。”楊茂君說。

而僅僅驗證的話,工作量就要低很多。

可以預見的是,結構生物學會越來越簡單了。

“上手做結構的人會越來越多,對其他的學科的研究肯定會有很強的促進作用,也會越來越重視結構生物學,以前解結構實在太困難了。” 楊茂君說。

AlphaFold開源後,清華大學醫學院教授

李海濤

很快就嘗試測試了這一系統。他的判斷是,AlphaFold作為一種蛋白結構預測工具,可以更早地啟迪新發現。

李海濤向《知識分子》展示了AlphaFold預測的一種表觀調控蛋白的三維結構,這個蛋白有兩個間隔甚遠的結構域,它們各自的結構先前己分別得到解析,但沒有資料表明二者有直接關聯,而AlphaFold的預測啟示這兩個結構域可以相互倚靠,形成更高階的結構,極可能對應著全新的調控功能。

李海濤說,儘管這一點仍待實驗驗證,但這已經帶給他莫大的驚喜。“原本這要歷經數年探索加上機遇才能夠意識到的發現,現在有了人工智慧結構預測,讓我超前意識到了。”

接下來,李海濤團隊要做的,就是對這一啟示進行生化與結構驗證,然後設計下一步的功能實驗,探究這一發現的生理和病理意義。

在李海濤看來,高質量的AI預測結構,將充分釋放結構生物學的學科能量,使其能更高效地服務於闡明結構如何決定功能這一根本宗旨。與此同時,這對單純靠蛋白結構解析發高影響力論文的研究模式造成了衝擊一一AI預測所帶來的研究正規化轉變開啟了一個發現與功能導向的結構生物學新時代。

清華大學生命科學學院教授王宏偉也認為,人工智慧極大地釋放了勞動力,使得結構生物學家未來可以把更多的精力放在理解更加複雜的複合體的結構,分析生物大分子結構的動態,以及分子機制的研究上,而不是花費大量精力和時間在解結構的過程中。

李海濤和王宏偉還不約而同地表示,冷凍電鏡將在驗證人工智慧預測發揮更大的作用,正是因為預測蛋白結構的準確率和速度越來越快,會有更多的驗證工作要去做。另外,冷凍電鏡最重要的優勢就是在解析複合體的結構和解決溶液與原位狀態不同構象的分子機器的結構,而這是人工智慧目前無法做到的。

“毋庸置疑的是,近年來隨著AI和算力的快速發展,生命科學的各個領域將面臨逐步智慧化的升級。從AI的角度,蛋白質結構預測在一定程度上是生命活動中相對比較容易建模的過程,較少依賴大資料。隨著AI進入生命科學的深水區,我預計各種生理病理狀態下的蛋白質組大資料水平的累積將對AI廣泛用於生命健康有至關重要的作用。” 西湖大學特聘研究員

郭天南

告訴《知識分子》。

尚有侷限

不過,AlphaFold預測的結構仍然有很多侷限。

論文作者指出,很多蛋白透過與其它蛋白、核苷酸或配體結合來行使功能,

AlphaFold尚且不能預測複雜複合體的三維結構。

此外,蛋白構象很多情況下是動態過程,同一個蛋白可能根據環境和其它因素,變換成不同的構像並且具有不同的功能,而AlphaFold通常只能預測出一個最優構象,也不能預測蛋白的動態過程。

“AlphaFold的確是非常強大,可以把幾分鐘就把一個結構給預測出來,但是蛋白分子的構象在體內,其實它是在不停的變化的,是一個動態過程。

變化才是主題,再強的演算法也很難達到精準預測。

” 楊茂君說。

對於AlphaFold,

在經歷了短暫的興奮之後,楊茂君發現,AlphaFold帶給結構生物學家的衝擊,可能沒有想象中那麼大。

他告訴《知識分子》,他的實驗室有十多個已經解出來但未發表文章的蛋白結構,但與AlphaFold的預測對比之後,“差別太大了,預測的結果沒什麼用。”

楊茂君說,AlphaFold對已經有結構的同源蛋白質的預測相對來說準確度會高一些,但因為他們實驗室做的蛋白結構,很多都是別人以前沒解析過的,“所以說它

(DeepMind團隊)

才預測出來就不準嘛,這個也是它的侷限性所在。”

"人工智慧只能預測有結構的序列的結構,而對於沒結構的氨基酸序列,AlphaFold也無從做出結構預測。"

清華大學醫學院教授李海濤表示,蛋白質特定結構的形成有著嚴謹的生化原則約束,這就像特定語法約束著語言形成一樣,並不是任何文字組合都有語義。

而AlphaFold做的,就是把自然界中經億萬年進化而選擇下來的擁有特定結構的氨基酸序列的結構預測出來。這顯然受惠於測序大資料的建立,它使得我們知道哪些氨基酸的排列組合是自然選擇下來能形成特定結構、行使特定功能的序列精華。對於隨機序列而言,絕大部分情況下,一級序列並不能決定三維結構,AlphaFold當然也就“無能為力”去預測結構了。

"從某種意義上講,AI結構預測突破帶來的一個全新挑戰其實是一一哪段序列有結構?在AI的輔助下,人類認知有望全面實現從大自然的序列啟示到人工結構設計的昇華。"李海濤說。

“這一里程碑式的進展,距離人類完全解析生命活動的奧秘仍有較大的距離。首先,蛋白質組具有高度複雜的結構和動態,複雜蛋白質複合體的結構解析仍是一個挑戰;其次,蛋白質結構在不同生理病理狀態下的動態也是尚未解決的難題。”西湖大學特聘研究員郭天南說,“除了結構解析,蛋白質組在不同組織細胞和生理病理狀態下的表達和功能活性,則需要更多的技術手段進行研究,比如質譜技術。”

參考文獻

1。 Tunyasuvunakool, K。, Adler, J。, Wu, Z。 et al。 Highly accurate protein structure prediction for the human proteome。 Nature (2021)。 https://doi。org/10。1038/s41586-021-03828-1

2。 Jumper, J。, Evans, R。, Pritzel, A。 et al。 Highly accurate protein structure prediction with AlphaFold。 Nature (2021)。 https://doi。org/10。1038/s41586-021-03819-2

3。 Baek, Minkyung, Frank DiMaio, Ivan Anishchenko, Justas Dauparas, Sergey Ovchinnikov, Gyu Rie Lee, Jue Wang et al。 “Accurate prediction of protein structures and interactions using a three-track neural network。” Science (2021)。DOI: 10。1126/science。abj8754