農林漁牧網

您現在的位置是:首頁 > 農業

生命的聖盃?谷歌解開生命奧秘?

2022-03-01由 讀芯術 發表于 農業

腺嘌呤是什麼字母

全文共

4484

字,預計學習時長

8

分鐘

生命的聖盃?谷歌解開生命奧秘?

Pawe Czerwiński釋出在 Unsplash上的

假如疾病不復存在會發生什麼?如果我們能像大自然一樣迅速獲取能量又會發生什麼?要是我們能夠在極短時間內迴圈塑膠、廢油、或其它的一些物質呢?如果人類能夠解開生命的奧秘,那麼以上這些想象將在未來成為現實。人工智慧企業DeepMind的資料科學分析師日前在此領域有了重大發現。以下為具體內容:

當今這個時代,是一個生命科學大爆發的新時代,也是一個由資料科學和機器學習驅動的新時代。在這一偉大時代背後,也有一家偉大的公司:Deepmind——谷歌的人工智慧研發實驗室。

DeepMind以其在人工智慧領域的成就而聞名,比如其AlphaGo和AlphaZero就是強化學習領域的兩大里程碑。最近,這兩大創造也引起了大眾的廣泛討論。

然而與此同時,來自同一個研發實驗室的另一個研究團隊同樣取得了一項重大成就,不過卻少有人問津。實際上,這個由資料科學家和資料工程師組成的團隊最近一直在研究一種新演算法。去年年底,他們將這一演算法公開發布,並把它命名為 “AlphaFold”。

生命的聖盃?谷歌解開生命奧秘?

圖為Deepmind發現的AlphaFold

建立Alphafold的目標是賦予人類一種全新的能力,即“破譯自然”——筆者將在下文對其進行詳細闡述。這種能力本專屬於大自然,即“生命的聖盃”。

生命的聖盃?谷歌解開生命奧秘?

到底發生了什麼?

去年年底,DeepMind研發的AlphaFold——一種基於人工神經網的演算法,在著名的CASP競賽中獲得第一名。CASP(CriticalAssessment of Structure Prediction)是一項發起於1994年兩年一度的科學競賽,目前已經舉辦13屆,它相當於分子生物學和蛋白質結構學界的奧斯卡獎。CASP評審小組(因此也可以把它當成奧斯卡獎評審團)會評估全球科學家和研究人員所遞交的發明專案。或許它沒有好萊塢那麼光彩照人,但其影響力確實比好萊塢還大。

人們可能會問,分子生物學和蛋白質結構有何魅力?為何能如此令人興奮?

或許,這就是AlphaFold不像AlphaGo和AlphaZero那樣受到公眾關注的原因之一。分子生物學?乍一聽起來太像化學和生物學了。我們大多數人從上學開始就對這些科目不感冒。蛋白質?它又是什麼?當然,我們知道它們的存在和重要性。但是…

蛋白質代表的意義遠不止於我們在超市買的產品背面的營養資訊。蛋白質是必不可少的,而且必須承認,蛋白質是相當令人興奮的。

生命的聖盃?谷歌解開生命奧秘?

蛋白質—自然的秘密媒介

蛋白質是一種小分子化合物,我們身體的每一個過程都需要它們。它們是一切生理功能的核心,是我們身體每個細胞的引擎,像特工一樣控制著發生在人體的一切:我們的荷爾蒙,我們的感情,出生,成長,疾病,幸福,生命,死亡。

它們在細胞分裂過程中傳遞物質,引發化學反應,保護細胞或形成新的DNA鏈。它們控制一切,所以他們控制了我們人類。但這又不僅適用於我們人類,地球上的每一個生物——無論大小和形狀——都建立於蛋白質結構之上。

從專業上講,蛋白質是由21種不同的氨基酸組成的鏈,也稱為多肽。每個氨基酸本身都是由以下4種可能的核苷組成的三聯體:

G(Guanin) G(鳥連素)

C (Cytosin) C(胞嘧啶)

A (Adenin) A(腺嘌呤)

T (Thymin) T(胸腺嘧啶)

生命的聖盃?谷歌解開生命奧秘?

3 核苷酸,也叫 Condon,是一種氨基酸。它主要的作用在於構建一個特定蛋白質的氨基酸的確切順序,編碼於人類DNA的雙螺旋中。(圖片來源— wikimedia)。

也就是說,21種相應的氨基酸可以組成64種可能的三聯體(4^3—4個核苷的三重體)。例如,氨基酸ala(丙氨酸)編碼為 gca、gcg、gcc或gct。

這就是DNA編碼功能的本質特性,如果有興趣,可以選三個核苷酸編碼一個特定的氨基酸。但是不能逆轉這個過程,也不能對人體細胞中某一氨基酸的原始三連體核苷酸序列進行精確的解碼。

生命的聖盃?谷歌解開生命奧秘?

核苷酸概覽以及其相關的氨基酸

儘管蛋白質是由非常簡單的組成單元氨基酸構成,但其具體結構複雜多樣。類似於各種小說和故事,雖然只是由26個簡單的英文字母所寫成,概念相似而簡單,但卻蘊含非常大的力量。

生命的聖盃?谷歌解開生命奧秘?

從26個字母到小說哈利波特我們可以看出,字母表是一個簡單卻有力量的概念,因為它能夠編碼資訊(Jack Anstey釋出在Unsplash上的圖片)

生命的聖盃?谷歌解開生命奧秘?

蛋白質是一系列氨基酸

除此之外,一些蛋白質有時會相互結合,在細胞中產生更大更復雜的結構。

最後一點,它們是以一種獨特且具體的方式在三維空間中摺疊鏈條,這一概念還未應用到小說創作中。(這是一個值得思考的有趣概念——如果字母和單詞不僅是二維的,而是三維的,這就意味著它們能編碼更多不同的資訊。)

在摺疊過程中,蛋白質尋找其最低能量狀態。就像一條拉長的橡皮筋,鬆開後會一起滾動。在一個蛋白質鏈中,存在著各種各樣的相互作用力。每個氨基酸相互吸引或排斥,從而影響摺疊過程中的最終狀態。

生命的聖盃?谷歌解開生命奧秘?

3D摺疊蛋白質動畫(連結來源: Proteoped

它如何工作

再做一個簡單的類比:可以將蛋白質結構與軟體程式碼進行比較。在這裡,程式碼不再由軟體工程師編寫,而是由大自然編寫。這套程式碼將告訴人們,體內器官和細胞該做什麼和不該做什麼。例如,何時分裂,何時進行某一化學反應,與另一分子連線,或者什麼時候毀滅自己。

既然我們的身體裡發生瞭如此多事情,因此需要很多這樣的小程式,並且每一個程式都有自己特定的任務。目前研究顯示,人體蛋白質種類數量大約在數萬至數十億之間。

每個蛋白質結構實際上都是一個單獨的軟體,它以一種非常特殊的方式與所有其他蛋白質相互作用。這在生物學中被描述為一個對接的過程:

生命的聖盃?谷歌解開生命奧秘?

蛋白質對接過程

(來源: https://en。wikipedia。org/wiki/Docking_(molecular))

換言之(依然用類比法解釋),每個蛋白質都有其特定的應用介面,即API,可允許它與其他蛋白質相互作用。因此,可以把體細胞中所有蛋白質及其API的編排看作是細胞的作業系統。

蛋白質就是大自然生命的作業系統。

一個特殊的作業系統

還有另一個更重要的問題需要解決:氨基酸的確切序列和蛋白質分子的摺疊由人類基因決定,換句話說,由人類DNA決定。既然每個人的DNA都獨一無二,因此蛋白質亦是如此。

儘管人類基因的變異率只有0。025%,但這個小數字卻有著重大影響,這就是為什麼會有“我”和“你”的區別。

這同樣適用於蛋白質——即使蛋白質的氨基酸序列有微小偏差或者其結構有錯誤摺疊,這也會在細胞的作業系統中引起嚴重問題。比如,這會引起老年痴呆症、帕金森症或其他疾病等問題。

生命的聖盃?谷歌解開生命奧秘?

現在回到Deepmind的傑作-AlphaFold

在過去的幾年裡,科學家花了很多時間來破譯人類DNA。與此同時,人類的DNA被編碼並廣為人知。

科學家們仍在努力攻克的是這個秘密的第二部分:一種蛋白質應如何摺疊才能正常工作。

同理,這就像知道組成某個軟體程式碼(DNA)的所有指令和關鍵字,但卻不知道它們的連結方式(摺疊)。只有當所有指令和關鍵字以正確順序排列時才有意義,並讓軟體正常工作。

製藥工業生產的藥物其實是一種模仿天然蛋白質的人工合成蛋白質。藥物之所以產生許多副作用,正是因為這些蛋白質沒有正確摺疊,因此無法與人類機體100%相容。

蛋白質摺疊問題就是生物醫藥領域的一個“聖盃”問題。

在第13屆CASP比賽中,Deepmind團隊研發的Alphafold已經提出了一個令人振奮的解決方案。以此,他們不僅贏得了第一名,而且也把競爭對手遠遠甩在身後。

Alphafolds演算法能夠正確預測43個給定蛋白質結構中25個的摺疊方式。58%的準確率(排名第二的團隊僅7%的準確率)意味著在58%的給定蛋白質中,他們能夠根據其DNA序列預測其三維摺疊結構。

生命的聖盃?谷歌解開生命奧秘?

AlphaFold預測的蛋白質結構(藍色)VS。實際結構

可以將其與哈利波特7本書中1084170個單詞的字母進行比較。把每一本書的字母打亂順序,放到一個巨大的拼字板上,然後逐詞重建所有7本書且保證完全正確。這是不可能的,對吧?

生命的聖盃?谷歌解開生命奧秘?

Joshua Hoehne在Unsplash上釋出的圖片

一個簡單的數學外推法說明了其背後的複雜性:

生命的聖盃?谷歌解開生命奧秘?

Dev Asangbam釋出在Unsplash上的圖片

想象一個三維立方體,其尺寸為3x3x3,它表示27個可能的立方體塊/位置。現在讓我們取一個簡單的氨基酸鏈,它只包含兩個氨基酸“A”和“B”,並在三維空間中表示出來。

氨基酸“A”可以定位在3D立方體的中間。現在,下一個氨基酸“B”在3D空間中有3x3x3–1=26個可選位置,可以連線到“A”。

現在讓我們來看看100個氨基酸鏈——實際上,這是一個相當短的蛋白質(Titin是目前已知最長的蛋白質,由34350個氨基酸組成)。對於100個氨基酸的蛋白質,可能的摺疊量增加到26^100,這一天文數字,末尾有141個零,大於整個宇宙中所有原子的數量(實際上比宇宙還大)。

根據Leventhal的悖論,要想找出這100個氨基酸鏈中哪一個是正確的,需要花費比宇宙年齡更長的時間來嘗試所有可能的摺疊方式。難以想象!

在未來,量子計算機可能能夠在這樣的維度上進行計算。今天,人們需要想出更聰明的解決方案,然後進行暴力計算。

經過數十億年的試驗和進化,大自然顯然也為這個問題找到了一個聰明的解決方案。想想看,這個過程在人類細胞中反覆進行了無數次,每次僅需幾毫秒,而且幾乎完美無缺。

自然之智慧依然無法企及。

生命的聖盃?谷歌解開生命奧秘?

AlphaFold的解決方案

這似乎不可能,但Alphafold的研究團隊第一次參加比賽就做到了!一個並非由分子生物學專家,而是由資料科學家和機器學習工程師組成的團隊做到了!

AlphaFold解決方案的核心是基於深度學習技術的巧妙組合。這似乎是解決這個問題的一個顯而易見的方法。

但細節令人難以置信,因為已知的蛋白質結構有很多(>150k),所以筆者猜測他們會在這個資料集上進行監督訓練。

他們的方法更聰明。基於蛋白質結構中氨基酸的遺傳序列,研究小組首先關注的是蛋白質結構的物理性質。

這一步驟的目標是:

(a)預測氨基酸對之間的距離。

(b)預測連線這些氨基酸的化學鍵之間的角度。

這裡應用的資料科學和機器學習技術是遞迴神經網路(rnns)和長期短期記憶(lstm)網路—一種特殊的rnn。

rnns和lstms廣泛用於處理時間序列資料和自然語言處理(nlp)。它們有一種“內建”記憶體,在這些用例中非常有用。在語境中,這是很明顯的——有些詞傾向於以某種組合出現,而另一些詞則更頻繁地以某種順序出現。在時間序列的情況下,它是相似的—一些事件更可能發生在與其他事件的上下文中。

這同樣適用於基因序列中的氨基酸,或者更確切地說是它們之間的距離和角度。真是太聰明瞭!

這是新的。這些特性的結合導致一對氨基酸在給定結構中彼此靠近的可能性,一個“相互摺疊的可能性”—如果你喜歡的話就得分。

生命的聖盃?谷歌解開生命奧秘?

圖源: Deepmind

使用這些評分功能Alphafold的團隊能夠

1。在真正的蛋白質資料庫中找到匹配的結構。

2。並訓練一個生成性神經網路(gan)來發明新的,最佳化的蛋白質片段。

創造最佳蛋白質片段並評估其得分和整個蛋白質鏈得分的能力是成功的關鍵。

現在AlphaFold能夠創造一個完整的蛋白質結構,計算它的分數,透過替換和重組氨基酸片段逐步最佳化它,直到收斂。在這種情況下,收斂意味著:最低能量態摺疊結構。

生命的聖盃?谷歌解開生命奧秘?

圖源: Deepmind

作為最後一步的最佳化演算法,Alphafold應用了梯度下降技術。

生命的聖盃?谷歌解開生命奧秘?

圖源: Deepmind

生命的聖盃?谷歌解開生命奧秘?

尾記

DeepMind在解決蛋白質摺疊問題上邁出了巨大的一步。解決那個問題似乎已是時間問題。

AlphaFold對我們人類、氣候、健康、能源的影響將無比巨大,這也在很大程度上歸功於人工智慧的應用。

筆者對未來充滿信心,Alphafold目前正在開發casp14版本的解決方案。這一版本的推出,將顯著提高現有58%準確率的基準。因此,筆者還沒有發表一篇關於AlphaFold解決方案的論文,來探討其背後細節。

讓我們一起期待著2020年底的CASP14吧!

生命的聖盃?谷歌解開生命奧秘?

留言點贊關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範