農林漁牧網

您現在的位置是:首頁 > 林業

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

2022-04-20由 DrugAI 發表于 林業

protein l有用嗎

作者 | 羅曉妍

審稿 | 金淑婷

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

蛋白從頭設計是蛋白質工程的長期課題,目前計算方法難以將蛋白序列對映至其功能。然而,今年3月Nature Machine Intelligence發表的一篇文章,似乎找到了序列與功能間的對映之法。作者提出ProteinGAN,一種基於自注意力機制的生成對抗網路,能夠“學習”天然蛋白序列的多樣性,並且進一步生成功能蛋白序列。ProteinGAN從複雜的多維氨基酸序列空間中學習序列間的進化關係,經實驗驗證,生成了具有天然物理性質的新序列。

1

研究背景

蛋白的三維結構、物理化學性質和分子功能均由其氨基酸序列來決定。計算方法能夠直接生成新的功能序列變體,避免在巨大的蛋白質序列空間中進行實驗篩選,滿足了生物醫學和生物技術領域對新蛋白質多樣性的需求。傳統的生物資訊學方法,如基於隱馬爾可夫模型(HMM)的方法,以及最近的機器學習方法,已經證明了從天然蛋白質序列中捕獲結構和進化資訊的巨大潛力。蛋白質研究中現有的大多數機器學習模型,是利用現有的資料對模型進行訓練,以預測給定蛋白質序列的性質。生成模型能夠學習底層資料分佈並從中生成新的樣本,因此,從理論上說,生成模型可以學習功能蛋白質序列空間的分佈,並生成新的功能蛋白質序列,探索更多未知的功能序列,最大限度地減少對非功能序列的實驗消耗。

因此,作者提出ProteinGAN,一種生成對抗網路模型,能夠產生具有天然生化特性的新的功能蛋白序列。該方法證明了神經網路具有透過學習氨基酸之間複雜的進化依賴關係和泛化蛋白質序列空間的能力,可以產生高度多樣化的序列。以蘋果酸脫氫酶(MDH)為例,作者透過實驗展示了ProteinGAN產生功能齊全的多種酶蛋白的潛力,生成的序列中,發生超過100個位點突變的序列與天然酶的活性相近。

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

圖1 ProteinGAN訓練方案

2

模型方法

神經網路結構

GAN結構包括兩部分,生成器和判別器,本文中這兩部分都使用了ResNet blocks。判別器中的每個block是由3個卷積核大小為3的一維卷積層構成,Leaky ReLU作為啟用函式。生成器的殘差塊包含兩層轉置卷積層,用來做上取樣。由於CNN無法捕獲遠距離資訊,作者使用了膨脹卷積。用膨脹卷積擴大感受野,膨脹率隨著block的增加逐漸擴大,到網路的最後一層時,卷積核已經有足夠的感受野來捕獲長距離的關係。生成器和判別器同時應用了自注意力機制,用自注意力層捕獲蛋白的功能區域,突出整個序列中不同的重要區域。作者實驗了多種損失函式,最終根據實驗結果選擇了帶R1正則化的non-saturating loss。具體架構如下圖所示。

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

圖2 判別器與生成器網路結構圖

訓練資料

從UniProt資料庫下載得到細菌MDH序列,長度超過512個氨基酸或含有非標準氨基酸的序列被移除。最終保留16,898條序列,使用MMseq2對序列按一致性70%進行聚類以平衡訓練資料集。其中,在序列數小於3的聚類中隨機選擇192條序列(全體樣本的20%)作為驗證集,剩下的作為訓練集(16,706條)。

訓練過程

生成器和判別器交替訓練。為了避免生成偏向於具有大量同源物的序列,對較小的聚類在訓練期間進行動態向上取樣。為了跟蹤效能和GAN損失,作者在訓練過程中不斷評估生成的資料。在不停止訓練過程的情況下,每執行1200次梯度更新,生成的序列就會自動與訓練和驗證資料集對齊(BLAST工具)。在整個訓練過程中,計算和監測序列的一致性分數。

3

實驗結果分析

生成網路的潛在空間編碼蛋白質特徵

ProteinGAN基於生成對抗網路,它擴充套件了基於對齊的方法,獨立地處理每個氨基酸。具體來說,ProteinGAN體系結構是一個時域卷積網路,旨在同時分析區域性和全域性序列特徵,即捕獲序列基序和長距離關係。此外,為了使ProteinGAN專注於對功能有重要影響的序列區域,作者還引入了一個自注意力層。該網路的最終架構包括45層,有超過6000萬個可訓練引數。

為了評估ProteinGAN的效能,並證明神經網路可以泛化蛋白質家族序列空間,從而產生不同的功能蛋白質,作者在一個細菌MDH酶家族上訓練了神經網路。透過量化生成序列與自然序列的相似性來評估訓練的進度。每1200個learning steps,生成64個序列,並計算它們與訓練和驗證資料集中的天然序列的一致性。經過250萬個learning steps後訓練結束,生成的序列集和天然序列集之間的序列一致性已達到最高值。

ProteinGAN學習了天然蛋白質序列的內在關係

生成模型的主要目的是從具有代表性的樣本中學習潛在的真實分佈,因此作者首先評估了ProteinGAN捕獲生物序列重要資訊的能力,例如比較在天然序列和生成序列中發生的氨基酸突變,突變的統計結果能夠反映出序列進化特性。在生成的和天然的MDH序列的多序列比對中,計算了每個位置的夏農熵。生成序列的位置變異性與天然序列高度相似,高熵和低熵出現在序列排列中幾乎相同的位置,顯示了生成序列與天然序列整體的高相關性。這表明ProteinGAN從序列資料中學到了進化特徵。

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

圖3 多序列比對中序列保守位置的統計結果

ProteinGAN擴充套件了已知的MDH序列空間

用t-SNE降維視覺化生成序列和天然序列的結果表明,大多數天然MDH序列會分組聚成較大的簇,因為序列間十分相似。相反,生成的序列會分組聚成較小的簇,在自然序列簇之間插值,同時保持了生成的序列的多樣性。

Nat.Mach.Intell|ProteinGAN:利用生成對抗網路擴充套件功能蛋白序列空間

圖4 t-SNE視覺化蛋白質序列空間

ProteinGAN生成的酶具有功能性

考慮到隨機氨基酸替換通常會導致蛋白質活性的下降,甚至是完全喪失,作者實驗測試了ProteinGAN產生的MDH序列是否具有催化活性。透過以訓練集樣本為模板,在生成序列集中進行序列搜尋,得到了最相似的生成序列和訓練序列對。過濾這些pairs,得到序列一致性從40%到100%的序列對,不考慮差異過大的pairs,因為這些序列可能是不活躍的。選取了60條序列進行實驗,發現在一致性45%~98%的序列對中,發生了7~157次氨基酸突變,其中有55個已經成功合成並克隆到表達載體中。在大腸桿菌中產生重組蛋白並使用親和色譜法純化,產生11種蛋白質變體。為了識別額外的可溶性蛋白質,在有利於大腸桿菌菌株的生長條件下重複實驗,將純化的可溶性蛋白質的總數擴大到19種。19種(16條生成序列,3條自然序列做對照)中有13種可溶酶,顯示出MDH催化活性。

4

總結

蛋白質家族是一組由共同祖先進化得到的蛋白質,通常認為它們會具有相似的序列、三維結構和功能。透過對齊後的蛋白質序列中氨基酸關係的統計模式,人們可以深入瞭解關於能決定特定蛋白質結構域、家族的結構和功能的多樣性限制以及物理化學限制。基於這些理論,設計一種包含功能相關序列基序和正確的位置特異性氨基酸組成的蛋白質,是非常具有挑戰性的。這裡提出的ProteinGAN,直接從生物序列中學習潛在的氨基酸關係。與影象生成相比,評估蛋白質序列生成的結果是更有挑戰性的。作者評估了ProteinGAN能否重現MDH蛋白家族的序列特徵,透過檢查氨基酸殘基的變異性、活性位點的保守性以及區域性和全域性氨基酸關係,作者發現ProteinGAN生成的序列具有預期的基本特性。

總的來說,本文證明了人工生成的序列可以為蛋白質工程提供合適且多樣化的起點,並在生物催化應用中有巨大潛力。

參考資料

Repecka, D。, Jauniskis, V。, Karpus, L。 et al。 Expanding functional protein sequence spaces using generative adversarial networks。 Nat Mach Intell (2021)。

https://doi。org/10。1038/s42256-021-00310-5

原文連結

https://www。nature。com/articles/s42256-021-00310-5

資料鏈接

https://doi。org/10。5281/zenodo。4068040

程式碼連結

https://github。com/Biomatter-Designs/ProteinGAN