農林漁牧網

您現在的位置是:首頁 > 農業

JMC | 新藥研發中的遷移學習

2022-01-18由 中大唯信 發表于 農業

標記化合物如何應用於藥物

JMC | 新藥研發中的遷移學習

引言

在計算機輔助藥物設計中,可用於建模發現新藥的資料集規模一般很小。稀疏的資料樣本是人工智慧藥物設計的難點之一。為了解決這個難題,科學家提出了以遷移學習為代表的一類針對小樣本資料集的演算法。遷移學習先從一個更加廣泛的相關領域中學習知識,然後在小樣本資料集訓練,最後得到一個模型。藥物研究中最常用的是深度遷移學習模型,本文概述了遷移學習的發展和在藥物研究中的應用,並討論了遷移學習的未來發展方向。

介紹

新藥研發是一個研發成本高,週期長,失敗率高的工作。藥物從臨床到最後上市,失敗率高達90%以上。因此,科學家提出了許多計算模型,它們涵蓋了活性預測、虛擬篩選、逆合成分析、化合物生成等許多方面,極大提升了新藥研發的效率。在藥物研發早期階段,帶有標註的化合物往往不足一千,過少的資料限制了人工智慧輔助藥物設計的應用。這時,遷移學習從相關領域學習知識,應用在資料稀疏的場景,能取得更好的效果。

JMC | 新藥研發中的遷移學習

圖1。 遷移學習相關方法的流程圖

圖片來源於JMC

遷移學習

最初,科學家嘗試使用之前訓練學習好的模型加速後續任務的訓練,形成了遷移學習的雛形。這個思路啟發了多種創新的演算法,比如歸納學習、終身學習、多工學習、元學習、持續學習等。到了2010年,遷移學習有了權威的定義。機器學習通常有一個域和一個任務。一個任務是一個預測目標。假定現在有兩個問題,它們各自有一個域和一個任務。與傳統的機器學習會分別建立兩套不同的模型的方式不同(圖1a),遷移學習嘗試使用模型在一個域和任務的訓練結果,來提升模型在另一個域和任務中的效果(圖1b)。

遷移學習的方法可以分為四類:基於例項的遷移學習、基於特徵的遷移學習、基於引數的遷移學習和基於關係的遷移學習。不同類別的組合可以取得更好的效果。

JMC | 新藥研發中的遷移學習

圖2。 深度遷移學習的流程圖

圖片來源於JMC

深度遷移學習

深度遷移學習是當下的主流,它組合深度學習和遷移學習(圖1c)。常見的一類遷移學習是基於引數的‘fine-tuning’ (圖2a)。假定訓練過的深度學習網路中的引數權重蘊含從域中習得的知識,它將這樣模型作為相關領域的初始模型,訓練擬合相關的目標問題,能取得更好的效果。比如,在分子生成模型中,我們通常使用一個大化合物庫預訓練一個模型,然後針對不同靶點的小樣本資料集,微調模型生成具有特定功能的分子。Jason Yosinki在影象識別的模型中使用了預訓練過的神經網路作為初始模型,結果表明遷移學習賦權重的模型訓練效果優於隨機賦權重的模型。後來遷移學習被廣泛用於目標檢測、自然語言處理、藥物設計等領域。

深度遷移學習還可以用在基於特徵的遷移學習中。遷移學習使用深度神經網路對樣本做特徵變換,將源資料集和目標資料集對映到隱特徵空間,使得資料集的樣本具有相似的分佈,有助於改善模型在目標資料集的表現。比如說,一個分子毒性資料集和一個分子生物活性資料集,在傳統機器中,他們會分別使用模型訓練。如果毒性資料集樣本稀少,那麼就不能使用活性資料集直接去訓練毒性的模型。深度遷移學習會用活性資料集構造出隱特徵空間,並使得兩個資料集的樣本在這個空間中具有相似的分佈。這裡通常採用兩種常用的方式維持深度學習中域特徵的不變性。一是降低源域和目標域在隱空間的偏離,計算樣本在隱藏層的輸出,度量兩個域的差異,使得網路學習的特徵表示保持域不變性(圖2b)。二是採用對抗的思路(圖2c),使用另一個網路生成跨域的對抗樣本,使得訓練模型無法區分樣本的來源,模型效果良好,成為近年來的研究熱點。

JMC | 新藥研發中的遷移學習

圖3。 遷移學習在新藥研發中的應用與常見方法

圖片來源於JMC

JMC | 新藥研發中的遷移學習

圖4。 分子性質預測的遷移學習流程圖

圖片來源於JMC

新藥發現中的遷移學習

遷移學習在新藥發現中主要應用在三個場景:分子性質與活性預測、分子生成和基於結構的虛擬篩選(圖3)。

遷移學習常用來解決藥物研究資料稀少的問題(圖4)。Girschick在QSAR中組合歸納學習和距離學習,發現這種方法在大資料集和小資料集都取得良好的效果。Smith在QM預測中,先在一個大規模、低準確度的密度泛函理論資料集上訓練一個神經網路,然後在一個高準確度的小資料集上訓練微調引數。模型錯誤率比基準模型降低了約20%。Lu也將‘fine-tuning’的方法用在分子能量預測與構象分析中,他們發現‘fine-tuning’不僅能提高預測準確率,還降低了訓練時間,從十幾個小時降低為數小時。Goh提出了ChemNet卷積網路模型,這個模型先在ChEMBL上預訓練,再使用Tox21、HIV和FreeSolv微調。其訓練效果顯著優於單獨使用ChemNet訓練。

藥物研究中還使用了基於特徵的遷移學習。Lovanac使用自動編碼機將所有分子對映到隱空間中提取特徵,再用於pKa的預測。Abbasi在多工學習中採用了基於對抗遷移學習的方法(adversarial domain adaptation network,ADAN)預測藥物副作用。他嘗試在Tox21、SIDER等資料集上做遷移學習,發現如果學習的知識與預測目標具有相關性,可提升模型效果。比如在對Tox21資料集的訓練中,使用ToxCast預訓練比SIDER和HIV的效果提升很多。這提示我們,預訓練資料集的知識相關性比資料集規模更重要。

JMC | 新藥研發中的遷移學習

圖5。 遷移學習的分子生成示例

圖片來源於JMC

分子生成可以模擬全新藥物設計,生成類藥分子。在這個過程中常見的遷移學習技術是‘fine-tuning’(圖5)。Segler使用含有140萬個化合物的ChEMBL資料集訓練一個LSTM模型,然後在一個靶點的小樣本資料集上做遷移學習,提高了模型訓練效率。Merk採用‘fine-tuning’的方法找到類視黃醇X受體和過氧化物酶激增劑受體(PPAR)的藥物。在排名靠前的5個化合物中,4個化合物表現出了納摩爾到微摩爾級的活性。強化學習搜尋狀態空間,指導模型引數的更新,促使模型生成需要的結果。遷移學習約束搜尋空間,集中在區域性區域,發現符合條件的分子,它嚴重依賴於訓練的小樣本資料集。在實際應用中,研究者常用遷移學習加速強化學習訓練,提升了強化學習發現全新藥物的能力。比如Zhavoronkov提出的生成張量強化學習,他首先在ZINC資料集中訓練模型,然後遷移模型至DDR1資料集。在模型推薦的6個分子中,4個分子表現出了10 nM至1 μM的活性。

多工學習

多工學習使用一個模型共享權重並預測樣本的多個標籤,試圖在所有標籤預測上具有良好的表現(圖1d)。多工學習和遷移學習都是以知識共享的方式來提升模型效果。Varnek在QSAR的淺層網路中使用多工模型,表明多工模型的效果優於單模型的效果。在代謝預測中,Li使用自動編碼的DNN預測細胞色素P450抑制劑,效果也優於單模型。在藥物活性預測中,Ashrawy使用多工學習同時預測藥物的結合模式、親和力和活性。預測效果超出了傳統的對接打分模型。Feinber在GCNN模型的多工學習中證明,多工模型能切實提高模型的泛化能力。但是這種泛化能力僅體現在同一個預測標籤在驗證集和訓練集間的泛化,無法提高模型在不同標籤中間的泛化能力。Xu解釋了多工學習的優勢:它能從訓練集中相似的樣本中獲取有效資訊,並將這些資訊應用到不同的預測任務中,尤其是那些相關的任務。這些資訊在樣本特徵和網路的層間實現了共享,間接具有資料增強的作用。

多工學習也有自身的侷限性。一是多工學習的模式究竟是雙贏模型、權衡模型還是零和模型尚無定論。共享的特徵具有相互依賴的特點,任務的相關性和資料分佈對模型影響較大。二是共享特徵的結果也有可能是雖然提升了少數任務的效果,卻犧牲了其他任務的效果。多工模型更加適用於資料間具有相關性的場景,遷移學習則更適用於資料相關性較低的場景,因為它無需平衡任務間的效果。

討論

遷移學習在藥物研發中的應用還處於初步階段,相關的理論還需要繼續探索。比如,遷移學習的表現沒有統一的評判尺度。遷移學習的效果有可能是模型複雜度帶來的,不能簡單地以正確率等損失函式來衡量。當前我們還缺少與藥物研發相關的遷移學習的基準資料集,相關的文獻也不多。當前遷移學習依舊還有需要解決的挑戰。雖然研究證實資料集間的相關性比資料集規模更重要,但是現在沒有量化資料集間的相關性的有效方法。目前也沒有如何選用遷移學習的方法論。不當的方法會導致“負遷移”現象,反而降低了模型表現。最後,由於理論指導的缺失,遷移學習方法難以評價,因而也缺乏通用的選取標準。在藥物研發中使用遷移學習時,要注意判斷是否可以使用遷移學習。研究人員需要先度量資料集間的距離,比如分子指紋的相似度、化學空間距離等。採用自動編碼機將分子表示成一個連續值的向量,能有效避免負遷移效應。當前遷移學習主要用的還是“fine-tuning”的方法,我們希望其他的遷移學習方法尤其是基於特徵的遷移學習,能在藥物研究中發揮更重要的作用。希望在未來的研究中,遷移學習方法能更充分地與其他方法組合,加速藥物研發流程。

參考文獻

Chenjing Cai, Shiwei Wang, Youjun Xu, Weilin Zhang, Ke Tang, Qi Ouyang, Luhua Lai, and Jianfeng Pei, Journal of Medicinal Chemistry, 2020, 63, 8683-8694。 DOI: 10。1021/acs。jmedchem。9b02147