農林漁牧網

您現在的位置是:首頁 > 漁業

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

2022-12-02由 ScienceAI 發表于 漁業

婦科免疫熒光染色結果怎麼看

編輯 | 蘿蔔皮

空間解析轉錄組學 (SRT) 技術使研究人員能夠獲得對組織結構和細胞發育的新見解,尤其是在腫瘤中。然而,缺乏對生物背景和多檢視特徵的計算開發嚴重阻礙了組織異質性的闡明。

在這裡,中國科學院的研究團隊提出了 stMVC,這是

一種多檢視圖協作學習模型,它在透過注意力分析 SRT 資料時集成了組織學、基因表達、空間位置和生物學背景。

具體來說,採用半監督圖注意力自動編碼器的 stMVC 分別學習組織學相似性圖或空間位置圖的特定視圖表示,然後在生物上下文的半監督下透過注意力同時整合兩個檢視圖以獲得魯棒表示。stMVC 在檢測組織結構、推斷軌跡關係和對人類皮層的基準切片去噪方面優於其他工具。特別是,stMVC 可識別乳腺癌研究中與疾病相關的細胞狀態及其過渡細胞狀態,並透過獨立臨床資料的功能和生存分析進一步驗證。這些結果證明了 SRT 資料的臨床和預後應用。

該研究以「

Elucidating tumor heterogeneity from spatially resolved transcriptomics data by multi-view graph collaborative learning

」為題,於 2022 年 10 月 10 日釋出在《

Nature Communications

》。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

SRT 平臺最近的技術創新,包括基於測序的技術(例如,10X Genomics Visium 和 Stereo-seq)和基於成像的技術(例如,STARmap),允許在組織的空間環境中分析基因表達模式。這些產生的多種型別的概況:組織學、空間位置和基因表達,為細胞組織和發育生物學提供了新的見解,特別是對於腫瘤的進化。然而,用於生物學發現的 SRT 資料分析仍然具有挑戰性,因為它的吞吐量低、靈敏度低、稀疏且嘈雜。

最近,學界已經設計了幾種計算方法來分析 SRT 資料。例如,Giotto 使用與單細胞 RNA-seq (scRNA-seq) 類似的處理策略,用於特徵選擇、降維和無監督聚類。BayesSpace 利用完全貝葉斯統計方法,透過空間鄰域結構增強空間測量,進行聚類分析。SpaGCN 採用圖卷積網路 (GCN) 方法整合基因表達、空間位置和組織學來識別空間域和空間可變基因 (SVG)。stLearn 將組織學特徵與空間位置相結合,對基因表達資料進行歸一化,然後進行聚類。Squidpy 將組學和影象分析工具結合在一起,以實現對空間轉錄組學和蛋白質組學資料的可擴充套件描述。ClusterMap 結合了 RNA 的物理位置和基因身份,從基於影象的原位轉錄組學資料中識別出具有生物學意義的結構。DR-SC 和 SC-MEB 利用潛在隱馬爾可夫隨機場模型整合了基因表達和空間定位進行空間聚類。STAGATE 結合基因表達和空間資訊,透過圖注意力自動編碼器框架檢測空間域。

雖然這些方法有許多有趣的發現,但缺乏可以從組織學中有效和全域性提取的視覺特徵、有效的多檢視資訊融合以及組織內的全域性位置資訊等生物學背景,限制了它們在發育生物學中的解開能力。

另一方面,基於 GCN 的模型已成為學習 scRNA-seq 資料(即,透過 scGNN)和 SRT 資料(即,由 SpaGCN 提供)表示的強大工具,然而,這些方法通常研究節點之間具有單一型別接近度的網路,即單檢視網路。儘管 SpaGCN 提出了一種 RGB 顏色空間平均策略,在計算任意兩個點之間的相似度之前,將組織切片中的組織學資料轉換為與 2D 空間相同的測量空間,然後再計算任意兩個點之間的相似度,但該策略在一定程度上丟棄了組織切片中的紋理特徵。每個點,即該策略在沒有充分利用指定區域內灰度變化的空間分佈即紋理特徵的情況下,從顏色空間中提取顏色特徵。

此外,在 SRT 研究中,物理上最接近中心點的 \(K\)-最近點不一定與組織學上與該點最相似的點相同,並且多檢視資料之間的距離評估指標也不相同,從而產生具有多個檢視的網路。此外,相鄰點對確定中心點所屬的細胞型別的貢獻不相同,這與圖注意力網路(GAT)的假設是一致的。更重要的是,不同檢視中的資訊質量可能不同,因此,最好是一個新穎的模型可以透過 GAT 學習每個檢視的表示,同時協同整合多個網路,透過自動訓練不同檢視的權重來學習魯棒的表示。

研究人員推斷:

(i)屬於同一細胞型別但分佈在不同區域並與組織中不同細胞型別相互作用的細胞,可能具有不同的細胞狀態;

(ii) 每個細胞所屬的每個細胞型別(或細胞狀態)的確定,與其大小、形狀和排列(即鬆緊或鬆動)有關,因此組織學的紋理資料具有豐富的資訊來表徵細胞型別或細胞狀態;

(iii) 腫瘤樣本免疫熒光染色抗體的顏色可以粗略地標記腫瘤在組織中的位置,產生區域分割,指示與腫瘤發展相關的生物學背景。

基於這些想法,研究人員開發了 stMVC(Spatial Transcriptomics data analysis by Multiple View Collaborative-learning),這是一個整合四層資訊的框架,透過基於注意力的多檢視圖協作學習來闡明組織異質性,即組織學、基因表達資料、空間位置(例如,腫瘤位置)和指示生物背景的區域分割。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

圖示:stMVC 模型概述。(來源:論文)

stMVC 的特點如下:

(i)對於每個點,全域性學習有效的視覺特徵,同時透過資料增強和對比學習從組織學中去除偽影;

(ii)透過基於注意力的協作學習策略訓練多檢視圖的權重,包括透過視覺特徵訓練組織學相似性圖 (HSG) 和透過物理座標透過空間位置圖 (SLG) 來學習每個點的穩健表示 ,在區域分割的半監督下;

(iii)對於人類卵巢子宮內膜腺癌 (OEAD) 和乳腺浸潤性導管癌 (IDC) 樣本,識別競爭方法遺漏的癌症相關細胞狀態(即乾性、遷移和轉移),以及過渡細胞狀態 ,這得到其他獨立研究的臨床資料的進一步驗證,證明了 SRT 資料的潛在臨床和預後應用;

(iv)小鼠初級視覺皮層樣本,使研究人員能夠檢測層特異性抑制神經元。

特別是,這種多檢視圖協作學習方法是一個靈活的框架,不僅能夠整合來自多源或空間多組學資料的 SRT 資料,還能夠整合空間表觀基因組學或蛋白質組學資料。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

圖示:stMVC 能夠檢測空間域,視覺化不同域之間的關係距離,並對 DLPFC 資料集上的資料進行去噪。(來源:論文)

stMVC 使用的組織結構中的這種腫瘤位置資訊可以幫助研究人員闡明腫瘤內的異質性。與之前透過使用者定義的權重整合組織學和空間位置資料的方法不同,例如 SpaGCN 在基因表達平滑中手動調整組織學的權重,stMVC 採用基於注意力的策略來自動學習不同檢視的權重以實現穩健的表示 。

此外,與 stLearn 使用的 ImageNet 預訓練的 ResNet-50 模式相比,該團隊透過資料增強和對比學習對組織學影象資料進行訓練的ResNet-50模型的特徵提取框架確實有助於 stMVC 學習更有效的視覺特徵。對兩個真實癌症資料集的評估證明了上述 stMVC 的優勢,它能夠檢測與分佈在不同空間域的細胞乾性、遷移和轉移相關的細胞狀態,為腫瘤異質性提供生物學見解。

特別是,對於乳腺癌資料集,該團隊透過識別與癌症相關的細胞狀態以及競爭方法遺漏的過渡細胞狀態,證明了 SRT 資料的潛在臨床和預後應用,臨床資料進一步驗證了這一點。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

圖示:stMVC 能夠檢測在卵巢癌和乳腺癌的不同空間域中分佈的細胞狀態。(來源:論文)

透過將 stMVC 與基於 SGATE 的三個單檢視模型進行比較,研究人員發現 stMVC 在聚類、軌跡推斷和去噪方面具有更好的效能,這主要歸功於多檢視圖的協同學習。另外,研究人員觀察到基於 SGATE 的空間位置圖模型比基於 SGATE 的組織學相似度圖模型表現更好,然而,基於 SGATE 的組織學相似性圖模型能夠捕獲一些豐富的邊界資訊,作為基於 SGATE 的空間位置圖模型的補充。因此,研究人員認為,與單檢視圖相比,透過多檢視圖對 SRT 資料建模的角度能夠更好地理解組織異質性。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

圖示:stMVC 能夠從乳腺癌樣本中的浸潤癌區域識別腫瘤相關細胞狀態及其過渡細胞狀態。(來源:論文)

此外,透過與基於均值的策略 stMVC-M 進行比較,研究人員注意到 stMVC 實現了更好且具有可比性的效能。具體來說,(i)關於沒有豐富紋理資訊的組織學,例如 DLPFC 和卵巢癌樣本,stMVC-M 更容易受到來自組織學視覺特徵的噪聲訊號的影響,而 stMVC 更容易透過自動學習多個圖中每個圖的權重來捕獲更精細的結構;(ii) 對於具有豐富組織解剖結構的組織學,如乳腺癌樣本,兩種模型具有相似的結果。因此,該團隊還在 stMVC 模型中實現了基於均值的策略作為使用者選擇的選項。

到目前為止,開發用於整合來自多個樣本的 SRT 資料的模型面臨著幾個挑戰,例如來自多個來源的基因表達資料的批次效應,以及它們的稀疏性和噪聲;構建來自不同物理度量空間的點之間的關聯;並在建立多個樣本之間的關係時去除組織學的偽影。然而,該團隊認為(i)透過資料增強和對比學習的視覺特徵提取模型為構建不同樣本之間的點關聯提供瞭解決方案;(ii) 多檢視圖協作學習模型可以透過結合多層輪廓資料提供一個新的視角來整合多個 SRT 資料集。

此外,stMVC 可以輕鬆擴充套件以處理空間分辨染色質可及性 (ATAC-seq) 或蛋白質組學資料,方法是將基因表達資料中的特徵矩陣替換為 ATAC-seq 或蛋白質組學資料中的特徵矩陣。另外,隨著空間多組學技術的進步,stMVC 可以透過新增更多由不同組學資料建立的圖或用多組學資料融合的特徵矩陣替換單組學資料的特徵矩陣來輕鬆調整以適應。

與 STAGATE 等單檢視 GAT 模型類似,stMVC 可用於分析其他基於測序的技術(如 Slide-seq 和 Slide-seqV2)的 SRT 資料。除此之外,透過利用來自 stMVC 的時空資訊,研究人員可以計算空間(動態)網路生物標誌物或代謝狀態,以準確可靠地量化生物系統並進一步預測其複雜的行為。

中科院圖協作學習模型,從空間分辨轉錄組學資料中闡明腫瘤異質性

圖示:stMVC 能夠識別小鼠初級視覺皮層 (V1) 資料集中特定層的興奮性和抑制性神經元。(來源:論文)

該團隊透過從人類 DLPFC 資料集中對點進行二次取樣,在模擬資料集上對 stMVC 的執行時間進行了基準測試。研究人員觀察到 stMVC 速度很快,並且需要 38min 來處理具有 20K 個點的 SRT 資料集。特別是,執行時間與輸入點的數量近似線性相關,這被認為是 stMVC 處理更大資料集的優勢。研究人員表示,在未來的工作中,他們將進一步提高 stMVC 的可擴充套件性,例如,透過引入子圖取樣訓練策略。

在 stMVC 中仍然存在一些限制:(i)與 ImageNet 預訓練的 ResNet-50 模型的視覺特徵提取框架相比,訓練 SimCLR 的預處理步驟需要更多的計算資源和時間;(ii) 根據抗體的染色密度手動標註腫瘤位置的區域分割。隨著對可泛化分割工具的深度學習框架的探索,該團隊將在未來的研究中進一步研究建立一個更高效的、具有更自動化架構的 stMVC 模型。

論文連結:

https://www。nature。com/articles/s41467-022-33619-9