專家點評Cell|利用基因組圖揭示癌症複雜結構變異特徵
2022-06-12由 BioArt生物藝術 發表于 漁業
基因組圖如何解讀
癌症基因組在多種突變機制的作用下,會產生豐富的結構變異(structural variation)。簡單的結構變異模式如刪除(deletion)、串聯重複(tandem duplication)只由一個或兩個位點斷裂-融合組成新的連結(junction),而複雜的結構變異則會引起多個連結且組合成各種複雜的序列,通常還會伴隨複製數變異(copy number aberration),例如染色體碎裂(chromothripsis)、複雜染色體重排(chromoplexy)、斷裂-融合-橋染色體迴圈(breakage-fusion-bridge cycle)。雖然透過全基因組測序(whole genome sequencing),人們已經可以識別變異後的DNA連結和複製數變異,但仍沒有一套統一的方法來建立重排後的DNA模型用來發掘所有的變異模式。
近日,康奈爾醫學院和紐約基因組中心的
Marcin Imielinski
實驗室在
Cell
上發表了文章
Cell
,
Distinct Classes of Complex Structural Variation Uncovered across Thousands of CancerGenomeGraphs
(Junction Balance Analysis,JaBbA),
Distinct Classes of Complex Structural Variation Uncovered across Thousands of CancerGenomeGraphs
(genome graph),
基於一個關於DNA的簡單事實設計了連結平衡演算法
由於DNA的線性化學結構,除末端外每個片段都只且必有一個上游的相鄰片段和一個下游的相鄰片段,即每個獨特片段的總複製數必須與上游的的連結複製數之和、下游的的連結複製數之和相等。在此限制條件下,透過混合整數規劃,得到全基因組尺度上的最優整數解,用一個統一的模型同時推斷了DNA片段以及相鄰DNA片段之間的連結複製數(junction copy number)。在全面的基準測試證明JaBbA的DNA片段和連結複製數的準確性後,作者在2778個泛癌種全基因組資料上重建了基因組圖模型,並從低(1或2)和高複製數連結(大於7)兩個極端對連結簇的組成模式進行挖掘。
作者首先發現,在全部由低複製連結組成的連結簇中,富集了兩大類別,其一幾乎全部是刪除連結組成,二是幾乎全部由串聯重複組成。用伽馬-泊松迴歸估計每一個基因組中每個固定長度區段上的刪除連結的分佈後,得到一系列過量富集刪除連結的區段。這樣的區段中多個刪除連結作用於同一位點,導致複製數斷崖式下降,象形取名為基因組斷層(rigma)。基因組斷層在食道腺癌、巴雷特食道症(Barrett‘s esophagus)、胃癌、大腸癌等多種消化道病變中最為常見,在較晚複製的基因組區域中富集,並且特別集中於長基因(大於1兆鹼基對)中。有趣的是,最常重複出現基因組斷層的區域與已知的人類基因組的脆性位點(fragile site)高度重合,包括FHIT、MACROD2、LSAMP等基因,但也包含許多還未被標記為脆性位點的區域。由於已知的脆性位點大多是透過細胞實驗或胚系突變模式推斷的,所以只侷限在最突出的位置上,而癌症的高突變率則可能給我們指向了更多還未被發現的脆性位點。
用同樣的方法觀察串聯重複連結,作者發現廣泛存在的多個串聯重複連結簇,在同一位點上多次複製,狀似金字塔,故名為基因組塔(pyrgo)。這類結構變異在子宮內膜癌、卵巢癌、乳腺癌和食道腺癌中最常出現,且過量富集於超增強子(superenhancer)所在的區域。與基因組斷層相反,基因組塔更偏好較早複製的區域。MYC基因位點是基因組塔最頻繁發生的位置之一,而其中MYC上游的超級增強子比之基因本身更經常被擴增,作者認為這與串聯重複調控元件來刺激靶基因的假說不謀而合。
另一方面,在高複製數即擴增的區域中,作者對所有含有高複製數連結的連結簇根據三個特徵進行了聚類分析,除了發現了已知的二重微小染色體(double minute)和斷裂-融合-橋迴圈兩種模式之外,還觀察到了一類新的具有大量高複製連結、大量折返式連結(fold-back)的擴增模式。其影響範圍可多達數個染色體,被擴增的DNA總量能達到100~200百萬鹼基對,命名為基因組颱風(tyfonas)。這種模式在近50%的肢端黑色素瘤和近80%的脂肪肉瘤中存在,而在其他型別的黑色素瘤與軟組織肉瘤中則非常罕見。與TCGA樣本中透過RNA-seq發現的融合基因轉錄本比對,發現基因組颱風比其他複雜突變能更高效的產生融合基因,這也和肢端黑色素瘤患者通常缺乏小突變新抗原卻對免疫檢查點抑制劑敏感產生了聯絡。另外,結構變異連結端附近的單鹼基突變頻率也區域性升高,在基因組颱風的連線周圍尤其明顯。結合這些觀察,作者進一步透過染色質構象和光學位點比對的資料提出了一種可能造成基因組颱風的機制,即早期的染色體碎裂形成的短片段被隨機修復並進行了線性和環狀的折返式擴增,最終透過與其他染色體的結合重新獲得了端粒與中心粒並穩定存在於癌細胞中。
把共13中從簡單到複雜的結構變異模式整合,對全部的病人進行聚類,總結出了14大類結構變異模式的組和,每一類富集的腫瘤型別和既往觀測到的現象相吻合。比如前列腺癌在碎裂組和複雜染色體重排組富集,遺傳性BRCA1缺陷的乳腺癌、卵巢癌在串聯重複最多的組合中富集(DDT)。與缺乏結構變異的大類(QUIET)相比,有六類病人的總生存期顯著縮短,標誌著結構變異的歸類在臨床預後中的應用潛力。
作者們表示,
來把癌症基因組中的連結和複製數統一起來,重建出量化的基因組圖
專家點評
用於識別任何複雜度的結構變異。
(西安交通大學)
基因組變異包括單鹼基替換變異(SNV)、短插入缺失變異(indel)和結構變異。短插入缺失變異通常定義為小於50個剪輯對的簡單型別插入或者缺失變異,而廣義結構變異指SNV和indel以外的所有變異。在基因組二代測序發展的早期,只有讀長較短的單端測序資料,我們只能透過分析測序資料在基因組上覆蓋度的差異,即read-depth方法來理解複製數變異;隨著雙端測序技術發展,我們開發出了基於測序資料兩端在參考基因組上比對距離和方向的read-pair方法,發現基因組中廣泛存在的各種型別結構變異。當前,世界各國高質量的二代甚至是三代測序資料大量湧現,進一步揭示了結構變異在種群差異、驅動物種性狀演化、疾病發生髮展中的重要作用。最近人群佇列和腫瘤基因組研究揭示了複雜結構變異的存在,學界仍然在探索如何更好地發現、表徵複雜型別結構變異,統一複雜結構變異的數學描述。
本文作者提出了JaBaA(Junction Balance Analysis)的分析方法,基於參考基因組以及全基因組測序資料利用初步獲取片段(segmentation)的測序深度(read depth)資訊以及連結(junction)資訊,以片段作為節點,連結作為邊構建JBGG(junction-balanced genome graph)基因組圖模型。首先,假設片段內小區間(bins)的複製數符合高斯分佈建立似然函式。然後考慮到圖模型中部分loose end的邊可能受低比對率、測序深度或者純度等因素影響,對loose end節點的複製數做出假設,建立先驗分佈。作者基於貝葉斯理論推導將片段內資訊(每個節點複製數分佈的殘差)與片段間的連線資訊(先驗中的loose end節點的出度以及入度)共同作為目標函式進行最小化,在此過程中,作者巧妙的基於一個簡單的事實作為約束,即圖中每個節點的複製數應該與它們的入度以及出度數量一致,將目標函式中兩部分聯絡起來,使得它們可以共同作用得到最優的估計複製數(junction copy number)。作者在全面的基準測試證明了估計複製數的準確性,並在2778個泛癌症全基因組資料上重建圖模型進行模式挖掘,定義了pyrgo,rigma和tyfonas等全新的複雜重排現象。由此證明了該方法在分析腫瘤結構變異中的重大作用,隨著未來資料量的增加會進一步推動測序技術向臨床應用的轉變。
這項研究成果證明基因組圖資料結構是分析腫瘤結構變異的強有力的工具,隨著資料量進一步增大還會有更多的突變模式被發現,並與背後的的病因聯絡更緊密,最終進一步推動全基因組測序走向臨床應用。
葉凱
本文創新性地搭建基於基因組圖資料結構的腫瘤複雜結構變異解析方法,將基於二代測序資料的變異檢測提升到一個新的高度,隨著該方法在大量腫瘤測序資料廣泛運用,我們將發現更多以前未知的複雜結構變異,探索其發生機理、變異率、位點偏好性等表徵,揭示新的腫瘤發生發展機理,為腫瘤早診、個體化治療方案、伴隨診斷等醫療應用提供關鍵技術支撐,面向人民生命健康。