農林漁牧網

您現在的位置是:首頁 > 漁業

實用乾貨系列|關於GWAS顯著性閾值設定的那些事兒

2022-03-26由 安諾優達 發表于 漁業

顯著性怎麼算

實用乾貨系列|關於GWAS顯著性閾值設定的那些事兒

GWAS(Genome-wide association study

,即全基因組關聯分析,是透過掃描基因組中數以百萬計的SNP分子標記,進行基因型和表型間相關性分析,篩選出影響複雜性狀的基因變異的一種策略,應用廣泛,可以在全基因組水平上同時且廣泛地挖掘與多個目標性狀變異顯著相關的多個基因。

作為一種經典的視覺化方式,曼哈頓圖使用廣泛,在全基因組關聯分析(GWAS)中隨處可見。曼哈頓圖展示了每個SNP位點的Pvalue(以下簡稱P值)資訊,圖中的水平橫線對應篩選顯著位點的P值閾值。在曼哈頓圖繪製過程中,顯著性閾值設定是候選位點篩選的重要一環,今天我們就來聊聊關於GWAS顯著性閾值設定的那些事兒。

實用乾貨系列|關於GWAS顯著性閾值設定的那些事兒

曼哈頓圖是一種散點圖,通常用於顯示具有大量資料點、許多非零振幅和更高振幅值分佈的資料。該圖通常用於GWAS以顯示重要的SNP。

X軸為染色體編號,且每個基因組SNP位點沿染色體序列排列。

Y軸為該位點相關的統計顯著性P值,可以理解為每個SNP與表型的關聯程度。P值越小越顯著,為了在圖中突顯顯著性位點,採用以10為底的負對數的方法進行P值轉換,點越高表示位點與性狀關聯程度越強。

圖中水平線一般為設定的顯著性閾值,高於這條水平線的位點為與表型顯著相關的位點。

為什麼要設定顯著性閾值?

對於統計學假設檢驗來說,多重檢驗校正非常重要。在進行假設檢驗時,通常會設定一個零假設,之後計算出一個P值,即資料分佈符合原假設的機率,P值越低,即代表拒絕原假設的機率越大。我們通常認為P值<0。05是一個判斷是否顯著的閾值。然而,在同時對多組資料進行處理和比較的時候,很可能其中部分資料因為隨機效應而超過閾值,造成假陽性結果,檢驗的次數越多,出現假陽性的機率就越大,因此簡單地使用0。05作為閾值可能就不那麼合適了。對於GWAS對全基因組的位點進行統計學檢驗的分析,我們應用不同的方法對結果的閾值進行校正,以此獲得校正後的顯著性閾值,如Bonferroni校正法、置換檢驗法、控制錯誤發現率法等。

以下,作為最嚴格的多重檢驗校正方法,我們以Bonferroni校正法為例進行介紹。

Bonferroni校正法校正原理?

在同一資料集上同時檢驗n個相互獨立的假設,那麼用於每一假設的統計顯著水平,應為僅檢驗一個假設時的顯著水平的1/n。如以顯著水平0。05檢驗同一資料集上兩個獨立的假設,此時用於檢驗這兩個假設應使用更嚴格的0。025;對於10000個基因的檢驗,若將P設定為1e-6,進行10000次比較之後犯錯誤的機率是10-6*10000 = 0。01,嚴格地控制了假陽性的出現。

如何確定顯著性閾值?

在GWAS中,如果對每個位點進行測試,以0。05的水平進行篩選,由上可知,在1000000個位點中其假陽性的位點可能達到5%,即50000個,所以,為了控制假陽性的機率,以Bonferroni校正對閾值進行調整。Bonferroni校正會將設定的顯著性水平除以測試次數,最終得到一個總的閾值。換句話說,它將閾值從a = 0。05調整為a =(0。05 / n),其中n是進行的統計檢驗的次數,即SNP的個數。

SNP位點過少/過高的因素及解決辦法

繪製曼哈頓圖時,我們經常會遇到閾值水平線過高導致顯著性SNP位點過少,或水平線過低導致顯著性SNP位點過高等情況,那麼是什麼因素導致這一情況的發生?我們可以透過哪些方法解決這個問題呢?

1。 由於GWAS標記之間的連鎖不平衡,可能會存在多個標記或者SNP之間相互連鎖的情況,所以假設GWAS資料集的每個關聯測試都是獨立的是不正確的。因此,應用Bonferroni校正通常會為我們提供最保守的P值閾值。

這往往會導致假陰性的產生,可能整個基因組中都很少有標記的關聯P值能夠達到這一標準。

我們可以嘗試應用不同的軟體/程式進行計算,常用的有

軟體GEC

[1]

,simpleM程式

[2]

,可以降低0。05/n的嚴格性。

2。 在顯著性閾值計算中,最終得到的閾值根據進入分析的SNP數量(n)不同會有一定的差異。換句話說,我們可以透過改變n的數量來適當的調整顯著性閾值的大小。一是可以去掉性狀異常值對應的樣本;二是可以調整最小等位基因頻率、位點缺失率、個體缺失率、哈迪-溫伯格平衡等過濾引數。

3。 我們可以根據實際曼哈頓圖的情況對閾值進行一些調整。例如2019年Genome Biology桃重測序中的GWAS部分

[3]

,大多數性狀採用的

均是經過Bonferroni校正的約3e-8的閾值,但是對於果實大小性狀的GWAS分析,研究者將閾值降到了1e-5,以消除由於Bonferroni校正過於嚴格導致的假陰性。

我們透過近年來的文章、軟體原理等做出以上原理總結與解決方法的建議,若有更合理的解決方法歡迎指出哦~安諾優達提供動植物重測序服務,有豐富的個體、群體重測序經驗,如各類物種的GWAS、群體進化等專案測序分析經驗,歡迎有意向的各位老師諮詢~

參考文獻:

[1]Li M X, Yeung J M Y, Cherny S S, et al。 Evaluating the effective numbers of independent ests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets[J]。

Human genetics

, 2012, 131(5): 747-756。

[2]Gao X, Starmer J, Martin ER。 A multiple testing correction method for genetic association studies using correlated single nucleotide polymorphisms

[J]

Genet Epidemiol

, 2008;32:361–9。

[3]Li Y, Cao K, Zhu G, et al。 Genomic analyses of an extensive collection of wild and cultivated accessions provide new insights into peach breeding history

[J]

Genome Biology

, 2019, 20(1): 36。