農林漁牧網

您現在的位置是:首頁 > 林業

代謝組學的生物資訊學分析

2022-12-29由 百泰派克生物 發表于 林業

樹狀圖是多維陣列資料嗎

生物資訊學資料處理的基本原則是將原始資料檔案轉換成可以輕鬆解讀的引數,包括離子保留時間,m/z,以及每個原始資料檔案中的離子強度測量值等等。除了這些基本特徵以外,資料處理還可以提取其他資訊,如離子的同位素分佈。

代謝組學的生物資訊學分析

資料處理一般流程

單變數分析

代謝組學資料通常是多維的,特徵(峰、代謝物)的數量從幾十個到幾百個甚至數千個不等。所採集資料的特徵代表了每種生物的生化特徵的快照。這些特徵中的大多數都在正常生理範圍內,而有些可能由於生理條件的變化而顯著波動。鑑定這些“關鍵”特徵是發現潛在生物標誌物並揭示其潛在生物學功能的第一步。常見的單變數分析包括:

1. 倍數變化分析

倍數變化(Fold change, FC)是描述最終值與原始值之間定量變化程度的度量。FC可以用來分析蛋白質組學和代謝組學中的基因表達資料,以測量不同條件下表達量的變化。FC法的缺點是存在偏差,可能會丟失差異較大(YX)但比率較小(X/Y)的差異表達基因,導致高強度率下的高缺失。

2. T-檢驗

T檢驗可以用來確定兩個資料集之間是否存在顯著差異。單樣本t檢驗用於檢驗樣本平均值與已知總體平均值之間的差異是否顯著。雙樣本t檢驗用來檢驗兩個樣本的平均值與每個樣本所代表的總體之間的差異是否顯著。配對樣本t檢驗用於檢驗兩組匹配受試者獲得的資料或同一組受試者在不同條件下獲得的資料的差異,目的是消除混雜因素的影響。

3. 方差分析

方差分析(ANOVA)是一組被廣泛應用於分析個體價值相對於群體平均值的變化的統計模型,如組內和組間的“差異”。觀察到的某一個特定變數的方差被劃分為可歸因於不同變異源的變數。方差分析對於比較三組或更多組或變數的統計顯著性非常有用。它在概念上類似於多個雙樣本t檢驗,但它更保守,導致的第一類誤差更少,因此適用範圍更廣。

4. 相關性分析

相關分析是檢驗兩個變數是否相關的一個簡單而有用的單變數分析法。可以應用於:1,鑑定與一個已知生物標誌物相似的特徵;2,按照特定模式識別特徵。支援的相似演算法包括:歐幾里得距離、皮爾遜相關、斯皮爾曼秩相關和肯德爾等級相關係數檢驗。

5. 火山圖

火山圖是一種散點圖,通常用於展示RNA水平或其他組學實驗的結果。火山圖展示顯示統計顯著性(P值)與變化幅度(倍數變化)的關係。火山圖可以快速視覺識別具有大倍數變化的基因,這些大倍數變化的基因在統計上往往也很重要。它們可能是生物學上最重要的基因。在火山圖中,最上調的基因朝右,最下調的基因朝左,而統計上最重要的基因朝上。

多變數分析

代謝組學資料通常由許多特徵(峰、化合物等)組成。許多特徵隨著時間、表型或不同實驗條件的變化而變化。多變數資料分析(Multivariate Analysis, MVA)是分析代謝組學資料所需要的。常見的多變數分析包括:主成分分析、多元方差分析、多元迴歸分析、因子分析和判別分析等。

1. 主成分分析

主成分分析(Principal Component Analysis, PCA)是一種廣泛使用的統計方法,它利用正交變換將一組觀測到的令人信服的相關變數的觀測值轉換成一組稱為主成分的線性不相關變數的值。這是一種無監督的統計分析方法,可能是代謝組學研究中使用最廣泛的統計工具。PCA主要用於探索性資料分析和建立預測模型。

2. PLS-DA/OPLS-DA

偏最小二乘判別法分析(PLS-DA)是一種監督多變數統計分析方法。它在降維的同時結合了代謝物變化與實驗分組的迴歸模型,並採用一定的判別閾值對迴歸結果進行判別分析。與主成分分析相比,PLS-DA分析可以進一步顯示組間差異。正交偏最小二乘法判別分析(OPLS-DA)是一種多因變數到多自變數的迴歸建模方法。該方法的特點是可以去除自變數X中與分類變數Y無關的資料變化,使分類資訊主要集中在一個主成分上。這使得模型簡單易懂,主成分評分圖的識別效果和視覺化效果更為明顯。

OPLS-DA可以過濾獨立於實驗條件的變化。因此,與PLS-DA相比OPLS-DA能更好地反映與實驗條件有關的樣品差異,並能更好地實現組間樣品的分離。PLS-DA常用於比較兩個或多個組,而OPLS-DA常用於比較兩個組。此外,OPLS-DA比PLS-DA在篩選差異代謝物方面更準確。OPLS-DA產生的VIP值常用於篩選差異代謝物。

3. 樹狀圖分析

樹狀圖是顯示物件之間的層次關係的圖。樹狀圖最通常是作為層次聚類的輸出建立的。 樹狀圖的主要用途是找出將物件分配給群集的最佳方法。

4. 熱圖分析

熱圖是統計資料的圖形化表示,一個矩陣中包含的各個值用顏色表示。熱圖適用於顯示多個變數之間的差異,顯示是否存在彼此相似的變數,以及檢測彼此之間是否存在相關性。

5. K均值聚類or自組織特徵對映

K均值聚類(K-means Clustering)是一種向量量化方法。K-means首先要估算出將要劃分多少個類別,然後根據相似度的距離將所有基因放入這些類別中。K-means計算比層次聚類法小得多,而且更有效。自組織圖self-organizing map (SOM)或自組織特徵圖self-organizing feature map (SOFM) 是一種人工神經網路,使用無監督學習對其進行訓練,以生成低維(通常為二維)離散化表示訓練樣本的對映,因此是一種進行降維的方法。

與K-means不同,SOM的中心點之間存在一個拓撲順序。在更新中心點時,相鄰的中心點也將被更新,直到達到設定的閾值或中心點不再發生顯著變化。最後,得到一系列隱式定義多個簇的中心點,並將距離該中心點最近的物件分類到同一個簇中。SOM強調簇中心點之間的鄰近關係,相鄰簇之間的相關性更強。SOM常用於視覺化網路資料或基因表達資料。

相關服務

代謝組學

代謝組學生物資訊學分析

代謝組學的生物資訊學分析