農林漁牧網

您現在的位置是:首頁 > 林業

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

2022-04-11由 我看人看我2021 發表于 林業

最終聚類中心怎麼看

聚類分析是一種常用的多元統計分析方法,主要基於研究物件的特徵,將他們分門別類,以讓同類別的樣本之間差異儘可能小,不同類別間的差異儘可能的大。

在前面的文章中,基於案例介紹了常用的聚類分析方法【系統聚類】和【K-均值聚類】的SPSS操作過程。(詳見公 眾 號【我看人看我】 《聚類分析怎麼做(二):SPSS案例操作》 )

但要想做好聚類分析,還需要注意以下幾個問題。

01 不同聚類方法的適用範圍

聚類分析方法有多種,使用不同的聚類分析方法,得到的結果會有所不同,但這些結果無法在統計理論上分出優劣,也不存在最優的聚類方法,只能針對具體的問題、資料特徵,多采用幾種方法進行嘗試,再觀察哪一個分類結果更符合實際、更合理。

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

一般會將不同的聚類方法結合使用,取長補短,比如系統聚類法和K-均值聚類法就經常結合在一起使用。首先,使用系統聚類法來確定分類數,篩查異常值;其次,去掉異常值後,對剩下的樣本重新進行系統聚類,得到各類的聚類中心;最後,將由系統聚類得到的聚類中心作為K-均值聚類分析的初始分類中心,進行K-均值聚類,得出最終的聚類結果。

系統聚類和K-均值聚類只能針對單一型別的變數進行分析,即參與分析的變數,要麼是分類變數,要麼是連續變數。如果資料中既存在分類變數也存在連續變數,可使用二階聚類方法,這種方法可以同時對分類變數和連續變數進行分析。

02 聚類指標不是越多越好

聚類分析的依據是比較分類物件的特徵的差異性,而特徵則以量化的指標來表達。因此,做好聚類分析的關鍵前提,是要選對能很好地代表、衡量分類物件的指標。

並不是加入的聚類指標越多,聚類結果就越客觀。有時候,加入一兩個不合適的變數指標會導致聚類結果的大相徑庭。因此,在聚類分析前,需要根據研究目的、研究經驗和理論基礎,嚴格選擇能反映分類物件差異的變數指標。

比如,希望依照學校的科研情況對高校進行分類,那就可以選擇參加科研人數、科研經費、立項課題數等變數指標作為聚類指標,而不應該選擇如在校人數、校園面積、年用水量等和研究主題無關的指標。

得到聚類結果後,並不意味著分析就結束了,而是要對聚類結果不斷檢驗,剔除在不同類別之間沒有顯著差異的、不合適變數指標,以使聚類分析得到最優結果。

03 資料的標準化處理

聚類分析主要是基於分類物件之間的距離進行分類,容易受到聚類變數的測量單位的影響。數量級越大的變數,對距離計算結果的影響就越大,在聚類過程中也就會佔據主導地位,從而掩蓋了其他數量級小的變數,導致聚類結果的偏差。例如:

假設A、B、C三個個案在受教育年限、年收入兩個變數上的值如下表1。年收入有“萬元”和“元”兩種單位。

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

下表2給出了基於受教育年限和年收入的兩種單位,使用簡單歐式距離方法進行相似性測度的結果,距離越小的個案,說明相似程度越高,越可能聚為一類。當單位為“萬元”時,A-C之間的距離最小,說明兩者的相似性最高,其次為A-B、B-C;再結合三個個案的受教育年限分佈,可以發現個案之間的相似性,與他們受教育年限的差異存在很大關聯,受教育年限差異最小的A-C,相似性最高,受教育年限差異最大的B-C,相似性最小。也就是說,當以單位“萬元”計算距離時,在受教育年限變數在聚類中起到了主導作用。

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

而若以單位“元”進行測量,那A-C之間的相似性就變為了最低的,A-B、B-C的相似性相同,這意味著年收入在聚類中起主導作用。

從這個栗子中可以看到,測量單位的差異,會產生差異甚大的聚類結果。因此,在聚類分析前,需要對資料進行處理,將原始資料轉化為無量綱的資料,讓變數或者個案在同一標準下進行比較。在SPSS中,系統聚類分析提供了自動對資料進行標準化的方法,比如z分處理、將資料轉換為範圍在0~1之間的資料等。

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

而對於其他聚類方法,則需要預先手動對資料進行標準化處理,在SPSS中的實現路徑為:【分析】-【描述統計】-【描述】-【將標準化值另存為變數】。

做好聚類分析的前提:聚類方法適用性、資料標準化、共線性處理

但資料標準化也會存在問題,因為標準化後會使所有變數或者個案對聚類結果的貢獻都趨同,這顯然並不符合實際情況的,其結果是使得聚類效果變差。因此,在進行資料標準化時,需要綜合考慮此種分析場景是否有必要對資料做標準化處理。

04 聚類指標間不能存在高度相關

聚類分析是以基於距離來度量個案間或變數間的親疏程度。如果所選的聚類變數指標之間存在較高的相關關係,能夠相互替代,那麼計算距離時同類變數將會重複起作用,相當於給這些相似變數進行了加權,從而導致聚類結果偏向該變數。

比如,如果所選擇的聚類變數中有3個高度相關的變數,就相當於在聚類過程中,選擇了三個變數中的一個進行距離計算,並給予該變數3倍的權重,從而得到不合理的聚類結果。

所以,進行聚類分析前,我們需要檢驗聚類指標之間是否存在較高的相關關係。這裡可透過相關性分析來計算聚類指標之間的相關係數,從而確定是否存在共線性問題。

如果聚類指標存在高度相關性,可透過以下兩種方法解決:

(1)在聚類分析前,先對存在高度相關的變數進行聚類分析,然後再從聚類結果中分別挑選出一個有代表性的變數作為最終的聚類指標。

(2)對聚類變數進行主成分分析或者因子分析,用以降低資料的維數,產生不相關的變數,再基於這些變數進行聚類。