農林漁牧網

您現在的位置是:首頁 > 林業

HLM(分層線性模型)處理“聚集性”問題

2021-12-29由 spssau 發表于 林業

聚集分佈和規則分佈怎麼辦

HLM(分層線性模型)處理“聚集性”問題

HLM模型(hierarchical linear model,分層線性模型)有著多種稀少,可稱作多水平模型,層次線性模型,或者混合效應模型,隨機效應模型等。普通的線性迴歸模型研究X對於Y的影響,而HLM模型也研究X對於Y的影響,但是其考慮了group的聚集性因素(即考慮組內相關不獨立問題)。

比如研究‘入學成績X’對於‘中考成績Y’的影響,個體是學生,學生隸屬於學校group,並且樣本資料來源於幾個學校。那麼不同學校(即group層面)之間的情況時‘入學成績X’對於‘中考成績Y’的影響時很可能不一樣(比如好學校時可能影響幅度更高),如果希望將學校因素考慮進入,此時學校就是一個聚集性因素group,諸如此類研究時即可使用HLM模型。

HLM模型時涉及到兩個重要的專業術語,分別是‘固定效應’和‘隨機效應’,其說明如下表:

HLM(分層線性模型)處理“聚集性”問題

固定效應是指做HLM模型時,不涉及group干擾時的影響關係研究;隨機效應可指在group層面時的影響關係情況,更進一步說明例子如下表:

HLM(分層線性模型)處理“聚集性”問題

如果完全不考慮group,即不考慮‘聚集性’問題,那麼直接使用線性迴歸即可,並不需要使用HLM模型,HLM模型就是處理‘聚集性’問題的一種進階方法;如果說使用HLM模型,並且在分析時只考慮個體效應不需要考慮group層面的效應,即只有固定效應項並無隨機效應項;如果說使用HLM模型,並且在分析時考慮個體效應的同時還考慮group層面的效應,即包括固定效應項和隨機效應項。

案例:

1, 背景

當前有一項研究,研究樣本為65所學校共計4059名學生,研究內容為學生入學成績對於最終成績的影響情況,由於學生樣本來源於65所不同的學校,而且不同學校層次有著較大區別,因此需要將學校(即group項)的聚集性納入考慮範疇中。研究資料中涉及的欄位如下說明:

HLM(分層線性模型)處理“聚集性”問題

2,理論

HLM模型研究是對傳統迴歸模型的進一步精細分析,研究者可深入探討資料的變異是否在高層次(group)中存在著聚集性。一般分析時分為兩個步驟如下說明:

第一步:

首先只考慮固定效應,即不納入隨機效應;然後透過結果中的ICC值判斷【group層面】因變數的變異幅度(ICC值越大意味著【group層面】因變數的變異幅度越大,一般ICC值較小比如小於0。1時,意味著【group層面】因變數的變異力度較低,意味著聚集性較弱,此時可考慮直接放棄HLM模型改用常見的迴歸模型即可);

第二步:

如果說ICC值較大(比如大於0。1時),此時可進一步探究‘隨機效應’對【group層面】帶來的變異情況,加入group層次水平的研究項,深入探究它們對於【group層面】變異的解釋情況。比如第一步中得到的ICC值為0。2,第二步之後 得到的ICC值為0。1,減少為0。2-0。1=0。1,也即說明新加入‘隨機效應’項會對【group層面】產生0。1(10%)的變異解釋力度。

特別提示:

HLM模型時,研究思路並不完全固定,完全由研究者的研究目的而定;

group的資料格式需要特別注意,比如本案例中某個學校(id=1)有73個個體學生,那麼id=1就要對應重複73次。

3, 操作

本例子中操作上第一步先不放入‘隨機效應’項,即只放入如下圖所示:

HLM(分層線性模型)處理“聚集性”問題

在第一次分析之後,發現ICC值為0。144較大,即意味著【group層面】即學校中考成績的變異為14。4%。因此考慮納入‘隨機效應’項,將‘入學成績’項納入模型中,以深入探究‘入學成績’對於【group層面】‘中考成績’的解釋力度(即入學成績會對中考成績有影響,但是在不同學校group間是否有差異性)。

HLM(分層線性模型)處理“聚集性”問題

4, SPSSAU輸出結果

SPSSAU共輸出4個表格,分別‘模型基本情況’,‘固定效應引數估計’,‘隨機效應協方差估計結果’,‘隨機效應引數估計的相關矩陣’,分別說明如下:

HLM(分層線性模型)處理“聚集性”問題

5,文字分析

本案例共進行了兩次。第一次時不納入‘隨機效應’項,得到結果分別如下:

HLM(分層線性模型)處理“聚集性”問題

上表格展示出本次研究的總樣本數量是4059個,而且有65組,即group項有65個不同的數字(即65所學校),其中某學校最少只有2個學生個體樣本,某學校最多有198個學生個體樣本,平均來看每所學校為62。4個學生個體樣本。以及HLM模型使用REML似然法估計,log似然值為-4681。13。

HLM(分層線性模型)處理“聚集性”問題

‘固定效應引數估計’表格展示固定效應情況,即‘入學成績’對於‘中考成績’的影響,上表可知:迴歸係數值為0。563>0,並且此路徑呈現出0。01水平的顯著性(z=45。106,p=0。000<0。01),因而說明入學成績會對中考成績產生顯著的正向影響關係,即學生入學成績越高,那麼學生中考成績也會越高。

HLM(分層線性模型)處理“聚集性”問題

由於第一次分析結果中並沒有納入‘隨機效應’分析項,因此‘隨機效應協方差估計結果’只會有截距和殘差這兩項,透過此兩項可計算得到ICC值,計算公式為:組內相關係數ICC=截距項方差 / (截距項方差+殘差項方差),即組間方差 /(組間方差 + 組內方差)。上表格顯示ICC為0。144(此值相對較大),意味著【group層面】中考成績的變異為14。40%。

與此同時,截距的迴歸係數值(variance或sd值均可稱迴歸係數值)為0。094且呈現出顯著性,意味著【group層面】之間的中考成績有著明顯的差異性。由於ICC值較大和【group層面】之間有著差異性,因此接下來再進一步納入‘隨機效應項’進行深入考慮,考慮‘隨機效應項’對於【group層面】上的中考成績變異的解釋情況。

接著將‘入學成績’這個學校水平上的資料作為‘隨機效應項’納入模型中,因而第2次分析的操作如下圖:

HLM(分層線性模型)處理“聚集性”問題

第2次分析的結果分別如下面4個表格所示:

HLM(分層線性模型)處理“聚集性”問題

此表格資訊並沒有變化,不再贅述。

HLM(分層線性模型)處理“聚集性”問題

‘固定效應引數估計’表格展示固定效應情況,即‘入學成績’對於‘中考成績’的影響,上表可知:迴歸係數值為0。557>0,並且此路徑呈現出0。01水平的顯著性(z=27。588,p=0。000<0。01),因而說明入學成績會對中考成績產生顯著的正向影響關係,即學生入學成績越高,那麼學生中考成績也會越高。

特別提示:

如果說進行過多次HLM模型分析,一般固定效應的分析只以最後一次結果為準即可。

HLM(分層線性模型)處理“聚集性”問題

在納入‘入學成績’這一‘隨機效應’項之後,從上表可以看出:ICC值由第1次分析時的0。144上升到0。145,即增加幅度為0。001,也即說明‘入學成績’可以提高【group層面】即學校層面‘中考成績’的變異幅度為0。1%,此比例相對非常低可以基本可以忽略。

截距項呈現出0。01水平的顯著性(z=3。625,p=0。000<0。01),即意味著不同【group層面】即學校層面之間的中考成績有著差異性。與此同時從上表格看到:‘入學成績’這一‘隨機效應’項呈現出顯著性(z=2。356,p=0。018<0。05),即意味著‘入學成績’對於中考成績的影響時,不同【group層面】即學校層面時有著差異性。

即最終得到結論:【group層面】即學校層面之間的中考成績確實有著差異性(z=2。356,p=0。018<0。05),而且‘入學成績’對於‘中考成績’的影響時(z=2。356,p=0。018<0。05),會有著【group層面】即學校之間的差異性。

特別提示:

如果希望研究某隨機效應項的加入,帶來【group層面】(本案例為學校)中考成績的解釋力度變化,那麼可使用計算公式為:

(Coef_intercept1 – Coef_intercept2)/ Coef_intercept1

【Coef_intercept表示第n次‘隨機效應協方差估計結果’表格中‘截距’項的迴歸係數】,本案例中第1次分析得到的值為0。094,第2次為0。092,即為(0。094-0。092)/0。094=2。12%,即‘入學成績’可以解釋【group層面】即學校層級的平均成績差異2。12%的原因。

HLM(分層線性模型)處理“聚集性”問題

‘隨機效應引數估計的相關矩陣’表格展示隨機效應項間的相關關係情況,比如上表格中0。425指隨機效應截距項與‘入學成績’間的相關情況,可理解為【group層面】學校間成績差異與‘入學成績’間的相關關係情況。該值較大,因此並不需要設定‘隨機效應協方差為0’,如果該值較小比如小於0。2,可考慮設定模型中‘隨機效應協方差為0’打勾即假定沒有協方差關係。

6,剖析

涉及以下幾個關鍵點,分別如下:

HLM模型分析思路如何?

HLM分析思路上並沒有固定標準,通常是第1步不納入‘隨機效應項’,結合ICC值和隨機效應表格中的截距項顯著性,判斷【group層面】的變異是否存在,如果存在則納入‘隨機效應項’後深入挖掘‘隨機效應項’帶來【group層面】的變異情況等;

7,疑難解惑

① HLM模型的資料格式是什麼樣的?

HLM模型的資料格式可點選檢視

② HLM模型中ICC值的意義是?

HLM模型時,ICC的計算公式為:組內相關係數ICC=截距項方差 / (截距項方差+殘差項方差),即組間方差 /(組間方差 + 組內方差),該指標值代表著【group層面】差異幅度。

③ 涉及幾個名詞的意義說明?

在HLM效應分析時,涉及到專業名詞包括固定效應,隨機效應等,說明如下表格:

HLM(分層線性模型)處理“聚集性”問題

④ 標準誤計算說明:z或t檢驗?

HLM模型時標準誤的計算時,不同軟體的計算方式並不同,並且可能使用t檢驗或者z檢驗,SPSSAU當前使用z檢驗。