農林漁牧網

您現在的位置是:首頁 > 林業

Excel Stat(19):定性資料分析2

2022-03-15由 ExcelStat 發表于 林業

統計學wald是什麼意思

對數線性模型基本已成為處理高維列聯表資料的標準模型。

考慮每個個體被分配到每個格子的機率足夠小,並且相互獨立,則第

個格子的發生頻數

服從引數為

的Poisson分佈,即

其中

受到各分類因素影響:

由此可以構造似然函式對模型進行擬合。

模型擬合評價可以採用Pearson卡方值(就是卡方檢驗的卡方值,只不過理論頻數是模型的估計頻數

),或者似然比卡方值(The likelihood-ratio chi-square statistic),這兩種差異不大。當對應P>0。05時,可以認為模型擬合效果較好,模型中的因素能較好解釋分類結果。

對數線性模型一般從所謂的飽和模型開始,尋找包含因子少,解釋效果好的擬合模型。飽和模型包含所有分類因素及因素間的全部互動作用和高階互動。此時模型自由度為0,模型擬合誤差為0。模型迴歸係數可以給出對應因素對分類結果影響,由此可以提示下一步分析模型。也可以直接對所有可能模型進行擬合,最後採用AIC準則選擇合適的解釋模型。

下面示例資料是一個有關乳腺癌的研究,是一個3維列聯表。

Excel Stat(19):定性資料分析2

Excel Stat(19):定性資料分析2

Excel Stat(19):定性資料分析2

模型提示:診斷中心與細胞核異型,細胞核異型與存活狀況可能存在關聯。

下面是SPSS引數估計(已刪除被SPSS列為對照的空行):

Excel Stat(19):定性資料分析2

SPSS模型提示:診斷中心與細胞核異型存在關聯。

事實上,對該資料,採用AIC準則的最優模型為:中心+異型+存活+中心*存活+異型*存活。

此時ExcelStat對最優模型的擬合結果:

Excel Stat(19):定性資料分析2

對應SPSS結果:

Excel Stat(19):定性資料分析2

從擬合上來說兩者並無差異,事實上,兩者的估計值是完全相同的。導致模型引數估計差異的原因主要是設計矩陣構造導致高階互動係數在模型中代表的實際意義不一樣所致。

如果把所有水平賦值對換:

Excel Stat(19):定性資料分析2

Excel Stat(19):定性資料分析2

水平賦值對換後,ExcelStat的係數並未改變(符號可能會改變),對各個係數的評價也沒有變化(Wald P值,對應SPSS的Z P值,SPSS的Z統計量就是Wald統計量的平方根)。但是SPSS發生了變化。產生這種變化的原因是設計矩陣結構所致。構造設計矩陣時,對主效應,兩者無差異;對互動作用,ExcelStat採用一般線性迴歸分析中互動作用構建的特殊乘法,而SPSS則直接採用常規意義的數字乘法。

ExcelStat與SPSS主效應估計比較:

Excel Stat(19):定性資料分析2

Excel Stat(19):定性資料分析2

總的說來,ExcelStat和SPSS的設計矩陣構建模式都只會體現在迴歸係數差異上,對模型的總體擬合效果不會存在差異。事實上,ExcelStat對廣義線性模型因子處理和一般線性模型的因子處理是完全相同的。後面的廣義線性模型將不再討論ExcelStat與SPSS間引數估計的差異,就如前所述,引數估計差異不會導致模型總體效果評價產生差異。

(待續。。。)

ExcelStat下載:

Excel Stat下載連結

Excel載入宏ExcelStat。xla

Excel Stat(19):定性資料分析2

點贊、收藏、關注、轉發!!!