農林漁牧網

您現在的位置是:首頁 > 農業

SPSS之史上最全邏輯迴歸(原理+案例介紹)

2022-09-25由 資料分析發燒友 發表于 農業

什麼叫依可測變數

邏輯迴歸

通常用於解決分類問題,比如:客戶是否該買某個商品,借款人是否會違約等。實際上,“

分類”是邏輯迴歸的目的和結果,中間過程依舊是“迴歸”

,因為透過邏輯迴歸模型,我們得到的是0-1之間的連續數字,即機率,類似借款人違約的可能性。然後給這個可能性加上一個閾值,就變成了分類。

logit迴歸分析常見型別如下:

SPSS之史上最全邏輯迴歸(原理+案例介紹)

二元logit迴歸:目標變數只有兩個可能的結果,例如:是否滿意

多分類logit迴歸:目標變數是三個或三個以上的類別,與順序無關,例如:預測哪種食物更受歡迎(素食,非素食,純素食)

有序logit迴歸:目標變數是三個或三個以上的類別,與順序有關,例如:預測電影評分,從1顆星到5顆星。

條件logit迴歸:目標變數多出配對ID,將配對組納入考慮範疇

1 二元logit迴歸

1。1 資料處理

自變數並不一定非要定類變數,它們也可以是定量變數。如果X是定類(學歷、年齡等)資料,此時需要對X進行啞變數設定。

spsspro會自動進行啞變數操作,也可以在資料處理——虛擬變數轉換中自行處理:

SPSS之史上最全邏輯迴歸(原理+案例介紹)

Y為二分類定類資料,(Y的數字一定只能為0和1)例如願意和不願意、是和否等,如果不是,可以在資料處理——資料編碼進行操作:

SPSS之史上最全邏輯迴歸(原理+案例介紹)

另外,邏輯迴歸分析對樣本量是有一定要求的。這裡有個簡單的估算方法:樣本量為自變數個數的10倍。

1。2 案例介紹

案例:不同年齡跟學歷對顧客滿意度的影響程度分析

SPSS之史上最全邏輯迴歸(原理+案例介紹)

1。3 軟體操作

SPSS之史上最全邏輯迴歸(原理+案例介紹)

1。4 結果解讀

1) 模型檢驗

SPSS之史上最全邏輯迴歸(原理+案例介紹)

模型的似然比卡方檢驗的結果顯示,顯著性 值0。027**,水平上呈現顯著性,拒絕原假設,因而模型是有效的。

2)二分類邏輯迴歸結果

SPSS之史上最全邏輯迴歸(原理+案例介紹)

欄位年齡段_36-45歲顯著性 值為0。000***,水平上呈現顯著性,拒絕原假設,因此年齡段_36-45歲會對口味滿意度產生顯著性影響,意味著年齡段_36-45歲每增加一個單位,口味滿意度為滿意的機率比不滿意的機率高了440。008%。

欄位學歷_本科顯著性 值為0。000***,水平上呈現顯著性,拒絕原假設,因此學歷_本科會對口味滿意度產生顯著性影響,意味著學歷_本科每增加一個單位,口味滿意度為滿意的機率比不滿意的機率高了145。663%。

所以,年齡段約靠近36-45歲,學歷越靠近本科,顧客對於口味滿意的機率越大。

2 多分類logit迴歸

案例:根據年齡、月收入、性別、家庭人口等影響因素(自變數)來研究工薪群體的上下班交通工具是公交地鐵、腳踏車、還是私家車(因變數)?

SPSS之史上最全邏輯迴歸(原理+案例介紹)

軟體操作

SPSS之史上最全邏輯迴歸(原理+案例介紹)

結果解讀

1) 模型檢驗

SPSS之史上最全邏輯迴歸(原理+案例介紹)

● 對 p 值進行分析,如果該值小於 0。05,則說明模型有效;反之則說明模型無效。

● AIC 值和 BIC 值用於對比兩個模型的優劣時使用,此兩個值均為越小越好。

模型的似然比卡方檢驗的結果顯示,顯著性 值 0。000***,水平上呈現顯著性,拒絕原假設,因而模型是有效的。

2)多分類邏輯迴歸結果

SPSS之史上最全邏輯迴歸(原理+案例介紹)

● OR 值(優勢比):為實驗組的事件發生機率/對照組的事件發生機率。

● 對於連續自變數的 OR 值的意義為:該變數每升高一個單位,發生實驗組事件的機率比發生對照組事件的機率變化了(OR 值-1)%。

● 對於啞變數化的 0-1 分類自變數的 OR 值意義為:該變數每升高一個單位(即分類水平從 0 變為 1),發生實驗組事件的機率比發生對照組事件的機率變化了(OR 值-1)%。

對於多分類邏輯迴歸,需要選擇有一個分類水平作為基水平,分別對這個基水平去其他分類水平建立二分類邏輯迴歸,在本例中,選擇了“公交地鐵”作為基水平,分別建立了“公交水平-私家車”和“公交水平-腳踏車”這兩個二分類邏輯迴歸器。

基於參考

公交地鐵 ->私家車

只有欄位 性別

男 是顯著的,欄位性別

男顯著性 值為 0。000***,水平上呈現顯著性,拒絕原假設,因此性別_男會對交通工具產生顯著性影響,意味著性別 每增加一個單位,(在本例中,對分類變數進行了啞變數,其中性別男=1,性別女=0,意味著從分類水平從 0 變為 1,也就是當性別為男性時,交通工具為私家車的機率比公交地鐵的機率高了 982。888%;)

基於參考

公交地鐵 ->腳踏車

欄位年齡 顯著性 值為 0。044**,水平上呈現顯著性,拒絕原假設,因此年齡 會對交通工具產生顯著性影響,意味著年齡 每增加一個單位,交通工具為腳踏車的機率比公交地鐵的機率高了 18。723%。

欄位家庭人口顯著性 值為 0。000***,水平上呈現顯著性,拒絕原假設,因此家庭人口會對交通工具產生顯著性影響,意味著家庭人口每增加一個單位,交通工具為腳踏車的機率比公交地鐵的機率低了 91。381%。

欄位性別

男顯著性 值為 0。000***,水平上呈現顯著性,拒絕原假設,因此性別

男會對交通工具產生顯著性影響,意味著性別 每增加一個單位,交通工具為私家車的機率比公交地鐵的機率高了 9183。612%;

3)分類評價指標

SPSS之史上最全邏輯迴歸(原理+案例介紹)

準確率:預測正確樣本佔總樣本的比例,準確率越大越好。

召回率:實際為正樣本的結果中,預測為正樣本的比例,召回率越大越好。 精確率:預測出來為正樣本的結果中,實際為正樣本的比例,精確率越大越好。

F1:精確率和召回率的調和平均,精確率和召回率是互相影響的,雖然兩者都高是一種期望的理想情況,然而實際中常常是精確率高、召回率就低,或者召回率低、但精確率高。若需要兼顧兩者,那麼就可以用 F1 指標。

AUC:AUC 值越接近 1 說明分類效果越好。

綜合各指標的值可知,建立的多分類邏輯迴歸的分類效果是中等偏上的,具有一定意義。

3 有序logit迴歸

有序邏輯迴歸適用於因變數為等級或者程度差別的有序變數,如因變數滿意度分為不滿意記為1,滿意記為2,非常滿意記為3。目的是為了研究有序分類因變數與一些影響因素之間的關係。

分析步驟

對分類因變數分佈狀況進行描述。

對模型進行似然檢比卡方檢驗,分析似然檢比卡方顯著性,若p值小於0。05,說明模型有效,反之模型不成立。若設計多個模型,可以結合其他分類評價或者資訊準則(AIC、BIC值越小越好)進行綜合分析。

根據模型引數表,分析X是否呈顯著性(p值小於0。05),用於探究X對Y的影響關係。分析迴歸係數B與OR值(優勢比),對比分析X對Y的影響程度。

根據樣本預測值所滿足某一類別的表示式,可以將該樣本劃分至有序因變數的某一類別中。

結合預測分類混淆矩陣與模型評價中的分類指標,分析模型預測。

案例:根據年齡、性別、是否患有糖尿病、運動量,來分析哪些因素對BMI產生影響,而BMI分為正常、偏高、肥胖三類,為有序變數,因此採用的是有序邏輯迴歸。

SPSS之史上最全邏輯迴歸(原理+案例介紹)

軟體操作

SPSS之史上最全邏輯迴歸(原理+案例介紹)

結果解讀

1)模型評價

SPSS之史上最全邏輯迴歸(原理+案例介紹)

模型的似然比卡方檢驗的結果顯示,顯著性 值0。000***,水平上呈現顯著性,拒絕原假設,因而模型是有效的。

2)有序邏輯迴歸結果

SPSS之史上最全邏輯迴歸(原理+案例介紹)

基於變數-年齡,顯著性p值為0。000***,水平上呈現顯著性,拒絕原假設,因此年齡對BMI會產生顯著性影響,以及OR值為1。058,意味著年齡每增加一個單位,BMI提高一個或一個以上的等級的機率增加了5。81%。

基於變數-運動量,顯著性p值為0。000***,水平上呈現顯著性,拒絕原假設,因此運動量對BMI會產生顯著性影響,以及OR值為0。583,意味著運動量每增加一個單位,BMI提高一個或一個以上的等級的機率減少了41。654%。

基於變數-性別_男,顯著性p值為0。228,水平上不呈現顯著性,不能拒絕原假設,因此性別_男對BMI不會產生顯著性影響。

基於變數-糖尿病_1。0,顯著性p值為0。001***,水平上呈現顯著性,拒絕原假設,因此糖尿病_1。0對BMI會產生顯著性影響,以及OR值為3。733,意味著糖尿病_1。0每增加一個單位,BMI提高一個或一個以上的等級的機率增加了273。251%。

3)因變數分類閾值

SPSS之史上最全邏輯迴歸(原理+案例介紹)

上表展示了因變數分類閾值。若因變數預測值 滿足某個類別下方對應的表示式,那麼樣本就被預測為該類別。

4)分類評價指標

SPSS之史上最全邏輯迴歸(原理+案例介紹)

準確率:預測正確樣本佔總樣本的比例,準確率越大越好。

召回率:實際為正樣本的結果中,預測為正樣本的比例,召回率越大越好。

精確率:預測出來為正樣本的結果中,實際為正樣本的比例,精確率越大越好。

F1:精確率和召回率的調和平均,精確率和召回率是互相影響的,雖然兩者都高是一種期望的理想情況,然而實際中常常是精確率高、召回率就低,或者召回率低、但精確率高。若需要兼顧兩者,那麼就可以用F1指標。

AUC:AUC值越接近1說明分類效果越好。

4 條件邏輯迴歸

條件邏輯迴歸是使用配對資料的一種模型,常用於醫學研究的回顧研究和前瞻研究。在配對資料使用非條件邏輯迴歸常高估了OR值,而條件邏輯迴歸考慮到了資料的分層和匹配情況,從而解決這個問題。其中配對資料一般是具有特定條件或屬性的病例受試者與沒有該條件的n個對照受試者相匹配而組成的。

案例:調查痛風發病(發病為1)和三種因素(是否高尿酸血癥(有病為1)、鍛鍊情況(不鍛鍊=0,偶爾=1,經常鍛鍊=2)、體重)的關係。採用1:2配對的病例對照研究形式,選取健康進行對照。使用條件邏輯迴歸進行原因分析。

SPSS之史上最全邏輯迴歸(原理+案例介紹)

軟體操作

SPSS之史上最全邏輯迴歸(原理+案例介紹)

結果解讀

1)Ominbus全域性性檢驗

SPSS之史上最全邏輯迴歸(原理+案例介紹)

上表展示了樣本 Ominbus 全域性性檢驗的結果,包括-2 倍對數極大似然值、卡方值等,用於檢驗模型中所有變數的迴歸係數是否全為零。-2 倍對數極大似然值用於檢驗模型的擬合情況,其值越小,表示模型擬合的越好。

Ominbus 全域性性檢驗的顯著性 P 值為 0。000***,水平上呈現顯著性,拒絕原假設,因此資料至少存在一個變數的風險比率不為零,模型有效。

2)條件邏輯迴歸結果

SPSS之史上最全邏輯迴歸(原理+案例介紹)

RR值(相對危險度):試驗組累積發病率/對照組累積發病率。 RR值越大,表明效應越大,若 RR等於1說明暴露因素與疾病之間無關聯;若大於1,說明該因素與疾病呈正相關,若小於1,說明該因素與疾病呈負相關。

1、對於連續自變數的RR值無統計學意義。

2、對於啞變數化的0-1分類自變數的RR值意義為:該變數每升高一個單位(即分類水平從0變為1),發生實驗組事件的機率是發生對照組事件的RR倍。

基於變數-體重、是否高尿酸血癥、鍛鍊情況, 值>0。05,水平上均不呈現顯著性,因此三者對是否痛風不會產生顯著性影響。