農林漁牧網

您現在的位置是:首頁 > 林業

SPSSAU|二元logit迴歸

2022-12-01由 SPSSAU 發表于 林業

線性擬閤中的r2是什麼

SPSSAU|二元logit迴歸

在研究X對Y的影響時,因變數Y往往是分類變數,這時如果還想分析影響關係可以使用logit迴歸,常見的logit迴歸包括,二元logit迴歸(二項logit迴歸)、多分類logit迴歸以及有序logit迴歸。三者的區別如下:

SPSSAU|二元logit迴歸

此案例使用二元logit迴歸研究患者腎細胞癌轉移情況。

一、案例背景

案例中是乳腺癌症患者資料,其中包括“年齡”、“擴散等級”、“腫瘤尺寸變數”,想要建立一個預測因變數“癌變部位的的淋巴結是否含有癌細胞”的模型,並且觀測自變數對因變數的影響關係。部分資料如下:

SPSSAU|二元logit迴歸

案例的一般步驟如下。

二、一般步驟

SPSSAU|二元logit迴歸

1。自變數的篩選

對於自變數的篩選,可能涉及兩個方法一個是卡方分析一個是方差分析,此步不是必須步驟,透過此步可以試探性瞭解每個自變數X與Y之間的關係,一般來講差異關係是基礎性的判斷,影響關係是更深一步的深層次關係,所以在二元logit迴歸分析前,可以先對X做差異分析,篩選出與Y有差異性的X。

對於卡方分析,需要X是定類資料,如果X是定類資料,那麼就使用卡方分析去分析差異;如果說X是定量資料,那麼可使用方差分析去研究X和Y的差異性。

分析完成X與Y的差異關係之後,篩選出有差異的X,然後再放入模型中,進行二元logit迴歸;由於自變數中既有定類變數也有定量變數所以二者分別進行。

(1)定類變數

由於自變數“擴散等級”是定類變數所以進行卡方檢驗。

SPSSAU|二元logit迴歸

由上表可知,p值<0。05不同的“擴散等級”對“癌變部位的的淋巴結是否含有癌細胞”具有顯著性差異。所以分析時可以將該分析項放入模型中。

(2)定量變數

由於“年齡”、“腫瘤尺寸變數”為定量變數,所以可以進行方差分析, 點選“開始分析”,對結果進行檢視:

SPSSAU|二元logit迴歸

由上表可知,兩個p值<0。05說明“年齡”、“腫瘤尺寸變數”對“癌變部位的的淋巴結是否含有癌細胞”均具有顯著性差異。同理,分析時可以將分析項放入模型中。

2。資料預處理

(1)因變數

二元logistic迴歸要求因變數只能為2項,而且數字一定是0和1,案例中因變數為兩項,並且數字0表示“No”(即:癌變部位的的淋巴結不含有癌細胞)數字1表示“Yes”(即:癌變部位的的淋巴結含有癌細胞),如果不是這樣可以使用【資料處理->資料編碼】完成。

SPSSAU|二元logit迴歸

(2)自變數

另外,有些資料是定類資料,在進行二元logit分析前可以將資料進行啞變數處理。該案例自變數中“擴散等級”認為是定類變數所以進行啞變數處理。

3。影響關係分析

在確認了可能的影響因素之後,此步驟直接對題進行二元Logit迴歸分析。對於模型結果,宏觀上來講首先需要看某個題是否呈現出顯著性,如果呈現出顯著性,那麼說明該題對Y有影響關係。具體是正向影響還是負向影響需要結合對應的迴歸係數值進行說明,如果迴歸係數值大於0,則說明是正向影響;反之則說明是負向影響。接下來對模型進行檢視,分為模型效果和模型結果兩部分進行。

三、模型效果

模型效果將從“迴歸結果基本彙總”、“模型似然比檢驗結果”、“擬合度檢驗”三個方面進行說明。

1。迴歸結果基本彙總

SPSSAU|二元logit迴歸

對於分析資料的基本情況進行說明,包括Y值的資料分析和最終分析有效樣本量的資料情況,從結果可以看出:“癌變部位淋巴結含有癌細胞情況”因變數總共有1121個樣本參加分析,並且沒有缺失資料。接下來檢視模型似然比檢驗結果。

2。模型似然比檢驗結果

SPSSAU|二元logit迴歸

首先對p值進行分析,如果該值小於0。05,則說明模型有效;反之則說明模型無效;從上表可以看出p<0。05,所以說明本次構建模型時,放入的自變數具有有效性,本次模型構建有意義。然後對擬合度進行檢驗檢視。

3。 擬合度檢驗

SPSSAU|二元logit迴歸

HL檢驗原假設為:模型擬合值和觀測值的吻合程度一致,如果p值大於0。05則說明透過HL檢驗,反之則說明模型沒有透過HL檢驗,模型擬合優度差。從結果可以看出p值0。05(Chi=9。175,p=0。328>0。05),因而說明接受原定假設,即說明本次模型透過HL檢驗,模型擬合優度較好。

四、模型結果

從模型效果來看,資料沒有缺失,並且模型透過似然比檢驗,模型構建有效,擬合優度也較好,接下來對模型結果進行分析,模型結果將從“模型公式及結果”和“影響關係及大小”兩方面進行說明。

1。模型公式及結果

SPSSAU|二元logit迴歸

啞變數處理後在分析時需要少放入一項作為,在該案例裡,不放入“擴散等級>5cm”放入“擴散等級2-5cm”以及“擴散等級<=2cm”兩項。首先看p值,上表可以看出“腫瘤尺寸”和“年齡”兩項p值小於0。05其餘大於0。05,所以說明“腫瘤尺寸”和“年齡”對於 “癌變部位淋巴結含有癌細胞情況”具有顯著性。雖然單分析“擴散等級”對因變數具有顯著差異性,但是在總體模型中並未呈現出顯著性,這是正常的,因為不同變數之間可能也存在關係。

從上表可知:模型公式為:ln(p/1-p)=-0。398-0。307*“擴散等級_2-5 cm” -0。185*擴散等級_<= 2 cm-0。025*年齡 + 0。424*腫瘤尺寸變數(其中p代表癌變部位淋巴結含有癌細胞情況為1 的機率,1-p代表癌變部位淋巴結含有癌細胞情況為0的機率)。

R2用於表示模型擬合程度,此值與多元線性迴歸分析的R2值意義基本一致,此值的取值範圍為0~1,一般沒有固定標準,值越大意味著相關因素對Y的解釋力度越高。SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

2。影響關係及大小

上表可以看出“腫瘤尺寸”會對“癌變部位淋巴結含有癌細胞情況”產生顯著的正向影響關係,以及“年齡”會對“癌變部位淋巴結含有癌細胞情況”產生顯著的負向影響關係。但是“擴散等級_2-5 cm”, “擴散等級_<= 2 cm”並不會對癌變部位淋巴結含有癌細胞情況產生影響關係。其中“腫瘤尺寸”變數的迴歸係數大於“年齡”的迴歸係數,所以說明“腫瘤尺寸”對於“癌變部位淋巴結含有癌細胞情況”影響更大。

五、總結

本篇案例利用二元logit迴歸立一個預測因變數“癌變部位的的淋巴結是否含有癌細胞”的模型,模型進行前首先對變數進行資料預處理以及差異性分析,模型從模型效果以及模型結果兩部分進行說明,最後得到模型公式,並進行預測。