農林漁牧網

您現在的位置是:首頁 > 農業

迴歸系列(三)|談談線性迴歸的殘差和預測值

2022-05-13由 CDA資料分析師 發表于 農業

線性迴歸如何算有意義

迴歸系列(三)|談談線性迴歸的殘差和預測值

作者:丁點helper

前面兩篇文章,我們聚焦於線性迴歸的迴歸係數,理清了樣本與總體迴歸方程的區別、迴歸係數的最小二乘法估計等問題,今天我們重點來看看線性迴歸的殘差和預測值。

迴歸分析的殘差

前面我們談到過樣本回歸方程有兩種寫法:

迴歸系列(三)|談談線性迴歸的殘差和預測值

迴歸系列(三)|談談線性迴歸的殘差和預測值

迴歸系列(三)|談談線性迴歸的殘差和預測值

這裡,殘差的頭上也有一個“^”(hat),意味著殘差也有總體與樣本之分。由上面殘差的計算公式也可推知這一點,因為預測值有樣本與總體之分,所以殘差也自然也是有的。

我們做線性迴歸的時候一般需滿足:

1)線性(L):因變數與自變數之間呈線性關係;

2)獨立(I):各觀測值相互獨立;

3)正態(N):自變數(X)固定時所對應的因變數(Y)服從正態分佈;

4)方差齊(E):不同自變數取值下因變數的方差相等。

以上四個條件即俗稱的LINE條件。這些條件雖然是針對因變數而言的,但我們卻可以透過對殘差進行分析達到檢驗的目的。一般而言,如果殘差滿足以上四個條件,則稱線性迴歸的假設條件得到滿足。

(有關回歸診斷的問題,後面我們會專門詳細介紹。)

迴歸分析的預測值

看完殘差,我們再來看看預測值。這裡要指出迴歸方程的第三種寫法(一般對於總體迴歸):

迴歸系列(三)|談談線性迴歸的殘差和預測值

看到 μ第一反應應該是均數,而且是總體均數(非樣本均數),所以 μγ在相關教材上被稱作“X取某個特定數值時,Y的條件總體均數”。

這裡的“條件總體均數”估計會看暈不少人。所謂“條件”,意味著Y的取值是依據X的取值而定的,“X的取值”是確定Y的前提條件。

由此,嚴格來說, 應該是 μγ 的預測值。

這意味著給定X的取值,我們透過迴歸獲得的是Y的一個平均值。比如前面文章中談到的教育程度(X)和收入(Y)的迴歸方程:

迴歸系列(三)|談談線性迴歸的殘差和預測值

當X=15時,可以計算得出 =5000,嚴格來講,這裡算出的5000並非是某個人的具體收入,而是一群接受了15年教育的人,其收入的平均數。

因為即便是大家都接受了15年教育,但收入也並不完全相同,有的可能一兩萬,而有的也可能一兩千。而我們透過迴歸獲得是收入(Y)在教育程度為15年(X=15)的一個平均數。

理解了這一層,再看下面這圖應該會比較輕鬆。

迴歸系列(三)|談談線性迴歸的殘差和預測值

迴歸系列(三)|談談線性迴歸的殘差和預測值

迴歸線與豎線的交點,即是迴歸預測值,也是這個正態曲線的均值。均值對應著正態分佈的波峰,意味著即使這一群人的實際收入有差距,但大部分人仍然會圍繞5000上下小幅波動(當X=15時)。

這裡的正態分佈之所以有四個,是因為在不同X的取值水平下,Y的取值會發生(系統性)的變化,即Y的均值會隨著X的變化而變化。

這一點其實描述了迴歸最本質的意義,試想,如果Y的正態分佈不隨X變化,那意味就X不會對Y產生影響,則兩者可能就不存線上性相關。