迴歸系列（三）｜談談線性迴歸的殘差和預測值

線性迴歸如何算有意義

作者：丁點helper

前面兩篇文章，我們聚焦於線性迴歸的迴歸係數，理清了樣本與總體迴歸方程的區別、迴歸係數的最小二乘法估計等問題，今天我們重點來看看線性迴歸的殘差和預測值。

迴歸分析的殘差

前面我們談到過樣本回歸方程有兩種寫法：

這裡，殘差的頭上也有一個“^”（hat），意味著殘差也有總體與樣本之分。由上面殘差的計算公式也可推知這一點，因為預測值有樣本與總體之分，所以殘差也自然也是有的。

我們做線性迴歸的時候一般需滿足：

1）線性（L）：因變數與自變數之間呈線性關係；

2）獨立（I）：各觀測值相互獨立；

3）正態（N）：自變數（X）固定時所對應的因變數（Y）服從正態分佈；

4）方差齊（E）：不同自變數取值下因變數的方差相等。

以上四個條件即俗稱的LINE條件。這些條件雖然是針對因變數而言的，但我們卻可以透過對殘差進行分析達到檢驗的目的。一般而言，如果殘差滿足以上四個條件，則稱線性迴歸的假設條件得到滿足。

（有關回歸診斷的問題，後面我們會專門詳細介紹。）

迴歸分析的預測值

看完殘差，我們再來看看預測值。這裡要指出迴歸方程的第三種寫法（一般對於總體迴歸）：

看到 μ第一反應應該是均數，而且是總體均數（非樣本均數），所以 μγ在相關教材上被稱作“X取某個特定數值時，Y的條件總體均數”。

這裡的“條件總體均數”估計會看暈不少人。所謂“條件”，意味著Y的取值是依據X的取值而定的，“X的取值”是確定Y的前提條件。

由此，嚴格來說，應該是 μγ 的預測值。

這意味著給定X的取值，我們透過迴歸獲得的是Y的一個平均值。比如前面文章中談到的教育程度（X）和收入（Y）的迴歸方程：

當X=15時，可以計算得出 =5000，嚴格來講，這裡算出的5000並非是某個人的具體收入，而是一群接受了15年教育的人，其收入的平均數。

因為即便是大家都接受了15年教育，但收入也並不完全相同，有的可能一兩萬，而有的也可能一兩千。而我們透過迴歸獲得是收入（Y）在教育程度為15年（X=15）的一個平均數。

理解了這一層，再看下面這圖應該會比較輕鬆。

迴歸線與豎線的交點，即是迴歸預測值，也是這個正態曲線的均值。均值對應著正態分佈的波峰，意味著即使這一群人的實際收入有差距，但大部分人仍然會圍繞5000上下小幅波動（當X=15時）。

這裡的正態分佈之所以有四個，是因為在不同X的取值水平下，Y的取值會發生（系統性）的變化，即Y的均值會隨著X的變化而變化。

這一點其實描述了迴歸最本質的意義，試想，如果Y的正態分佈不隨X變化，那意味就X不會對Y產生影響，則兩者可能就不存線上性相關。

農林漁牧網