農林漁牧網

您現在的位置是:首頁 > 農業

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

2022-09-07由 睿思財來 發表于 農業

八位位元組多少會溢位

首先要明確待插值的變數的型別,原則上,所有提到的插值方法都可以應用於定量變數,但是,並非每種單插值方法都可以用於定性變數,原因在於,插值方法產生的合成值不一定屬於變數有效值的範圍,例如,如果必須對性別變數進行插值,那麼均值插值會產生一個不可能的值。因此,應該對定性變數堅持某種形式的“捐助插值”來產生“真實”值。

所述的單插值方法可以分為兩類,一類為確定性插值方法,另一類為隨機插值方法。對於確定性插值方法,隨機項Ek為0,對於隨機插值方法,隨機項Ek不為0。對於某些確定性的插值方法,變數在插值前的均值等於插值後的均值,這表明並非所有的插值方法都能夠減少由於缺失引起的偏差。對於隨機插值方法,插值前的均值永遠不會等於插值後的均值,但是,插值前後的期望值可能相等。

確定性插值可能會影響變數的分佈,它傾向於產生接近原始分佈中心的合成值,插補值的分佈更趨於“峰值”,這可能會帶來不良後果,標準誤差的估計值可能太小。使用插補資料的研究人員進行估計時可能會得出非常精確的結論,而實際上並非如此。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

EM插值可以在不計算插補值的情況下校正由於專案無響應而引起的估計量的偏差。EM插值使用迭代最大似然法,基於每個響應者的所有可用資料,提供均值和方差、協方差矩陣的估計值,該方法假定資料來自多元正態分佈,並且以報告的資料為條件,資料是隨機缺失的。

EM插值是一種廣泛使用的插值方法,可以從不完整的資料中得出基於似然性的推論。事實上,EM插值不是純插值方法,因為它不會估計缺失值本身,而是用似然函式替換缺失值函式。在迭代過程的每個迴圈中,都有一個E步驟和一個M步驟。E步驟基於所有可用的資料計算期望值,即在給定可用資料和前一次迭代所得到的引數估計的情況下,計算可用資料對應的對數似然函式的條件期望;

隨後是M步驟,用E步中計算出的合成值代替缺失值。該演算法在E步和M步之間不斷迭代直至收斂,在某些條件下,該演算法收斂到最大似然估計,即兩次迭代之間的引數變化小於一個預先給定的閾值時結束,該方法的缺點是可能會陷入區域性極值,收斂速度也不是很快,並且計算很複雜。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

單插值可視為一種透過用合理的值填充資料集中的“漏洞”來解決資料缺失單插值方法是為每個缺失項估算了一個值,也可以使用重複插值方法,即透過多次重複隨機插值方法,為每個缺失值分配個值。使用重複插值有兩個原因:第一,可以減少由於插值引起的估計量方差的隨機構成,透過使用分數插值方法可以達到此目的,該方法是基於多次重複單一的隨機插值方法;第二,它可以簡化點估計量的方差估計。

為了解決由單插值方法引起的問題,Rubin提出了多重插值方法。多重插值方法是將每個缺失值由m>1個合成值代替,且m很小,通常取3到10,這就產生了m個完整的資料集,並使用標準的分析技術分析每個資料集。多重插值方法的機理是,重複的插補值本身已經反映了真實但未觀察到的值的不確定性,只要重複插值選擇了適當插值倍數,就可以很容易地估計出不確定性。

由於使用複雜調查和公共資料集的許多使用者和分析人員都不熟悉處理特定缺失資料的問題,並且他們在存在插補值的情況下無法使用特定的方差估計技術估計出方差,因此,使用一種合適的方差估計技術非常重要。Binder和Sun指出,如果透過重複單次插值方法進行插值,則稱其為不正確的多次插值,其本質上與分數插值相同,單插值方法或分數插值法下的方差估計可能比多重插值困難得多。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

進行多重插值時,對於每一個數據集,都可以獲得感興趣的總體引數,將引數的m個估計值合併可以產生包含缺失資料不確定性的估計值和置信區間。因此,給定完整資料模型的引數,正確的多重插值將反映有關Hm。的不確定性及有關未知模型引數1的不確定性。Rubin從頻率學家的角度定義了正確的多重插值,且沒有參考任何具體的引數模型。

應用正確的多重插值可以將所得的m個完整資料集用於標準的完整資料分析,並將結果組合為一個整體進行推斷。進行多重插值的優點是,可以將從m個完整資料集中得到的m個結果的差異用作缺失資料引起的不確定的測度。

對數線性模型可用於定性變數,為了方便起見,僅考慮定量變數。插值的效果取決於生成缺失值的缺失資料機制。最理想的情況是完全隨機缺失,這意味著缺失是在未觀察到原因的情況下發生的,它與任何已知或未知變數均無關,缺失不會導致對Y的估計產生偏差。在這種情況下,可以多次應用隨機插值來生成多個合成值,如果對變數的建模正確,也可以使用均值插值,例如,可以透過在具有合適方差的正態分佈的均值上加上一個隨機分量來實現。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

MCAR假設通常不現實,一個次優的假設是資料是隨機缺失,這意味著缺失取決於一個或多個輔助變數,並且這些輔助變數可以完全觀察的到,在這種情況下,可以使用模型。合成值集是從迴歸模型中生成的,為了給插補值提供適當的方差,通常將隨機成分新增到預測值中,該隨機成分來自具有特定方差的分佈。

最壞的情況是資料是非隨機缺失的,缺失取決於未觀察到的變數,因此無法使用可用資料構建有效的插值模型。通常無法應用多重插值來修復估計量的分佈,仍然存在從分析中得出錯誤結論的風險。如前文所述,多重插值是處理複雜的不完整資料問題的良好選擇方法,如果多個變數都出現了缺失資料,則對研究提出了特殊的挑戰。

通常使用的對缺失資料插值的方法包含聯合建模和完全條件設定這兩種方法,其中,完全條件設定方法也稱為基於鏈式方程的多元插值方法,該方法在實踐中被廣泛使用。Schafer基於多元正態和對數線性模型開發了各種JM插值技術。JM插值技術首先為缺失資料設定多元分佈,並透過馬爾可夫鏈蒙特卡洛方法從條件分佈中得到缺失資料的插補值,如果多元分佈對資料的描述合理,則此方法很有效。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

FCS插值方法以逐個變數為基礎,透過一組條件密度來設定多元插值模型,從初始插值開始,FCS方法透過迭代條件密度得到插補值,通常需要較少的迭代次數就足夠了。在找不到合適的多元分佈的情況下,FCS方法可以很好地替代JM方法。

另一種形式的插值方法是分數插值,該方法的思想是將一個隨機插值方法重複多次。分數插值將所得的估計量視為加權估計量,即對每個估算值賦予分數權重1/m,且估計量0可以使用與相同的表示式。分數插值的示例是使用重複隨機Hotdeck方法和重複預測均值匹配插值方法,重複插值的主要目的是提高插入的點估計量的效率。

Kim和Fuller研究發現,基於相同的重複插值次數,分數插值比多重插值更有效,這是因為,為了獲得正確的多重插值,多重插值方法存在額外的可變性,例如,從後驗分佈中抽取引數以反映引數估計中的不確定性時,多重插值方法就存在額外的可變性。對於隨機插值,如果待插值的變數的組是同質的,即所有值都彼此接近,則隨機選擇的值將是未知的真實值的良好近似。如果不滿足這個條件,則隨機插值的穩定性較差。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

k近鄰插值的優點是用實際觀察到的值進行插值,且該方法可以正確估計分佈。該插值方法的缺點是對因子類變數的插補效果不好。熱卡插值是在完整資料中找到一個與缺失值最相似的物件,然後用這個相似物件的值來進行填充。不同的問題可能會選用不同的標準來對相似進行判定。該方法概念上很簡單,且利用了資料間的關係來估計缺失值,但缺點在於難以定義相似標準,主觀因素較多。

迴歸插值是基於完整的資料集,建立迴歸方程。對於包含缺失值的物件,將已知屬性值代入方程來估計未知屬性值,以此估計值來進行填充。當變數不是線性相關時會導致有偏差的估計。

隨機森林插值訓練速度快,可以將包含重要特徵的變數識別出來並根據這些特徵變數進行插值,在插值的過程中,可以檢測到特徵變數之間的影響。缺點是對於許多統計建模者來說,隨機森林給人的感覺就像一個黑盒子,無法控制模型內部的執行,只能在不同的引數和隨機種子之間進行嘗試。且可能有很多相似的決策樹,掩蓋了真實的結果。

明確待插值的變數型別,所有提到的插值方法都可以應用於定量變數

單插值方法是指將缺失值由一個合成值代替;多重插值方法是指將缺失值由一組合成值代替;分數插值本質上是一種特殊的單插值方法,即將單插值方法重複多次,然後取其平均值作為最後的插值結果;EM插值是基於迭代最大似然法對缺失值進行插值,單插值方法可能會影響估計量的分佈,研究人員基於插值後的資料估計時可能會得出錯誤的結論;

EM插值可能會陷入區域性極值,收斂速度也不是很快,並且計算很複雜;多重插值的效果較好,由於多重插值是基於各種模型如迴歸、決策樹、貝葉斯估計等方法對缺失資料進行插值,透過已知數值建立插值函式,估計出待插補的值,然後在數值上再加上不同的偏差,形成多組可選插補值,形成多套待評估的完整的資料集,對所產生的資料集進行統計分析評價每個資料集的結果,根據模型的評分選擇最佳的補插值。