處理資料缺失的方法

處理資料缺失的方法有很多種,下面列出常用的幾種辦法:

Listwise deletion

listwise deletion 就是把分析模式中的變數,沒有資料的都移除。這種方式的好處是:1) 各種統計資料分析都適用;2) 不需要特殊的方式處理資料缺失。以目前的統計軟體來說,都會自動採用listwise deletion.

這究竟是不是個好方法呢?

如果原始sample是MCAR,那listwise deletion 等於是隨機從sample之中,再抽取一個sub sample,你的分析還是unbiased雖然你subsample跑出來的standard error會比原始sample跑出來的standard error 還大 (假設原始sample沒資料缺失的話),但你至少不用擔心你的結果。

如果原始sample是MAR,那採用listwise deletion之後,你的結果仍會是沒問題的。舉例來說,如果你的DV是一年儲蓄多少 (saving),你的IV是一年賺多少(income),但是income有40% missing,而income的missing與另外一個IV: 受教程度(schooling)有關係。只要把這兩個IV放進分析模式,而且income的missing與DV不相關,你的分析就是unbiased的。

這樣的原理是因為利用regression的分析模式,如果你不同比例地在IV分層抽樣 (disproportionate stratified sampling on the independent variable),這並不會影響到你的結果。所以你IV有missing,其實就相當於針對IV作了一次sub sampling。所以只要你沒有違反迴分析的假設,並且你的IV的missing與DV無關,在迴歸分析時用listwise deletion 就沒有問題。

Pairwise deletion

Pairwise deletion 又稱為available case analysis,顧名思義,就是用所有有的資料來進行分析。舉例來說,你有3個變數a, b, c。你總共有1000筆資料,a這個變數有4筆沒資料,b變數有8筆沒資料,c變數有3筆沒資料,而這些沒資料的人不重複 (在現實情況下,有可能沒填a的也沒填b。這裡為了說明方便,就假設沒資料的人不重複)。

如果你要看a與b之間的關係,那你會有1000-4-8=988筆資料;如果你要看b與c之間的關係,你會有1000-8-3=989筆資料;如果你要看a、b、c三者之間的關係,你會有1000-4-8-3=985筆資料。

這跟listwise deletion有什麼不同?如果你最終要分析的是a、b、c三者之間的關係,那在分析a與b之間的關係時,如果採用listwise deletion,你只會採用所有資料都有的,也就是用1000-4-8-3=985筆,而不是用a與b的所有資料988筆

如果你的資料是MCAR,那你的資料分析不會有偏差;但如果你的資料是MAR,你的結果就會有所偏頗。由於你分析的時候你的樣本數會有所不同,這會造成你計算standard errors的時候出現誤差,沒有一組數字可以讓你算所有分析模式的standard errors,你的分析也容易不一致。

Dummy variable adjustment

dummy variable adjustment 的方式其實是用non-missing的平均值補上缺失資料 (所以也叫mean substitution),這種方法雖然看起來簡單又符合直覺,但在simulation study中作出來的結果則是誤差太大。

Imputation

很多處理資料缺失的辦法,都屬於imputation (資料插補) 這個類別。這種作法的基本概念就是:將missing data用「合理」的數字補上,而合理的數字就是資料插補 (imputation)的結果

至於什麼是合理的猜測,這留待後面再說。

最後還是要推一下Paul Allison的這本Missing data

標籤: