處理資料缺失的方法

處理資料缺失的方法有很多種，下面列出常用的幾種辦法：

Listwise deletion

listwise deletion 就是把分析模式中的變數，沒有資料的都移除。這種方式的好處是：1) 各種統計資料分析都適用；2) 不需要特殊的方式處理資料缺失。以目前的統計軟體來說，都會自動採用listwise deletion.

這究竟是不是個好方法呢？

如果原始sample是MCAR，那listwise deletion 等於是隨機從sample之中，再抽取一個sub sample，你的分析還是unbiased。雖然你subsample跑出來的standard error會比原始sample跑出來的standard error 還大 (假設原始sample沒資料缺失的話)，但你至少不用擔心你的結果。

如果原始sample是MAR，那採用listwise deletion之後，你的結果仍會是沒問題的。舉例來說，如果你的DV是一年儲蓄多少 (saving)，你的IV是一年賺多少(income)，但是income有40% missing，而income的missing與另外一個IV: 受教程度(schooling)有關係。只要把這兩個IV放進分析模式，而且income的missing與DV不相關，你的分析就是unbiased的。

這樣的原理是因為利用regression的分析模式，如果你不同比例地在IV分層抽樣 (disproportionate stratified sampling on the independent variable)，這並不會影響到你的結果。所以你IV有missing，其實就相當於針對IV作了一次sub sampling。所以只要你沒有違反迴分析的假設，並且你的IV的missing與DV無關，在迴歸分析時用listwise deletion 就沒有問題。

Pairwise deletion

Pairwise deletion 又稱為available case analysis，顧名思義，就是用所有有的資料來進行分析。舉例來說，你有3個變數a, b, c。你總共有1000筆資料，a這個變數有4筆沒資料，b變數有8筆沒資料，c變數有3筆沒資料，而這些沒資料的人不重複 (在現實情況下，有可能沒填a的也沒填b。這裡為了說明方便，就假設沒資料的人不重複)。

如果你要看a與b之間的關係，那你會有1000-4-8=988筆資料；如果你要看b與c之間的關係，你會有1000-8-3=989筆資料；如果你要看a、b、c三者之間的關係，你會有1000-4-8-3=985筆資料。

這跟listwise deletion有什麼不同？如果你最終要分析的是a、b、c三者之間的關係，那在分析a與b之間的關係時，如果採用listwise deletion，你只會採用所有資料都有的，也就是用1000-4-8-3=985筆，而不是用a與b的所有資料988筆。

如果你的資料是MCAR，那你的資料分析不會有偏差；但如果你的資料是MAR，你的結果就會有所偏頗。由於你分析的時候你的樣本數會有所不同，這會造成你計算standard errors的時候出現誤差，沒有一組數字可以讓你算所有分析模式的standard errors，你的分析也容易不一致。

Dummy variable adjustment

dummy variable adjustment 的方式其實是用non-missing的平均值補上缺失資料 (所以也叫mean substitution)，這種方法雖然看起來簡單又符合直覺，但在simulation study中作出來的結果則是誤差太大。

Imputation

很多處理資料缺失的辦法，都屬於imputation (資料插補) 這個類別。這種作法的基本概念就是：將missing data用「合理」的數字補上，而合理的數字就是資料插補 (imputation)的結果。

至於什麼是合理的猜測，這留待後面再說。

最後還是要推一下Paul Allison的這本Missing data：

標籤：統計分析