比較迴歸分析模組之間的差異

用迴歸分析的時候 (如果不懂迴歸分析，可參考這裡)，一種常見的作法就是同樣的dependent variable，每個模式加一些新的變數下去，這種模式之前也寫過文章介紹，叫作層次迴歸分析 (參考什麼是層次迴歸分析 (hierarchical regression)？)，但可千萬別把這種模式與階層性線性模式搞混 (詳見什麼是階層線性模式 (hierarchical linear modeling)?

舉個具體的例子。你想要看什麼因素對學生的成績有影響，你想出了幾個模型。

模型1：性別
模型2：性別、年齡
模型3：性別、年齡、種族、動機、學生策略、家庭收入

於是你跑了三個迴歸分析。

模型1的結果是顯著的，性別對成績有影響。

模型2的結果是顯著的，性別與年齡對成績有影響。

模型3的結果比較難解讀，因為你一次多加了不少變數。

如果每一項都是顯著的，那模型3應該比模型2好。

但就怕遇到這樣的狀況：你模型3的r-squared 比模型2的r-squared 好一點，但非常少，可能從50跳到51。而且原本性別與年齡顯著，但現在都不顯著了，而是學生學習動機有影響
。
那你怎麼解讀這樣的模型呢？模型3是否比模型2好呢？
這時候就是用統計比較的時候了。先上公式：
R2 compare

看不懂的話，這是中文版：

F = [(r-squared大 - r-squared小) / (變數多-變數少)] / [(1 - r-squared大) / (人數 - 變數多 - 1)

用stata的話，跑完之後，用 testparm 指令，後面加上最後一個模型新增的變數就可以了，詳情可見下方連結。

參考資料
F-test comparing two models: http://www.philender.com/courses/linearmodels/notes4/compare.html

標籤：統計分析