比較迴歸分析模組之間的差異

用迴歸分析的時候 (如果不懂迴歸分析,可參考這裡),一種常見的作法就是同樣的dependent variable,每個模式加一些新的變數下去,這種模式之前也寫過文章介紹,叫作層次迴歸分析 (參考 什麼是層次迴歸分析 (hierarchical regression)?),但可千萬別把這種模式與階層性線性模式搞混 (詳見 什麼是階層線性模式 (hierarchical linear modeling)?

舉個具體的例子。你想要看什麼因素對學生的成績有影響,你想出了幾個模型。

模型1:性別
模型2:性別、年齡
模型3:性別、年齡、種族、動機、學生策略、家庭收入

於是你跑了三個迴歸分析。

模型1的結果是顯著的,性別對成績有影響。

模型2的結果是顯著的,性別與年齡對成績有影響。

模型3的結果比較難解讀,因為你一次多加了不少變數。

如果每一項都是顯著的,那模型3應該比模型2好。

但就怕遇到這樣的狀況:你模型3的r-squared 比模型2的r-squared 好一點,但非常少,可能從50跳到51。而且原本性別與年齡顯著,但現在都不顯著了,而是學生學習動機有影響

那你怎麼解讀這樣的模型呢?模型3是否比模型2好呢?
這時候就是用統計比較的時候了。先上公式:
R2 compare

看不懂的話,這是中文版:

F = [(r-squared大 - r-squared小) / (變數多-變數少)] / [(1 - r-squared大) / (人數 - 變數多 - 1)

用stata的話,跑完之後,用 testparm 指令,後面加上最後一個模型新增的變數就可以了,詳情可見下方連結。

參考資料
F-test comparing two models: http://www.philender.com/courses/linearmodels/notes4/compare.html

標籤: