2010年6月3日 星期四

解讀 logistic regression

什麼是線性迴歸?(What is Multiple Linear Regression?) 談論過迴歸分析主要可用來作預測與作因果分析,那既然迴歸分析這麼好,為什麼還要談 logistic regression (中文有人翻:羅吉斯迴歸) 呢?

最主要的原因:在一般的迴歸分析中,dependent variable (DV) 是連續變項 (continuous variable);如果 DV 不是連續變項,而是二分變項 (dichotomous variable,如:男或女、存活或死亡、通過考試與否) 等情況,這時你就必須使用 logistic regression 了

當然,如果你堅持的話,你也可以跑 OLS regression,一樣會得到結果的。如果你得到的 coefficient 是 0.066 的話,解讀就是:當 IV 增加 1 的時候,DV 發生的機率增加 6.6% 。然而,這樣作是有缺點的,通常沒辦法準確地估算 IV 對 DV 的影響 (通常是低估)。

為了解決這個問題,統計學家用 odds ratio (勝算比) 於 logistic regression 之中。要說勝算比之前,要先了解什解什麼是勝算勝算指的是:一件事情發生的機率與一件事情沒發生機率的比值。以拋硬幣為例,拿到正面與拿到反面的機率都是 0.5,所以odds ratio 就是 0.5 / 0.5 = 1。如果一件事情的發生的機率是 0.1 ,那勝算是 0.1 / 0.9 = 1/9 。如果一件事情發生的機率是 0.9 ,那勝算是 0.9 / 0.1 = 9。所以勝算是介於 0 與無限大之間

odds ratio 則是兩件事情的 odds 作比較。舉個例子來說,如果高學歷的人寫部落格的勝算(odds) 是  2.33,低學歷的人寫部落格的勝算是 0.67,那與低學歷的人比起來,高學歷的人寫作部落格的勝算是他們的 3.48 倍 (2.33/0.67),所以勝算比 (odds ratio)就是3.48

那如何解讀 logistic regression 的結果呢?通常你會看到文章裡呈現兩種結果:一種如果沒特別指名的話,就叫 coefficient,它的 DV 是某件事的 log odds ratio ,是勝算比取了自然對數;一種是 odds ratio 。這兩種值是可以互相轉換的,如果你的 log odds ratio 得到的 coefficient 是 0.405,你可以計算 odds ratio ,在 stata 指令列輸入 dis exp(0.405),會得到1.500。所以在讀文章的時候一定要讀清楚作者呈現的是 log odds ratio 或是 odds ratio

結果怎麼解讀呢?可從 log odds ratio 開始,解讀是:當 IV 增加一單位,log odds  會增加 ##。其實這解讀與 OLS regression 的解讀是一樣。如果你看到的是 odds ratio,解讀是:當 IV 增加一單位,odds 會增加 (##-1)*100%。兩種解讀方式都套上剛剛的數字,那結果會是:

log odds ratio: 當 IV 增加 1,log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

odds ratio: 當 IV 增加1,odds of 某件事會增加 (1.5-1)*100% = 50%。所以如果本來是 2,增加 50%的話,會變成 2 * 50% + 2 = 3 。換句話說,你也可以直接解讀為:當 IV 增加1,odds 某件事 (或是某件事的勝算。注意:這裡是勝算,不是勝算比) 會變成原本的值乘以1.5

如果你的勝算比 odds ratio 的 coefficient 是 0.667,那應該怎麼解讀呢?當 IV 增加1,某件事的勝算變成原本的值 (or 勝算) 乘以0.667。所以原本的勝算比如果是 3 的話,當 IV 增加1時,某件事的勝算會變成 2。你也可以說:當 IV 增加 1 時,某件事的勝算會減少 (1-.667)* 100% =33%

延伸閱讀

Logistic Regression介紹---晨晰統計林星帆顧問整理 http://tw.myblog.yahoo.com/da_sanlin/article?mid=1013&sc=1
Understanding odds ratios in binary logistic regression http://www.ats.ucla.edu/stat/stata/library/odds_ratio_logistic.htm
Logistic Regression Analysis http://www.ats.ucla.edu/stat/stata/output/stata_logistic.htm

20 則留言:

  1. 您好在您的文章提到勝算比指的是:一件事情發生的機率與一件事情沒發生機率的比值。
    事實上這個定義是指勝算odds, 所謂勝算比是指兩個的odds的比值所以才叫做odds ratio在使用上要小心,兩者是不同的.

    回覆刪除
  2. 非常感謝 lschen 的指正!文章已作修改了,如果還有不清楚和錯誤的地方,還請多多指教!

    回覆刪除
  3. 您好!!有些事,想跟您私下討論,不知道跟您要MAIL,方不方便。

    回覆刪除
  4. 不好意思,我可以請問1.5是怎麼來的嗎

    回覆刪除
  5. 2.71^0.405 的意思?,對不起我真的盡力在讀,但我真的不懂。

    回覆刪除
  6. 我懂了。但我要表的是,手算的話要怎麼算?謝謝你'

    回覆刪除
  7. 我遇到一個問題,它與我看書和你的例子有點不同,麻煩你可以替我解答嗎?謝謝!

    問題:患病的機率(LOGISTIC REGRESSION)

    有吸煙(1.7)
    沒有吸煙(1)

    有吸毒(1.5)
    沒有吸毒(1)

    年齡小於16(1.5)
    年齡大於16(1)

    一個有吸毒、有吸煙、年齡小於16的人患病的機率比一個沒有吸毒、沒有吸煙、年齡大於16的人的機率高了多少?是4.7/3嗎?

    回覆刪除
  8. 這不是機率,而是odds ratio 或是 log odds ratio。你的是哪一種?

    回覆刪除
  9. Ivan同學:
    首先,odds ratio的範圍是0~正無窮,但機率的範圍是0~1,因此首先要清楚勝算比(odds ratio)與機率的定義。
    其次,根據你所給的數據,可以將他寫成一方程式為:
    Log(π/(1-π))=α+β1*是否抽煙 +β2*是否吸毒 +β3*年齡

    這裡的π是罹病機率,因此,根據你給予的資訊,還缺α(除非α為0,就可不用理會),而β1、β2、β3分別為log(1.7)、log(1.5)、log(1.5),這裡的log為以自然對數為底。

    再來,你也沒有給design matrix,那就假設有抽煙、有吸毒、年齡小於16的coding為1,其他coding為0。

    將上面資訊帶入該方程式內,才能求出在某條件底下的罹病機率。

    回覆刪除
  10. 謝謝版主和澤志先生的幫忙。

    其實這個問題我也不太了解,我是從一個入職測驗中看到的,它是說用multiple logistic regression分析一個疾病的機率。

    首先,括號應是parameter的coefficient,但我看畢這個題目也不知道括號是指odds 或是 log odds,正常來說是否假設是odds?

    第二,題目的確是問機率的差距大小,而不是兩個case的odds ratio的差距。

    第三,從前學過odds ratio 是指兩件事情的 odds 作比較,不論用effect coding或reference coding,都是指一件事與另一件事的odds的比較,這應該和澤志先生提過的差不多。但我遇到的問題卻和我認知的有不同,這些參數應該都是BINARY,的確用1或0代表不同的status,但題目卻有6個coefficients,實在奇怪。

    我猜它的問題應該是指:

    Log(π/(1-π))=α+β1*有抽煙+β2*沒有抽煙 +β3*有吸毒+β4*沒有抽煙 +β5*年齡大+β6*年齡小

    α = 0(假設), β1=1.7, β2=1, β3=1.5, β4=1, β5=1, β6=1.5

    我也不了解.....

    回覆刪除
  11. 您好,請問在logit的多變量迴歸中,詮釋其中一個IV的係數或odds ratio時,所謂的控制其他變數(holding other variables constant),也跟ols一樣是代入其他變數的平均值或中位數(當IV為dummy時)嗎?

    回覆刪除
  12. 那勝算比是 0.9 / 0.1 = 9。

    這裡是不是應該改成 "勝算" 為0.9/0.1?

    回覆刪除
  13. @Dan Wang,

    感謝指正,已改正了。

    回覆刪除
  14. 作者已經移除這則留言。

    回覆刪除
  15. 您好想請教您,若是一個自變項下有許多細的變項,我stata要怎麼跑?
    例如教育程度,下面自變項又分做國小、國中、高中、大學、研究所,而國小.....研究所都各自分為有或無兩個選項。
    若您還是不清楚我的意思不知道您方不方便給我您的email,我傳附檔圖片給您。
    希望您抽空回復謝謝!!

    回覆刪除
  16. og odds ratio: 當 IV 增加 1,log odds ratio of 某件事會增加 0.405 (請原諒我的英式中文@@)。

    這裡是不是應該改成 "log odds of 某件事會增加 0.405"?

    回覆刪除
  17. 所以原本的勝算比如果是 3 的話,當 IV 增加1時,某件事的勝算會變成 2。你也可以說:當 IV 增加 1 時,某件事的勝算會減少 (1-.667)* 100% =33%

    這裡是不是應該改成 "所以原本的勝算如果是 3 的話,...."?

    回覆刪除