什麼是虛擬變量?(What is dummy variable?)

學統計應該都會碰到虛擬變量(dummy variable)這個詞,可是這是做什麼用的?每個人都用得到嗎?就我個人的理解,使用虛擬變量的時機有下:

  1. 在作迴歸分析(regression)時使用
  2. 有類別變數(categorical variable)
  3. 你想要比較該類別變數中的子群體(subgroup)

常見的例子就是本來就只有兩個值的,像是:control group和treatment group。複雜的情況是你categorical variable裡面的個數大於2,像是種族分:黃種人、白種人、其它(舉例而已)。如果你只是把原本種族這個類別變數丟到regression裡,雖然也會有結果,但意義不大。假設黃種人是0,白種人是1,其它是2,你在該變數的coefficient跑出來是5,意味著當控制著其它變數是,黃種人得到的結果是0(假設constant是0),白種人是5,其它是10,但這並不正確。要比較就必須換成dummy variable才能來比。

Dummy variable還有許多高深的運用,上面說的只是最基礎的。我不是專門學統計的,只是想用簡單的話解釋一下,也歡迎高手指點。

標籤: