主成份分析與因素分析

這一篇是因素分析的第三篇,前兩篇為:因素分析 (factor analysis)探索性與驗證性因素分析

主成份分析 (principal component analysis,簡稱PCA) 是在因素分析裡面常看到的,但這個名詞常被誤用、混用,而且有時候統計軟體裡面所用的詞彙也不一致,造成許多困擾。我也困擾了很久,這篇是防健忘筆記,有誤請更正

嚴格地說,主成份分析 (PCA) 與因素分析是利用不同的方法來減少變數量 (Jolliffe, 2010),但很多教科書都把這當作是 factor analysis 的一個special case,統計軟體也把 PCA 當作是一個 option,造成了很多誤會。

PCA 的主要目的是將 p個變數,縮減到 m個主成份(principal components),在這同時儘量保留p個變數的variation。如果這m個主成份可以直接解讀,那就更好了。

因素分析的主要目的也是縮減變數,但採用的方式不一樣。簡單地說,因素分析的概念是:p個變數可以用m個factor所組成的線性關係表示。我不愛寫公式,不過真的要寫簡單的話:

變數1 = b1* 因素1 + b2*因素2 + b3*因素3

這個model就像是一般的regression model一樣,相較之下,PCA就沒有一個explicit model。所以這就看出 PCA 與因素分析的不同了:因素分析有個model,而 PCA 並沒有一個explicit model

如果你懂得 PCA 與因素分析背後的數學運算,你可能還會發現到另外一個不同點。Jolliffe (2010, p158) 在書中提到:PCA 與因素分析都是呈現convariance matrix (或correlation matrix) 的一部分,但 PCA 著重在對角線的元素,而 factor analysis 則著重在非對角線的元素上

另一個不同點是會得出幾個主成份或是因素  (Jolliffe, 2010, p159)。根據 PCA 的算法,如果其中有一個變數獨立於其它變數 (i.e., 此變數與其它變數相關度非常低),會有一個PC對應這個變數,而這個 PC 幾乎等同於此變數相反地因素分析的因素至少得解釋兩個以上的變數,所以是不可能會有這種單一變數的因素產生的情況

其它的不同點,還請參照 Jolliffe (2010)的介紹。

最後,很多人看到這可能會問:那到底是因素分析好或是PCA好?這當然沒有定論,而且這兩者也不太能直接比較。那要怎麼判斷適合用因素分析還是PCA?這還得回到先前提過的區別。如果因素分析的model符合你資料特性,那就選因素分析,要不然則選擇PCA

參考文獻

Jolliffe, I. T. (2010). Principal Component Analysis (2nd ed.). New York: Springer.

標籤: