這一篇是因素分析的第三篇,前兩篇為:因素分析 (factor analysis) 和探索性與驗證性因素分析。
主成份分析 (principal component analysis,簡稱PCA) 是在因素分析裡面常看到的,但這個名詞常被誤用、混用,而且有時候統計軟體裡面所用的詞彙也不一致,造成許多困擾。我也困擾了很久,這篇是防健忘筆記,有誤請更正。
嚴格地說,主成份分析 (PCA) 與因素分析是利用不同的方法來減少變數量 (Jolliffe, 2010),但很多教科書都把這當作是 factor analysis 的一個special case,統計軟體也把 PCA 當作是一個 option,造成了很多誤會。
PCA 的主要目的是將 p個變數,縮減到 m個主成份(principal components),在這同時儘量保留p個變數的variation。如果這m個主成份可以直接解讀,那就更好了。
因素分析的主要目的也是縮減變數,但採用的方式不一樣。簡單地說,因素分析的概念是:p個變數可以用m個factor所組成的線性關係表示。我不愛寫公式,不過真的要寫簡單的話:
變數1 = b1* 因素1 + b2*因素2 + b3*因素3
這個model就像是一般的regression model一樣,相較之下,PCA就沒有一個explicit model。所以這就看出 PCA 與因素分析的不同了:因素分析有個model,而 PCA 並沒有一個explicit model。
如果你懂得 PCA 與因素分析背後的數學運算,你可能還會發現到另外一個不同點。Jolliffe (2010, p158) 在書中提到:PCA 與因素分析都是呈現convariance matrix (或correlation matrix) 的一部分,但 PCA 著重在對角線的元素,而 factor analysis 則著重在非對角線的元素上。
另一個不同點是會得出幾個主成份或是因素 (Jolliffe, 2010, p159)。根據 PCA 的算法,如果其中有一個變數獨立於其它變數 (i.e., 此變數與其它變數相關度非常低),會有一個PC對應這個變數,而這個 PC 幾乎等同於此變數。相反地,因素分析的因素至少得解釋兩個以上的變數,所以是不可能會有這種單一變數的因素產生的情況。
其它的不同點,還請參照 Jolliffe (2010)的介紹。
最後,很多人看到這可能會問:那到底是因素分析好或是PCA好?這當然沒有定論,而且這兩者也不太能直接比較。那要怎麼判斷適合用因素分析還是PCA?這還得回到先前提過的區別。如果因素分析的model符合你資料特性,那就選因素分析,要不然則選擇PCA。
參考文獻
Jolliffe, I. T. (2010). Principal Component Analysis (2nd ed.). New York: Springer.
沒有留言:
張貼留言