Stata: Nonparametric alternatives to conventional t tests

這一章的內容主要是從A gentle introduction to Stata作出來的筆記,加上一點點補充。這本書在 Stata書籍介紹介紹過,有興趣的可以自己翻翻。


話說從頭。由於我背景不是統計系、數學系、經濟系,再加上自己莫名其妙的從作質化研究跳到作量化研究,學統計都是遇到什麼問題學什麼,結果也混得還可以。不過之前上一個Econn出身的大教授所教的課,講到event history analysis的時候,提到nonparametric,實在是被這名詞打敗了,只好再翻翻出補補基本功 (OS. 別叫我去讀計量 @@)。

要解釋nonparametric,當然會想知道什麼是parametric。相信我,查字典是沒有多大的幫助的,字典的解釋是參數性的,這解釋似乎看字根就知道,還是不知道內涵是什麼。

那一計不成,再生一計,大概許多人也跟我一樣會翻 wikipedia吧!結果找到這條:http://en.wikipedia.org/wiki/Non-parametric_statistics ,終於有我看得懂的英文了。簡單地說,很多統計後面都有著assumption,其中一個assumption就是sample的variance是接近常態分配(normal distribution)的,如果你有興趣,可參考之前寫的不大成熟的文章: 迴歸分析的假設(Assumption of OLS regression)

所以這個parametric statistics or parametric tests,就是指所用的統計方法是基於這樣的假設,如果sample很明顯地違反了這個假設,那出來的結果是有問題的。

如果已經預見或測試出這樣的問題,所要用的方法就是distribution free的方式,也就是nonparametric statistics。Nonparametric中文有人翻譯成無母數統計不過我比較喜歡直接把這個觀念連結到distribution free,無母數對中文不好的我來說好像意義不大。
(有人說nonparametric = distribution free,有人說不是,這我不懂,請參見別人的討論http://www.stat.ncku.edu.tw/bgsf/dissemination/talk/7-18-11.txt) ,如果這對你來說沒有很大的意義,就把 nonparametric 當作是處理  sample 明顯違反normal distribution 的辦法 (感謝網友 S. H. Su 與CM Chen 指正,詳情請看下方意見)。

如果是t test,上方的那本書介紹了兩個辦法,一個是Mann-Whitney two sample rank-sum test (亦有人稱為Wilcoxon rank-sum test),一個是median test。這兩個辦法上面我都附上了wiki連結,看不懂我中文的可以參考wiki的解釋與說明。

先說一下資料結構。書上用的變數是psmoke97與性別。psmoke97是受訪者朋友吸煙的比例,而這比例是個範圍,值為1-5。詳見p. 156頁。

Mann-Whitney-Wilcoxon的測試方法細節不多說,作法像下圖。要比的變數在前面,組別在by後面。

ranksum psmoke97, by(gender97)

結果如下,z=-8.589,p<.001,這表示這兩組有顯著差別。而差別可從mean 和median裡看出來是哪個方向的。
1.png


另一個方法是median test,指令如下。
ranksum psmoke97, by(gender97)

由Pearson chi2(1)=44.63, p<.001可看出來兩組有明顯不同。
2.png

最後再補一下。雖然無母數統計我記得以前在台灣學統計的時候的時候學過,不過好像沒搞懂過。什麼時候要用,什麼時候不要用,對我是一個謎。不過書上指出了一點,如果measurement是ordinal,像是問卷常用的「很不同意,不同意,沒意見,同意,非常同意」,而不是interval measurement (像是年齡、體重,是有準確數值的,而且數值之間的距離是相等的)。如果要看性別是否對問卷某題的答案有所不同,而且樣本又小的話,那應該是要用無母數統計。

如果是組別超過兩組,那就是要用Nonparametric ANOVA,這以後再說。

標籤: