2015年6月19日 星期五

Stata: 計算Intraclass correlation

之前有網友問到在Stata 用HLM時,不知道該怎麼算intraclass correlation。其實之前在這篇文章 Stata: 圖解 xtreg 結果 就已經說過了。

Intraclass correlation 有人翻成級內相關,有人翻成組內相關,在下面我就簡稱 ICC。

ICC 通常是與「組」或是「級」相關的,所以在HLM裡會經常用到。ICC是個數值,代表組間的同質性,所以常用來解釋該組或該級別解釋了多少variance。

在Stata裡,其實很簡單,在跑完分析之後,用estat icc就可以了。

請見下圖,先用webuse productivity 載入資料,再用mixed指令跑HLM。

Icc 1

之後輸入estat icc

Icc 2
這怎麼解讀呢?

region 的random effect 解釋了 15% 的variance,state 與 region 兩者的random effect 解釋了 85% 的variance.

參考文章 

Intraclass correlations for multilevel models

2015年6月8日 星期一

如何用英文稱呼你的指導教授

進了美國的研究所,你該怎麼用英文稱呼你的指導教授呢?該叫Professor + last name, Dr. + last name, 還是叫first name?

這個問題,其實沒有標準答案,因為每位老師的接受度不同。如果你是大學部的學生,正確的作法是叫Professor + last name 或是 Dr. + last name,而不要叫 first name

但這情況對於研究所學生,就有些不同。在正式場合,特別是在email裡面,應該是要叫 Dr. + last name,通常不會有錯。除非老師特別說你可以叫first name,你才可以在面對面的場合稱呼 first name。但你在與學校別人談話的時候,最好還是用 Dr. + last name來稱呼。如果去老師家裡開party,那是另外一回事,用 first name就可以了。

如果你與你的指導教授關係比較好,他把你當作是colleague,也要你用 first name稱呼他,那你在平常可以用 first name,但在正式的email裡,一開始還是小心為上,用Dr. + last name,是比較適切的。如果老師再進一步糾正,就依照老師的意思更改。

稱呼的轉換會應場景不同而有所改變,這對非英語母語者來說會比較困難。

另外一種情況是:你的指導老師是中文母語者,你怎麼稱呼呢?

這時候你就要小心點了,如果你稱呼其它美國老師是用 first name (在他們的允許下),這不代表你就可以直接稱呼用你指導老師的 first name 來稱呼他。雖然在美國,用 first name稱呼老師也不算太過奇怪的事,但這一套並不一定適用於以中文為母語者的老師如果你與老師說中文的話,用中文說「姓+ 老師」是比較傳統的作法。

那稱呼 Dr. + last name,要用到什麼時候呢?這沒有什麼特別的規定,但你論文答辯完,已經是博士的時候,你就不需要稱 Professor + last name 或 Dr. + last name了。至於以中文為母語者的老師,一日為師,終身為父,許多老師我還是用中文說「姓+ 老師」。

當然,這問題視你的指導教授而定,這只是提供參考而已。下面的延伸閱讀,你也會看到有許多不同的說法。

延伸閱讀
Addressing professors by their first names
Addressing your instructor: A primer
Doctor, Professor, or “Hey, you”?

漫畫
The Semiotics of Professor e-mail signatures

2015年6月5日 星期五

質化研究的validity

在研究方法的課堂上,在reviewer的意見中,在論文答辯的時候,甚至在學生的comprehensive exam,如果遇到質化研究,這樣的問題你可能會常聽到或看到:如何確保這篇質化研究的validity?

這問題說真的不好回大,可大可小。往大裡說,可以牽扯到知識論,先了解你對「真相」(truth) 的定義,再來看如何確保質化研究的validity。往小裡說,可能就具體提供幾個實用的方法來回答這種問題。

這篇文章就不從知識論來談了,就直接切入重點吧!

第一種解決辦法,就是說明名詞差異。在質化研究中,並不使用validity,而是使用其它詞彙。

比如說Guba (1981) 所提到的詞彙對應:

Internal validity <-> Credibility

External validity <-> Transferability

Reliability <-> Dependability

Objectivity <-> Confirmability

詳見這裡:http://www.fctl.ucf.edu/ResearchAndScholarship/SoTL/creatingSoTLProjects/implementingmanaging/qualitativeresearchvalidity.php

Maxwell (1981) 則有不同的詞彙:

Descriptive validity

Interpretive validity (這可以參見Altheide & Johnson, 1994, 或這裡:http://www.qualres.org/HomeAlth-3681.html)

Theoretical validity

Generalizability

Evaluative validity

詳見這裡:http://www.fctl.ucf.edu/ResearchAndScholarship/SoTL/creatingSoTLProjects/implementingmanaging/qualitativeresearchvalidity.php

至於怎麼解決呢?直接上Guba (1981) 裡面的圖:

 

Trustworthiness

另外,Whittemore et al. (2001) 這篇也有很詳細的說明,這就讓大家自己看了。

參考書籍

Altheide, DL. & Johnson, JM. (1994). "Criteria for assessing interpretive validity in qualitative research." In NK Denzin and YS Lincoln (Eds.) Handbook of Qualitative Research (pp. 485-499). Thousand oaks, CA: Sage Publications.

Gall, M., Gall, J., & Borg, W. (2006). Educational research: An introduction (8th ed.). White Plans, NY: Longman. 

Guba, E. G. (1981). Criteria for assessing trustworthiness of naturalistic inquiries. Educational Communication and Technology: A Journal of Theory, Research, and Development, 29(2), 75-91

Whittemore, R., Chase, S. K., & Mandle, C. L. (2001). Validity in Qualitative Research. Qualitative Health Research, 11(4), 522–537. http://doi.org/10.1177/104973201129119299

2015年5月24日 星期日

Stata: repeated ANOVA 作法

Stata 在repeated ANOVA方面,文件不多,最近因為一個計畫需要用到這種方析方式,花了不少時間學習。用完之後趕快寫下一點心得,以免以後健忘。

Stata 的repeated ANOVA必須將資料將寬格式轉換成長格式,如果不知道這些名詞,請參考這篇 Stata: reshape 將資料從寬格式改成長格式

下面的code有點複雜,請慢慢看。

anova dtest group / uid|group times times#group, repeated(times)

最前面的anova,是分析的指令,後面接的dtest,就是資料變成長格式之後,學生在不同時間的測試分數,所以就是要看不同時間測試分數的變化。

group的不同的組,這是一個categorical variable,不同的數值代表不同的實驗組別。
如果作一般的anova,就是這部分。

接下來會看到/,在stata 的說明文件裡是這麼說的:
The / symbol is allowed after a term and indicates that the following term is the error term for the preceding terms.

所以/後面放的是error term,在這例子裡,error term就是學生的id乘以組別。

你會發現前半部是uid,中間有一個| (這不是I,而是一直線的符號),這符號代表的是nesting:
The | symbol (indicating nesting) may be used in place of the # symbol (indicating interaction).
在這例子裡,subject是nested在組別裡面的。

在這之後,times是within subject的變數,而後面的times#group是這兩者的interaction (#代表interaction)。

在下了下面指令之後,出現的結果如下圖:
Repeated anova 1
group3 不顯著,代表組別之間沒有差異,uid|group3沒有顯著水準測試,因為是error term。
times顯著,代表測試在不同的時間呈顯著差異。

times#group3為顯著,代表時間與組別之間有交互作用,意思是組別之間在不同時間的成長並不一定相同。

接下來我們要繼續看這交互作用,這用下面的code
contrast times@group3, effect

contrast通常是在跑完基本分析之後作的estimation,這裡測試的是simple effect.
a@b 表示用contrast的指令,測試a在每一個b裡面的作用。

由於每一組都有時間,我們測試的是時間在每一組裡面的作用,所以時間放前面,@後面放組別。

下面是跑出來結果的上半部分:
Repeated anova 2
這圖一開始先測試的是組別之間的差異,控制組來說,時間並沒有影響,但對其它組來說,時間是有影響的。

後半部則是組內之間,時間不同的比較,2 vs base 就是第二次測量與第一次測量之間的差異,括號後面則是組別。
Repeated anova 3
如果你想要具體比較某一組,在不同時間的變化,那可以用如下指令:
margin times, at(group3=1) pwcompare(effects) noestimcheck

結果如下圖。如果你仔細看,contrast 2 vs 1 的結果,跟上圖 (2 vs base) control 的結果是一樣的,3 vs 1 與上圖 (3 vs base) control 是一樣的。

Repeated anova 4
另外一種比較方式是固定時間,然後比較組間差異,code與上面相似,但 at的部分不同:
margin group3, at(times=1) pwcompare(effects) noestimcheck

這結果就不截圖了,讓大家自己練習。

如果要畫圖的話,下面的相關文章有code,就讓大家自己學習。

相關文章

Why do I get an error message when I try to run a repeated-measures ANOVA?

Repeated Measures Analysis with Stata



2015年5月21日 星期四

Stata: reshape 將資料從寬格式改成長格式

Stata 在作不同的分析時,會要求不同的資料格式,而資料格式指的是資料是長格式 (long format) 還是寬格式 (wide format)。一般而言,如果你不是panel data,通常寬格式就可以了。如果你是panel data,也就是你的outcome variable測量了許多次,那大部分的情況下你都必須將資料轉換為長格式。

不過這部分每個統計軟體不一樣,像SPSS的repated ANOVA,用寬格式即可,但在Stata裡面,repeated ANOVA必須將資料轉換為長格式才可以。

那究竟什麼是長格式,什麼是寬格式呢?

寬格式比較直觀,我們從寬格式說起。如果你的outcome測量了三次,那你的資料可能如下:

uid outcome1 outcome2 outcome3

1         100             90          95

換言之,寬格式一個人只有一筆資料,用不同的欄位來代表不同時間的測量

長格式的話,就不一樣,一個人有多筆資料,欄位相同,但多了時間變數

長格式如下:

uid time outcome

1      1       100

1      2         90

1      3         95

那在Stata裡面,該怎麼作呢?這透過reshape這個指令。在Stata 的說明裡面,說的挺清楚的:

Stata reshape

如果從寬格式轉換成長格式,指令如下:

reshape long outcome, i(uid) j(time)

要作轉換之前,你必須確保outcome前面部分是相同的,後面指的是時間,像之前例子說的outcome1, outcome2

在指令裡面,i後面括號放的是區別每一筆紀錄的變數,j後面放的是新變數,用來區別時間的。轉換之後,這個值就是outcome變數名稱的值。