2015年5月24日 星期日

Stata: repeated ANOVA 作法

Stata 在repeated ANOVA方面,文件不多,最近因為一個計畫需要用到這種方析方式,花了不少時間學習。用完之後趕快寫下一點心得,以免以後健忘。

Stata 的repeated ANOVA必須將資料將寬格式轉換成長格式,如果不知道這些名詞,請參考這篇 Stata: reshape 將資料從寬格式改成長格式

下面的code有點複雜,請慢慢看。

anova dtest group / uid|group times times#group, repeated(times)

最前面的anova,是分析的指令,後面接的dtest,就是資料變成長格式之後,學生在不同時間的測試分數,所以就是要看不同時間測試分數的變化。

group的不同的組,這是一個categorical variable,不同的數值代表不同的實驗組別。
如果作一般的anova,就是這部分。

接下來會看到/,在stata 的說明文件裡是這麼說的:
The / symbol is allowed after a term and indicates that the following term is the error term for the preceding terms.

所以/後面放的是error term,在這例子裡,error term就是學生的id乘以組別。

你會發現前半部是uid,中間有一個| (這不是I,而是一直線的符號),這符號代表的是nesting:
The | symbol (indicating nesting) may be used in place of the # symbol (indicating interaction).
在這例子裡,subject是nested在組別裡面的。

在這之後,times是within subject的變數,而後面的times#group是這兩者的interaction (#代表interaction)。

在下了下面指令之後,出現的結果如下圖:
Repeated anova 1
group3 不顯著,代表組別之間沒有差異,uid|group3沒有顯著水準測試,因為是error term。
times顯著,代表測試在不同的時間呈顯著差異。

times#group3為顯著,代表時間與組別之間有交互作用,意思是組別之間在不同時間的成長並不一定相同。

接下來我們要繼續看這交互作用,這用下面的code
contrast times@group3, effect

contrast通常是在跑完基本分析之後作的estimation,這裡測試的是simple effect.
a@b 表示用contrast的指令,測試a在每一個b裡面的作用。

由於每一組都有時間,我們測試的是時間在每一組裡面的作用,所以時間放前面,@後面放組別。

下面是跑出來結果的上半部分:
Repeated anova 2
這圖一開始先測試的是組別之間的差異,控制組來說,時間並沒有影響,但對其它組來說,時間是有影響的。

後半部則是組內之間,時間不同的比較,2 vs base 就是第二次測量與第一次測量之間的差異,括號後面則是組別。
Repeated anova 3
如果你想要具體比較某一組,在不同時間的變化,那可以用如下指令:
margin times, at(group3=1) pwcompare(effects) noestimcheck

結果如下圖。如果你仔細看,contrast 2 vs 1 的結果,跟上圖 (2 vs base) control 的結果是一樣的,3 vs 1 與上圖 (3 vs base) control 是一樣的。

Repeated anova 4
另外一種比較方式是固定時間,然後比較組間差異,code與上面相似,但 at的部分不同:
margin group3, at(times=1) pwcompare(effects) noestimcheck

這結果就不截圖了,讓大家自己練習。

如果要畫圖的話,下面的相關文章有code,就讓大家自己學習。

相關文章

Why do I get an error message when I try to run a repeated-measures ANOVA?

Repeated Measures Analysis with Stata



2015年5月21日 星期四

Stata: reshape 將資料從寬格式改成長格式

Stata 在作不同的分析時,會要求不同的資料格式,而資料格式指的是資料是長格式 (long format) 還是寬格式 (wide format)。一般而言,如果你不是panel data,通常寬格式就可以了。如果你是panel data,也就是你的outcome variable測量了許多次,那大部分的情況下你都必須將資料轉換為長格式。

不過這部分每個統計軟體不一樣,像SPSS的repated ANOVA,用寬格式即可,但在Stata裡面,repeated ANOVA必須將資料轉換為長格式才可以。

那究竟什麼是長格式,什麼是寬格式呢?

寬格式比較直觀,我們從寬格式說起。如果你的outcome測量了三次,那你的資料可能如下:

uid outcome1 outcome2 outcome3

1         100             90          95

換言之,寬格式一個人只有一筆資料,用不同的欄位來代表不同時間的測量

長格式的話,就不一樣,一個人有多筆資料,欄位相同,但多了時間變數

長格式如下:

uid time outcome

1      1       100

1      2         90

1      3         95

那在Stata裡面,該怎麼作呢?這透過reshape這個指令。在Stata 的說明裡面,說的挺清楚的:

Stata reshape

如果從寬格式轉換成長格式,指令如下:

reshape long outcome, i(uid) j(time)

要作轉換之前,你必須確保outcome前面部分是相同的,後面指的是時間,像之前例子說的outcome1, outcome2

在指令裡面,i後面括號放的是區別每一筆紀錄的變數,j後面放的是新變數,用來區別時間的。轉換之後,這個值就是outcome變數名稱的值。

2015年5月16日 星期六

搜尋Twitter資料

愈來愈多人使用Big Data (大數據) 來作研究,而研究生2.0未來的一個重點,就是朝這方面努力,想要寫一系列的教學文章,關於網路研究方法的。在研究生2.0的標籤,也新增了網路研究方法,方便大家檢索。

如果你是這方面的專家,那我誠摯邀請你為研究生2.0賜稿寫專欄。

這裡先從簡單地開始,作Twitter資料的搜尋。

 

裡面用的工具是twExplorer,是西北大學開發的。


如果覺得好的話,也歡迎大家看看上面的其它影片:

2015年5月1日 星期五

美國印壁報的網站

在美國投學術研討會的時候,通常分paper presentation與poster presentation (海報/壁報)。以前寫過兩篇文章,一篇是關於壁報範本powerpoint template,一篇是介紹如何用一般的印表機列印壁報的方法。雖然我介紹這個方法,但我還是強烈建議大家:在有點預算的情況下,還是花錢請人家印壁報,不僅省卻不少工夫,而且你在研討會匯報的時候,也會比較自信一點。跟別人networking的時候,人家也才會比較看重你。

這篇文章介紹一個在美國印這種學術壁報的網站。這間公司我沒實際用過,但不少朋友用過覺得便宜而且不錯

網站:www.phdposters.com

Prices PhD Posters

這價格大概在其它網站的一半甚至1/3,甚至與我在學校印壁報的價格相去不遠,所以大家可以試試。

Ozdic: 簡單好用的搭配詞詞典

在2009年的時候,寫了一篇查詢搭配詞的工具,過了這麼多年,許多連結都已經失效了。那有什麼新的查詢搭配詞的工具了?這裡來跟大家介紹ozdic。

網址:http://www.ozdic.com/

我喜歡ozdic的簡潔畫面,首頁就只讓你輸入關鍵字,沒有其它的:

Ozdic com

我今天想找與attention相關的詞,就輸入attention,你會發現結果非常容易閱讀。

首先,attention有多個意思,所以第一個意思 (見下圖紅圓圈裡面白色的1)是:act of watching/listening/showing interest

這解釋不知道是哪裡來的,但寫的清晰易懂。

在每個意思之下,還分成各種組合,像第一個意思下還分成形容詞、動詞+attention等等,

Ozdic attention

另外,右邊的相關詞有時候也有幫助,因為可能有時候拼錯詞或誤用詞,上方的意思與旁邊的相關字,都可以多看兩眼,避免查到的不是你想要的。

簡單的工具,清爽的界面,相信ozdic可以幫助大家的英文更道地。