以前寫過一篇:Stata: 加總同性質的資料(Aggregate similar Observations),裡面用的方法是collapse,這種情況用於:一個人有多筆資料 (用術語說,就是資料格式是長格式),你想要加總同性質資料,將每個人的資料變成一筆。
這種方法雖好,但如果你想要維持資料是長格式 (一個人有多筆資料),那collapse就不符合你的需求。
假設資料格式如下圖所示。sid代表student id,did代表文件 id,words代表每個文件的字數。
如果用 collpase 指令:
collapse (mean) words, by(sid)
結果會如下圖所示。原本一個學生有多筆sid,跑完collapse之後,每個學生只剩一筆資料了。
但這有可能不是你要的,你可能還想維持長格式,那該怎麼辦呢?重新載入資料,我們從頭來過。
如果想知道每個學生平均words,那可以利用egen指令:
bys sid: egen avgwords = mean(words)
結果如下圖所示:
兩種方法都可以,但結果稍有不同。要選用哪種,就看你要作哪種分析。
標籤: 統計分析