Stata: 加總同性質的資料(Aggregate similar Observations) ~2

以前寫過一篇：Stata: 加總同性質的資料(Aggregate similar Observations)，裡面用的方法是collapse，這種情況用於：一個人有多筆資料 (用術語說，就是資料格式是長格式)，你想要加總同性質資料，將每個人的資料變成一筆。

這種方法雖好，但如果你想要維持資料是長格式 (一個人有多筆資料)，那collapse就不符合你的需求。

假設資料格式如下圖所示。sid代表student id，did代表文件 id，words代表每個文件的字數。

stata aggregate 1

如果用 collpase 指令：

collapse (mean) words, by(sid)

結果會如下圖所示。原本一個學生有多筆sid，跑完collapse之後，每個學生只剩一筆資料了。

但這有可能不是你要的，你可能還想維持長格式，那該怎麼辦呢？重新載入資料，我們從頭來過。

如果想知道每個學生平均words，那可以利用egen指令：

bys sid: egen avgwords = mean(words)

結果如下圖所示：

兩種方法都可以，但結果稍有不同。要選用哪種，就看你要作哪種分析。

標籤：統計分析