思考你的分析

最近副業作太兇了,所以來寫一篇文章重申一下我的本業。

這學期在 TA 博士班的統計課,這門課我聽了三遍了,每次聽都有新的收獲,我把我自己的想法寫下來,歡迎各位先進指教。

我每過一陣子就會遇到下面的情形:有人拿著他的資料來找我,花了很多解釋他的資料是長什麼樣子的,問我應該要怎麼分析

遇到這種情形,我通常會問:你的研究問題是什麼?有什麼理論根據?不過似乎很多人對這樣的回答挺不滿意的,因為這回答並沒有解決他們的問題。但這樣的情形我也愛莫能助,因為有太多的分析方式了。

拿下面的資料作例子,我們來討論討論。如果我們有一個 longitudinal 的資料,追踨了18年,從0歲到18歲。我們最有興趣看的是學習成就與家庭年收入之間的關係,其它相關變數已經列入考量,就不再討論。

0 1 2 3 18

學習成就

           

家庭收入

           

在這種情形下,你要怎麼分析?如果你不思考這兩種之間的關係,不考慮文獻,只是思考兩者之間是否有因果關係,那有很多種方式。上課的學生就列出了不少。

1. growth curve 成長曲線:先看看學習成就的成長曲線,再看看家庭收入的成長曲線,看看兩者之間是否有關連。基本上這就是看成長曲線之間的相關性,但也無法說明因果關係。

2. year by year concurrent relationship:另外一個學生說:可以看每年之間,兩個變數之間的關係。或許這些關係平均起來,就可以看出這兩者是否存在關連。很好,但這很難說明是因果關係

3. cumulative impact:說來複雜,這位同學想的是如果要看十歲的學習成就,就把前五年一起放到模型裡面,再放入五歲時候的學習成就當作控制。

Age 10 學習成就 = a + b1 Age9 收入 + b2 Age8 收入 + … + Age 5 收入 + Age 5 學習成就

這些方法都不是完美的,其實也很難說有完美的方法,我們只是從「邏輯」與「實證」上找尋最有意義的分析方式。那回到前面的幾個選項,如果這些符合你的假設,那就是好的分析方式。但好的分析方式不只是要看能否回答你的研究問題,也得從邏輯上來思考。

拿前兩者來說好了,這兩者是看家庭收入對學習成就立即的影響也就是如果家庭收入提高,你就假設個人學習成就會立刻提高。這顯然不符合常識,所以這或許不是一個很好的分析方式。

我想說的就是:有時候並不是看到數據就知道要如何分析,你的不同假設會有不同分析方式;從另外一個角度說,你不同的分析方式也代表著你的假設。先想清楚自己要看的是什麼,變數之間的關係是否合理,你自然會對要如何分析有個概念了。

這道理很簡單,但很多人卻看不清楚,期待所有數據只有一種分析方式,研究總有正確答案,這實在是作研究的大忌。

標籤: