2009年10月24日 星期六

[課堂心得]量化研究與統計分析-抽樣,卡方檢定(10/8),T檢定(10/15)

t-distribution, 14 df
圖片來自:Tufts Open Course Ware(OCW)
OCW是由Tufts大學設立的免費教學資源網站
上面是一張
雙尾T檢定的範例圖
超清楚的!可以直接看出來拒絕
虛無假設的區域的分佈
還有顯著水準與P值的落點等等...
這些不懂沒關係,下面我會慢慢講(真是佛心來了)

-------------------------------------------------------------
當我們決定好研究主題、也設計好問卷之後
接著就是要把問卷發送出去,
但是要給誰寫呢?
在第一堂課裡,我們就知道一般的學術研究是不可能做普查的! 

換句話說,在無法確切接觸到每一個
母群體(population)的情況下
採用可以掌握的
樣本(sample)才是符合成本效益之舉
然而抽樣調查的結果終究不可能會完全等於普查結果(抽樣誤差)
但我們希望得到的卻是後者,因此得到有意義的結果
有效
決定抽樣的樣本大小就是一個最重要的任務! 

所以我們會做以下動作

  • 界定母群體(根據母群體大小來判斷樣本大小)
  • 收集名單
  • 決定樣本大小
  • 設計抽樣方法
為什麼要這麼麻煩呢?


因為我們必須有足夠的說服力,去告訴每個看最後結果的人 我們所選定的樣本是可以代表母體的!(母體代表性) 如此一來,由樣本所做出的結果在推論回母體時才有其效力

換言之,除了樣本的大小、品質都很重要
主要把握的原則在於:不偏(隨機)、獨立(不影響其他被選機率)
因此只要能找出有代表性的樣本,
抽樣誤差就可以減到最低


我不希望這裡扯到一堆數學公式之類的
所以就直接談一談大家會把抽樣誤差放在一起的詞
像是「信賴水準」、「信賴區間(就是抽樣誤差)」
信賴水準就是經常看到的,什麼0.95(95%)、0.97之類的
或顯著水準為0.05、0.01、0.001等

為什麼要管這個呢?
因為這樣我們要將由樣本所得來的數據作推論時
不可能一口咬定說「樣本說這樣,所以實際母體也一定是這樣」
所以會有一個「誤差的範圍」,表示母體的結果很可能在此範圍內

大概瞭解這個概念,就可以開始管抽樣方法 抽樣方法雖多,不過不離兩個集團
  • 非機率抽樣 立意:由研究者「主觀」認定的去選樣本或個案 偶遇(便利):選容易碰到、觀察者 滾雪球:找一個,請其介紹另一個(一直接下去) 定額:根據母群體特性,選定一些類別,在從中以偶遇or立意去抓人(樣本代表性較高-反應母體特徵) 志願對象:網路問卷、接受Call in 之類的
  • 機率抽樣 簡單隨機:最簡單的機率抽樣方法,如樂透的電腦選號 系統隨機:先決定一個規則或間格,然後一直抽(如摸5個抽一次) 分層隨機:根據母群體特性先分類,在根據各類下去隨機抽樣,可分定比(每類相同比例抽)、異比(根據實際母群體比例去抽) 集體抽樣:將母群母分成很多群,再從中抽一兩群當成樣本 多段抽樣:綜合以前幾種
抽樣大概簡單這樣講一講,真得要做還是去看書吧~
接下來兩個檢定方式,我們將其精神舉出來
然後以實例說明之,這裡篇幅有限也不可能鉅細靡遺
主要將重點點出來,讓初學者或複習者有印象與概念而已
實作上
SPSS就可以做了~



卡方檢定(chi square)-符號跟「X平方」長差不多
這是這堂課的第一個檢定方法,非常的容易理解

  • 雙變項交叉表的無母數統計檢定方法(比t-test or ANOVA等母數檢定較粗略)
  • 使用情境:自變數、依變數都是「類別變數
    例如:男生跟女生在選擇手機品牌上的關係(例如男生比較喜歡Nokia或女生比較喜歡Sony之類的)
  • 功能:探索兩變項是否有某種關係?強度如何?方向如何?
  • 詮釋方法:交叉表、卡方檢定整合在一起看
  • 處裡程序:根據研究目的提出假設(虛無假設&對立假設)->產生交叉分析表(呈現次數、百分比)->觀察卡方檢定結果(顯著水準多少下?是否呈現顯著?)->回應假設->結論


範例 Times雜誌每年都會選出100位風雲人物,根據這些人物的基本資料(性別、職業、年齡、國籍等-假設這些data都已經取得、Coding進SPSS),是否判斷在選人上,是否上榜的女性都以美國籍為多?
根據題意,
clip_image002為風雲人物的「是否美國籍」與「性別」沒有顯著差異;
clip_image004為風雲人物的「是否美國籍」與「性別」具有顯著差異
並以表3以及卡方檢定來判斷之。
table 3
經過卡方檢定,得到 clip_image006(2) = .831 , p = .362
Pearson卡方檢定值為 .831,P值等於 .362,在顯著水準
clip_image008為 .05時無法達到統計上的顯著,故無法推翻虛無假設
clip_image002[1]:風雲人物的「是否美國籍」與「性別」沒有顯著差異」
換句話說,我們不能只從數量上就說上榜的美國籍女性較多,因為從表3可以顯示出,題意(上榜的美國籍女性較多)的產生,可歸因於上榜的人都多為美國籍的緣故。如在「是否美國籍內的%」中,則可以發現27.5%(USA中的女性)與19.4%(非USA的女性)兩者並沒有差很多,並且也符合我們卡方檢定的結果。


比較平均數-T檢定(T-test) 不是每次都有兩組類別變數來做比較~ (可以參考一開始的圖)
經常出現
一組類別變項、一組連續變項的情況
這時候就很適合用比較平均數或變異數分析(ANOVA)

  • T檢定中可分為單尾或雙尾檢定(依照假設情境)
    單尾T只關心特定方向的結果,雙尾則都關心
    所以像是如果假設,男生跟女生(類別)的薪資(連續)不同時
    則兩種情況都會發生(男>女,或相反)
    當然也可以假設,某產業男生薪資一定比女生高時
    則只需要專注於一個方向
    因此單尾T的風險會比雙尾T大
    除非有足夠證據支持(前人的
    統合分析)單尾的假設
    不然
    還是雙尾比較保險
    但單尾的檢定力是比較強的,因為
    clip_image008不用分散到兩端去
  • 使用情境:單一連續變項、一組類別變項(限兩個, ex男女)&一組連續變項
  • 常用類型:有兩個 單一樣本T檢定:檢定單一變數的平均數是否與指定常數不同?例如拿了10瓶飲料(600cc)一一倒出來測每一瓶實際容量後,在檢定其平均數與所標榜的是否有出入! 獨立樣本T檢定:比較不同樣本測量值的平均數之差異。例如調查研究生與大學生的圖書館使用頻率是否有差異!
  • 基本假設:「常態分配」、「變異數同質性
    換言之,跑檢定之前要先看這兩個條件(SPSS都可做)
  • 檢定程序:假設檢定->變異數同質性檢定(單一樣本可跳過)->T檢定結果(顯著不顯著)->回頭檢視平均數(如果顯著)
範例
目前台灣的高等教育蓬勃發展,大學教育素質成為媒體和專家學者關心的焦體,那麼大學心臟的圖書館的素質又如何呢?且讓我們依館藏來做個檢驗吧!附檔libcollection.sav蒐集國內90多所大學校院圖書館之館藏,請問公私立大學圖書館的館藏是否有顯著差異? 根據題意(獨立樣本T檢定),
clip_image002[1]為「公立學校」的圖書館館藏與「私立學校」沒有顯著差異;
clip_image004[1]為「公立學校」的圖書館館藏與「私立學校」具有顯著差異
spss example
首先在Levene檢定的結果中(F = 22.356, p = .000 < .001),顯示公私立的樣本變異性具有顯著差異。
接著在T檢定(假設變異數不相等)的結果中(t = 3.746, p = .000 < .001),達到顯著差異。故支持clip_image004[2]「公立學校」的圖書館館藏與「私立學校」具有顯著差異;而在兩者館藏平均數的比較上,公立學校的圖書館館藏為「400678.94」明顯高於私立學校的「150726.80」。


其實配合範例一看應該就懂了
要深入的瞭解其細節就去借本統計學+SPSS的書研究吧!

呼寫這個好累喔~要收錢了啦..
下一次就是
ANOVA囉~嘿嘿

2 則留言:

sasa 提到...

你好,我是一個在英國修課的學生,在台灣並沒有相關的統計經驗,來這裡修統計還用英文聽真的烏颯颯~上網搜尋了資料而找到你的網頁,你的網頁整理真得很清楚,對我幫助真得很大,我非常謝謝你^^

Yi 提到...

我在德國念書
在台灣也是沒有學過統計
也是要來謝謝你的
還有讀到熟悉的台灣是幽默真是解了思鄉之情啊