圖片來自:Visual Statistics Studio
當初完全沒想到量化研究的點閱人氣率會這麼高耶XDDD
所以有空還是先把這塊心得先整理整理,給有可能需要的人看看吧!
說到「相關」,其實這個詞還挺常見的~
不過也就是因為太常見了,反而越用越模糊,好像什麼事情都可以來相關一下XD
所以這一次就是來跟大家好好談一談,學術領域上的「相關」是怎麼一回事?
寶煖老師還是用一個簡單的表格告訴我們「何時最適合用相關分析呢?」
自變數 | 依變數 | 統計方法 |
類別 | 類別 | 交叉 |
類別 | 連續 | 變異數 |
連續 | 連續 | 相關(強度) 迴歸(因果) |
除了前幾次的卡方&T檢定、變異數分析等統計方法,
我們還很常看到的就是所謂的「相關分析(Correlation Analysis)」
因為在很多時候,我們會對一件事物與另一件事物之間的關係很感興趣~
最好是還可以提供給我們一個關係強度的指標,
這個指標小表示關係強度低、指標大表示關係強度高,
這時候你大概意會到了,這就是也就是「相關係數(coefficient of correlation)」
打個比方好了,如下圖(來自Live Strong)有五具骷髏一字排開,
看看他們,你會想怎麼去描述他們身高與體重的關係?
其實通常我們可以給一個從0到1之間的數值來描述其相關強度(Strength),
並同時可以說明這個關係的方向(direction)!(ex: 正 or 負)
一般來說,我們在許多相關分析的研究都很容易看到以下兩種相關係數
- The Rank-Difference coefficient(ρ)->念 rho(盧)
- 如:Spearman rank-difference coefficient of correlation
- 排序型的資料比較適合
- 這個係數比較容易理解啦~ - The Product-Moment coefficient(γ)->gamma
- 如:Pearson product-moment coefficient
- 適用連續型資料(連續變數)
- 很常見的相關係數類型唷!
OK~我們沿用上面五具骷髏的例子,算看看ρ係數:
首先一定要先排序!最重到最輕,最高到最矮~
然後將相同序位作對應比較(第1對第1、第2對第2...依此類推)
我想公式我就不介紹了,這不是重點(有興趣Wiki)
但是我們要知道它的意義~
這個係數的重點就是在於計算整體的排序差異(Rank Difference)
所以如果是正相關時...(假設從左到右的骷髏為A到E)
名稱 | 變數X(身高) | 變數Y(體重) | 排序差異D | D平方 |
A | 1 | 1 | 0 | 0 |
B | 2 | 2 | 0 | 0 |
C | 3 | 3 | 0 | 0 |
D | 4 | 4 | 0 | 0 |
E | 5 | 5 | 0 | 0 |
total= 0 |
從上表可以發現,當出現很強的正相關時,排序差異會很低(這邊是0)
而ρ會用1去減這個差異值的比,因此如果排序差異越低時,ρ會越接近1
不過倘若在現實環境下,有個人又高又瘦、有的人又矮又胖
這時就會出現負相關...
名稱 | 變數X(身高) | 變數Y(體重) | 排序差異D | D平方 |
Rondo | 1 | 5 | -4 | 16 |
Martin | 2 | 4 | -2 | 4 |
Lee | 3 | 3 | 0 | 0 |
Garnett | 4 | 2 | 2 | 4 |
Robinson | 5 | 1 | 4 | 16 |
total= 40 |
因此反過來看,排序差異比越大時,1有可能不夠減,
所以是有可能出現負的ρ值喔!
接下來,我們一樣拿γ係數來檢視身高體重的例子吧!
其實Product-moment的意思並不會像ρ那樣去計算排序的差異,
而是計算其真實的身高與體重!例如以下是A到E骷髏的實際身高體重~
名稱 | 變數X(身高) | 變數Y(體重) |
A | 250 | 25 |
B | 160 | 20 |
C | 90 | 15 |
D | 40 | 10 |
E | 10 | 5 |
應該關注的焦點是這些實際變數與其平均數的「積差」大小!
完了完了,數學很爛的我,看到積差兩個字就開始頭痛了!!
其實不用擔心~我們用一樣的例子算一下試試看~
名稱 | 變數X(身高) | 變數Y(體重) | x (平均差) | y (平均差) | xy | |
A | 250 | 25 | 140 | 10 | 1400 | |
B | 160 | 20 | 50 | 5 | 250 | |
C | 90 | 15 | -20 | 0 | 0 | |
D | 40 | 10 | -70 | -5 | 350 | |
E | 10 | 5 | -100 | -10 | 1000 | |
total | 3000 | |||||
平均 | 110 | 15 |
多了三欄之後,應該還看得懂吧?
x跟y是指觀察值跟其平均值的差,而xy就是所謂的積差
這個積差是計算γ係數的關鍵,它越大,γ係數就會大,相關程度就越強
同樣地,我們換一組觀察值X,算算看積差~
名稱 | 變數X(身高) | 變數Y(體重) | x (平均差) | y (平均差) | xy | |
A | 160 | 25 | 50 | 10 | 500 | |
B | 40 | 20 | -70 | 5 | -350 | |
C | 10 | 15 | -100 | 0 | 0 | |
D | 250 | 10 | 140 | -5 | -700 | |
E | 90 | 5 | -20 | -10 | 200 | |
total | -350 | |||||
平均 | 110 | 15 |
這下子你應該看出來了吧,如果兩組觀察值變化不一(其實就是比較不相關)
兩組一起跟平均值去相減時,一個是正的、另一個負的,
最後在xy都會相互抵銷,這樣最後的積差就會小!γ係數也會低。
目前為止,對「相關」應該有個概念了吧?
其實就是觀察兩組變數(通常都是連續變數)共同變化情形,
也就是常常聽到的「共變(covariance)關係」,
我們有可能利用次數分配去統計這些現象,
或用平均數與標準差來描繪資料集中或離散的情形。
然而,兩組連續變數的共變關係可能會有不同的形式,
但是最簡單且最常見的模式就是「線性關係(linear relationship)」
線性關係是指兩個變項的關聯可以用一條最具代表性的直線來表示!!
以我們用的身高體重來看的話:
- y = bx + a (x身高、y體重)
- b是斜率,x每變動一個單位,y的變動量(多一公分,體重變化量)
- 若b為「正」值,表示兩變項是正相關!
- 若b為「負」值,表示兩變項是負相關!
看圖應該最快理解吧!! (來自:QI Marcos)
正相關 |
負相關 |
因此,我們知道這些這條線是由眾多觀察值的散佈圖產生的,
這條「最適線」基本上是倚靠點與點之間的距離計算的,這裡也不談
言歸正傳,現在可以瞭解到:
- 一個精確的相關分析是會產生一個相關係數的!
- 這個係數是介於-1~+1之間的數
- 若為+1表示兩變數具有完全的正線性相關
- 若為-1表示兩變數具有完全的負線性相關
- 若相關係數趨近於0,表示兩變數沒有線性相關
這種利用係數來判斷相關程度的概念最早由Pearson提出,
因此又稱「皮氏積差相關係數(γ係數)」!!
一般來說,我們會希望對相關係數的數值有一個基本認知,
因此老師提供以下的表:
相關係數(γ) | 相關程度 |
1.00 | 完全相關 |
0.7-0.99 | 高度相關 |
0.4-0.69 | 中度相關 |
0.1-0.39 | 低度相關 |
< 0.1 | 微弱或無相關 |
不過,相關係數值的大小雖然可以反應兩個變項關連性的強弱,
但是相關係數是否具有統計上的意義,則需要透過統計檢定來判斷!
因為由樣本計算兩變項之相關係數Pearson的「γ」,
若要推論到實際母體時,需經由統計(假設)檢定來檢視其統計意義:
- 虛無假設H0:兩變項X與Y不相關
- 對立假設H1:兩變項X與Y相關
當雙尾的機率P值小於設定的顯著水準α(如.05或.01)時,
接受對立假設(拒絕虛無假設),即相關係數不為零(兩變項相關)
詳細的假設檢定看不懂沒關係~SPSS懂就好,數據照樣給他跑下去XDD
因為相關檢定實在很簡單,所以這次就沒有範例啦(明明就偷懶~)
其實是我檔案不知道跑去哪了,沒辦法跑範例啦給大家看^^
但是!但是!程序還是會很清楚的跟大家說一下~(大心)
- 一開始就是假設檢定麻~(就像上面那樣)
- 先跑散佈圖,大概看一下兩變數的相關程度(用肉眼!)
- SPSS –>統計圖 –>散佈圖(X軸自變項、Y軸依變項) - 開始跑相關分析
- SPSS –>分析 –>相關 –>雙變數 - 根據顯著水準與相關係數寫結果跟結論!
超簡單的吧!完全不需要什麼高深的技術就可以解決!
不過呢!還是有一點細節要跟大家談一談,就是「相關係數」的選擇
雖然前面已經有初步介紹過了,但因為在SPSS設定雙變數的時候,
它會請你勾選以下三種常見的相關係數:
一、Pearson(γ)
- 大多數會使用的,因為適合隨機連續變數~
- 對『常態分配』的變數觀察值非常適用!可以發現兩變項關係的密切程度
- 常態分配是什麼?就是看看你整體的觀察值,
是不是有中間偏多,前後比較少的情況(最常見的變數分配!)
就拿考試成績好了,一般都是平均分數附近最多人,滿分跟不及格偏少
(當然~google一下可以解決你人生中百分之99的疑問)
但還是有可能你的觀察值不是常態分配,或已經照類別排列過了,
那就比較適合用下面兩種係數來測量等級排列之間的關連
二、Spearman (ρ)
- 等級相關係數
- 適用於順序變項(就像最前面舉的例子,如排名、排序資料)
三、Kendall(τ)-唸tau
- 也是等級相關係數
- 適用於Concordant型態的樣本觀察值
- Concordant是什麼?其實呢!就是指觀察值的特性啦
通常拿來指一對一對觀察值的關係,有以下三種:
- Concordant(一致):指某一觀察值的兩變項都大於(或小於)另一個觀察值
- Discordant(不一致):指一觀察值的第一變項大於(或小於)另一觀察值,第二變項卻相反
- Tied(相等):指兩觀察值的一個變項或兩個變項相等
現在,面對這幾個選項應該都有點頭緒了吧~
最後最後最後~~~~~老師提醒大家一件非常重要的事情!
在解析結果時,千萬不要因為顯著的相關,就逕下任何跟因果相關的結論唷XDD
挖~寫完了!其實這系列也只剩最後一回了~
就是迴歸啦!!大家可以期待一下(誰理你呀XDDD)
沒有留言:
張貼留言