2011年4月5日 星期二

[課堂心得]量化研究與統計分析-相關分析(Correlation Analysis)

DataAnalysis
圖片來自:Visual Statistics Studio

當初完全沒想到量化研究的點閱人氣率會這麼高耶XDDD
所以有空還是先把這塊心得先整理整理,給有可能需要的人看看吧!

說到「相關」,其實這個詞還挺常見的~
不過也就是因為太常見了,反而越用越模糊,好像什麼事情都可以來相關一下XD
所以這一次就是來跟大家好好談一談,學術領域上的「相關」是怎麼一回事




寶煖老師還是用一個簡單的表格告訴我們「何時最適合用相關分析呢?」

自變數 依變數 統計方法
類別 類別 交叉
類別 連續 變異數
連續 連續 相關(強度)
迴歸(因果)

除了前幾次的卡方&T檢定變異數分析等統計方法,
我們還很常看到的就是所謂的「相關分析(Correlation Analysis)」

因為在很多時候,我們會對一件事物與另一件事物之間的關係很感興趣
最好是還可以提供給我們一個關係強度的指標
這個指標小表示關係強度低、指標大表示關係強度高,
這時候你大概意會到了,這就是也就是「相關係數(coefficient of correlation)」

打個比方好了,如下圖(來自Live Strong)有五具骷髏一字排開,
看看他們,你會想怎麼去描述他們身高與體重的關係?

 dv385034_XS

其實通常我們可以給一個從0到1之間的數值來描述其相關強度(Strength)
並同時可以說明這個關係的方向(direction)!(ex: 正 or 負)
一般來說,我們在許多相關分析的研究都很容易看到以下兩種相關係數
  • The Rank-Difference coefficient(ρ)->念 rho(盧)
    - 如:Spearman rank-difference coefficient of correlation
    - 排序型的資料比較適合
    - 這個係數比較容易理解啦~
  • The Product-Moment coefficient(γ)->gamma
    - 如:Pearson product-moment coefficient
    - 適用連續型資料(連續變數)
    - 很常見的相關係數類型唷!

OK~我們沿用上面五具骷髏的例子,算看看ρ係數
首先一定要先排序!最重到最輕,最高到最矮~
然後將相同序位作對應比較(第1對第1、第2對第2...依此類推)
我想公式我就不介紹了,這不是重點(有興趣Wiki
但是我們要知道它的意義~
這個係數的重點就是在於計算整體的排序差異(Rank Difference)
所以如果是正相關時...(假設從左到右的骷髏為A到E)

名稱 變數X(身高) 變數Y(體重) 排序差異D D平方
A 1 1 0 0
B 2 2 0 0
C 3 3 0 0
D 4 4 0 0
E 5 5 0 0
total= 0

從上表可以發現,當出現很強的正相關時,排序差異會很低(這邊是0)
而ρ會用1去減這個差異值的比,因此如果排序差異越低時,ρ會越接近1

不過倘若在現實環境下,有個人又高又瘦、有的人又矮又胖
這時就會出現負相關...

名稱 變數X(身高) 變數Y(體重) 排序差異D D平方
Rondo 1 5 -4 16
Martin 2 4 -2 4
Lee 3 3 0 0
Garnett 4 2 2 4
Robinson 5 1 4 16
total= 40

因此反過來看,排序差異比越大時,1有可能不夠減,
所以是有可能出現負的ρ值喔

接下來,我們一樣拿γ係數來檢視身高體重的例子吧!
其實Product-moment的意思並不會像ρ那樣去計算排序的差異,
而是計算其真實的身高與體重!例如以下是A到E骷髏的實際身高體重~

名稱 變數X(身高) 變數Y(體重)
A 250 25
B 160 20
C 90 15
D 40 10
E 10 5
然而在這裡,我們一樣不管它的公式運算~(有興趣wiki
應該關注的焦點是這些實際變數與其平均數的「積差」大小
完了完了,數學很爛的我,看到積差兩個字就開始頭痛了!!
其實不用擔心~我們用一樣的例子算一下試試看~

名稱 變數X(身高) 變數Y(體重) x
(平均差)
y
(平均差)
xy
A 250 25 140 10 1400
B 160 20 50 5 250
C 90 15 -20 0 0
D 40 10 -70 -5 350
E 10 5 -100 -10 1000
total 3000
平均 110 15

多了三欄之後,應該還看得懂吧?
x跟y是指觀察值跟其平均值的差,而xy就是所謂的積差
這個積差是計算γ係數的關鍵,它越大,γ係數就會大,相關程度就越強

同樣地,我們換一組觀察值X,算算看積差~

名稱 變數X(身高) 變數Y(體重) x
(平均差)
y
(平均差)
xy
A 160 25 50 10 500
B 40 20 -70 5 -350
C 10 15 -100 0 0
D 250 10 140 -5 -700
E 90 5 -20 -10 200
total -350
平均 110 15

這下子你應該看出來了吧,如果兩組觀察值變化不一(其實就是比較不相關)
兩組一起跟平均值去相減時,一個是正的、另一個負的,
最後在xy都會相互抵銷,這樣最後的積差就會小!γ係數也會低

目前為止,對「相關」應該有個概念了吧?
其實就是觀察兩組變數(通常都是連續變數)共同變化情形,
也就是常常聽到的「共變(covariance)關係」,
我們有可能利用次數分配去統計這些現象,
或用平均數與標準差來描繪資料集中或離散的情形。

然而,兩組連續變數的共變關係可能會有不同的形式,
但是最簡單且最常見的模式就是「線性關係(linear relationship)
線性關係是指兩個變項的關聯可以用一條最具代表性的直線來表示!!
以我們用的身高體重來看的話:
  • y = bx + a (x身高、y體重)
  • b是斜率,x每變動一個單位,y的變動量(多一公分,體重變化量)
  • 若b為「正」值,表示兩變項是正相關!
  • 若b為「負」值,表示兩變項是負相關!

看圖應該最快理解吧!! (來自:QI Marcos)

正相關
scatter-plot-example-positive-correlation
負相關
scatter-plot-example-negative-correlation

因此,我們知道這些這條線是由眾多觀察值的散佈圖產生的,
這條「最適線」基本上是倚靠點與點之間的距離計算的,這裡也不談

言歸正傳,現在可以瞭解到:
  • 一個精確的相關分析是會產生一個相關係數的!
  • 這個係數是介於-1~+1之間的數
  • 若為+1表示兩變數具有完全的正線性相關
  • 若為-1表示兩變數具有完全的負線性相關
  • 若相關係數趨近於0,表示兩變數沒有線性相關

這種利用係數來判斷相關程度的概念最早由Pearson提出,
因此又稱「皮氏積差相關係數(γ係數)」!!
一般來說,我們會希望對相關係數的數值有一個基本認知,
因此老師提供以下的表:

相關係數(γ)
相關程度
1.00
完全相關
0.7-0.99
高度相關
0.4-0.69
中度相關
0.1-0.39
低度相關
< 0.1
微弱或無相關

不過,相關係數值的大小雖然可以反應兩個變項關連性的強弱,
但是相關係數是否具有統計上的意義,則需要透過統計檢定來判斷!
因為由樣本計算兩變項之相關係數Pearson的「γ」,
若要推論到實際母體時,需經由統計(假設)檢定來檢視其統計意義
  • 虛無假設H0:兩變項X與Y不相關
  • 對立假設H1:兩變項X與Y相關

當雙尾的機率P值小於設定的顯著水準α(如.05或.01)時,
接受對立假設(拒絕虛無假設),即相關係數不為零(兩變項相關)

詳細的假設檢定看不懂沒關係~SPSS懂就好,數據照樣給他跑下去XDD
因為相關檢定實在很簡單,所以這次就沒有範例啦(明明就偷懶~)
其實是我檔案不知道跑去哪了,沒辦法跑範例啦給大家看^^

但是!但是!程序還是會很清楚的跟大家說一下~(大心)
  • 一開始就是假設檢定麻~(就像上面那樣)
  • 先跑散佈圖,大概看一下兩變數的相關程度(用肉眼!)
    - SPSS –>統計圖 –>散佈圖(X軸自變項、Y軸依變項)
  • 開始跑相關分析
    - SPSS –>分析 –>相關 –>雙變數
  • 根據顯著水準與相關係數寫結果跟結論!

超簡單的吧!完全不需要什麼高深的技術就可以解決!
不過呢!還是有一點細節要跟大家談一談,就是「相關係數」的選擇
雖然前面已經有初步介紹過了,但因為在SPSS設定雙變數的時候,
它會請你勾選以下三種常見的相關係數:

一、Pearson(γ)
  • 大多數會使用的,因為適合隨機連續變數~
  • 對『常態分配』的變數觀察值非常適用!可以發現兩變項關係的密切程度
  • 常態分配是什麼?就是看看你整體的觀察值,
    是不是有中間偏多,前後比較少的情況(最常見的變數分配!)
    就拿考試成績好了,一般都是平均分數附近最多人,滿分跟不及格偏少
    (當然~google一下可以解決你人生中百分之99的疑問)

但還是有可能你的觀察值不是常態分配,或已經照類別排列過了,
那就比較適合用下面兩種係數來測量等級排列之間的關連

二、Spearman (ρ)
  • 等級相關係數
  • 適用於順序變項(就像最前面舉的例子,如排名、排序資料)

三、Kendall(τ)-唸tau
  • 也是等級相關係數
  • 適用於Concordant型態的樣本觀察值
  • Concordant是什麼?其實呢!就是指觀察值的特性啦
    通常拿來指一對一對觀察值的關係,有以下三種:
    - Concordant(一致):指某一觀察值的兩變項都大於(或小於)另一個觀察值
    - Discordant(不一致):指一觀察值的第一變項大於(或小於)另一觀察值,第二變項卻相反
    - Tied(相等):指兩觀察值的一個變項或兩個變項相等

現在,面對這幾個選項應該都有點頭緒了吧~
最後最後最後~~~~~老師提醒大家一件非常重要的事情!
在解析結果時,千萬不要因為顯著的相關,就逕下任何跟因果相關的結論唷XDD

挖~寫完了!其實這系列也只剩最後一回了~
就是迴歸啦!!大家可以期待一下(誰理你呀XDDD)

沒有留言: