此篇文章來自:Biochemical
Medica期刊,「Lessons
in biostatistics」之系列文章,2007,17(1):10-15。篇名為「What
we need to know when calculating the coefficient of correlation」。
在生醫研究中,相關係數之計算為最常使用的統計技術。相關性代表兩組數據的符合特性,與兩者的表現現象相互關連。典型的生醫相關研究例如血液中血糖濃度與glycated
hemoglobin的相關性,生物體年齡與膽固醇程度之關係。相關係數的計算方式與量測數據之類型相關,通常使用Pearson’s係數與Spearman’s係數。
Pearson’s係數是數據本身為數值性數據(numerical
data)之情況下使用,而且兩個變數有線性相關。此相關性由散佈圖可加以觀察。如果兩者無線性分關係,相關係數之計算即沒有意義.例如Michaelis
Menten模型數據分佈無法為線性。
Pearson’s係數以r或rp表示,其數值範圍為-1至1.0。r=±1,在生物現象並不存在。r=0代表無線性相關。
Spearman’s係數其註解為rho或rs,有時稱為階段相關(rank
correlation)。在三種情況下使用Spearman’s係數。
1.
數據本身為順序尺度(ordinal
scale)
2.
數據非常態分佈,
3.
數據有outliers存在。
數據數目大小於35,使用Pearson’s係數才有其意義。Spearman’s係數則不受數目限制。
對於相關係數常見的問題討論如下:
一、相關係數計算
問題:以Pearson’s係數代表人體燒傷程度與住院天數是否正確?
解答:不正確。人體燒傷程度分成四級。此種數據為人為分級,而不是連續式數據,稱為順序數據(ordinal
data)。在下列四種情況都符合時才可採用Pearson’s係數。
1.
兩個變數之數據為區間(interval)或比例值
2.
至少有1個變數之區間為常態分佈
3.
數據數目大於35
4.
數據分佈圖上為線性
如果未符合上述4項要求,則要採用Spearman’s係數。
二、相關係數之顯著性與解釋
1.
問題:在一項情緒指數與一日之內飲料飲用量相關研究,r=0.12,p=0.003。可否解釋為兩者有顯著相關?
2.
解答:在完成相關分析之後,r值以小數點兩位加以表示,p則以小數點3
位加以表示。統計檢定中,在預設條件下(例如p<0.05),假如相關係數是顯著,則可解釋兩者為顯著相關。如果p>0.05,結果則是無顯著相關。但是對Pearson’s與Spearman’s係數之解釋如下:
a.
r值於0∼0.25或0∼
-0.25,兩者缺乏相關。
b.
r值於0∼0.50或-0.25∼
-0.5,兩者相關不強(Poor
correlation)。
c.
r值於0.5∼0.75或-0.5∼
-0.75,兩者適度或良好相關。
d.
r值於0.75∼1.0或-0.75∼
1.0,兩者相關係非常好。
因此在r=0.12之條件之下,兩者缺乏相關性。
三、很高的相關係數
1.
問題:在一項人體身高與人體年齡研究中,其相關係數r值為0.97,能否結論人的身高與其年齡高度相關?
2.
解答:雖然r值高於或等於0.97,但是量測誤差與取樣錯誤都有可能導致錯誤結論。此相關性可能來自取樣不周延的緣故。在嚴謹的試驗條件下,高r值才能代表兩者有高相關性。例如以兩只精密的儀器進行血液之生化分析,其量測值則可能高度相關。
四、相關與因果關係
1.
問題:在一項研究中,血液的酒精濃度與交通事故數據之r=0.78,p=0.002,因此能否推導此結論:酒精飲用量引起了交通事故,交通事故是飲用酒精之結果。
2.
解答:相關係數無法提供因果關係。酒精濃度與交通事故有高的相關係數,但是不能得到結論是相互影響。因為交通事故的原因包括道路狀況、駕駛員技術、駕駛身體其他疾病、有否服用藥物等。
五、相關性的強度
1.
問題:比較血液中酵素濃度與其結晶反應值,其r=0.52,p=0.002。結論是否是酵素濃度影響了52%的結晶反應值?
2.
解答:相關係數並不能用以描述相關性強度。r=0.52,不能用以解釋52%的相關性,或是兩者有52%的關聯性。在迴歸分析中,決定係數R2(Coefficient
of determination)以r2代表,只有在Pearson’s相關計算才可應用。因此r=0.52,
R2=0.27。代表有27%的相關性。
六、相同研究條件下,兩個相關係數之比較
1.
問題。在電腦打字研究中,女人(N1=60)之r1=0.70,男人(N2=40)之r2=0.50。因為r1>r2
,因此女人之電腦使用能力其相關性高於男人之電腦使用能力。
解答:兩者的相關係數無法用以比較。但是兩組數據是否有顯著不同,可以以統計技術加以檢定。檢定程序必須考慮相關係數與樣本數目。 |