logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區
數據分析與知識產業

 

 

決定係數R2之判斷標準

 

中興大學 生物系統工程研究室  陳加忠

 
 

執行迴歸分析研究之後,研究人員往往討論如下的問題,使用的模式與這些量測數據有多大的符合性?最被使用的判別標準即是決定係數(Coefficient of determination),R2。在學術研究上最通俗的觀念是R2愈接近1.0愈好。

R2是什麼,在統計教科書的定義如下:

R2= SSReg/SSTotal                                                                                                  1

SSReg稱為迴歸模式的變異量,SSReg計算公式如下:

SSReg

為迴歸模式在yi點的預測值,為所有yi值的平均值。

SSTotal稱為yi值之變異量,SSTotal計算公式如下

SSTotal                                               2

R2的定義代表迴歸模式之變異值與所有yi變異量之比例,R2愈大,代表此迴歸模式能夠解釋全體yi變異量的比例愈大。因此R2愈接近1.0,代表此模式愈有解釋能力。

使用R2值作為判別標準,至少有兩大問題:

1. R2值要多大才是有價值?

關於社會科學研究,R2值為0.50.6則是常見,R2值大於0.7則很少見。生物或農業研究,R2大於0.9也是不多。但是在儀器效正公式,R2值通常為0.999。因此R2值要多大才有判別價值?

2. R2值愈大,不見得模式是正確。

許多線性迴歸式,R2值高達0.99,但是其殘差圖檢定顯示多項式才是正確的校正公式。

R2值為判別的標準,最大的問題是R2值可以人為加以調整改變,由R2值計算公式可以推導成如下公式:(R. H. Myer,Classical and Modern Regression with Application, PWS and Kent Publisher, 1986)。

                                          3

W =                                                 4

公式(3)可以改為

                                                 5

因為W比較,可以忽略,公式(5)為

                                             6

公式(6)代表W愈大,R2相對愈大。只要人為增加WR2值就變大。影響W值的因子有三個。

1.      B:迴歸模式的斜率

2.      SxxSxx的計算公式為。因此數據在X軸愈分散,Sxx愈大,R2就愈大。

3.      nn為數據數目,n愈小,W愈大,R2愈大。

 

由上述討論可知如何提高R2值,這些技巧(Tricks)在生物感測器最常見。

1. 提高Sxx值,將迴歸分析之數據點其分布範圍擴大,例如X之範圍原來為20ppm~35ppm,只要增加一個數據點Xi = 100ppm,其R2值即暴增。

實例一:以一個生物反應器之研究論文為例,X值為MBA TiterY值為Reference Vessel Titer。圖1代表X數據分佈為1600以內,其迴歸公式:

Y1 = 53.113+1.1127X, R2= 0.853

增加一組數據(X = 2225),分佈如圖2,其迴歸式:

Y2 = 16.4975 +1.2011X, R2= 0.912

再增加一組數據(X = 3750),分佈如圖3,其迴歸公式:

Y3 = 73.4804 +1.0830X, R2= 0.981

由此實例可知,增大X之分佈,即增大Sxx值,對R2之影響有多大。

 

2. 減少n

常用的方法是以各組平均值代替所有數據,例如Xi1020304050ppm,在每個Xi值有3個量測值(yi1, yi2, yi3),共有15組數據。如果以Xi條件之3個量測值加以平均值為,則只有5組數據。

15組數據與5組數據進行迴歸分析,以線性公式為例,。兩種數據所得之bob1值完全相同,但是R2值大有所不同。5組數據迴歸所得R2值遠大於15組數據之R2值。

實例二:一篇電化學伏安法量測農藥殘留濃度之論文,其原始數據分佈如圖4,其迴歸公式為:

Y1 = -0.2613+0.8560X, R2= 0.923

Yi之平均值對Xi重新製圖,數據分佈如圖5,其迴歸公式為:

Y2 = -0.2644+0.8552X, R2= 0.983

由此可知以原始數據或以平均值進行迴歸分析,對R2值影響有多麼顯著。

R2是否有意義的判別標準?看看許多學術論文其數據呈現方式即可看出端倪。

 

                                          

1. X數據分佈範圍為0- 1600之間

 

2. X數據分佈範圍為0- 2225之間

 

3. X數據分佈範圍為0- 3750之間

 

5. 電化學伏安法量測農藥殘留濃度之研究其平均值數據分佈