logo821.gif (10572 bytes) 首頁          新增資料與公告

   

最新消息  :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

 

 

生醫研究之統計方法

首頁
上一層
BSE LAB 介紹
非洲產業研究中心
授課資料
人文關懷
無官御史台
武漢肺炎與產業
智能生物產業
活動公告區
數據分析與知識產業

 

 

多重迴歸分析之檢定程序

 

中興大學 生物系統工程研究室  陳加忠

 
 

多重迴歸分析為研究人員常用的統計技術,但是也是最常濫用(abused)的技術。在執行迴歸過程中,其假設條件必須符合數據的適稱性(goodness of fit),需要進行統計檢定,模式的準確性需要測試。迴歸模式可能出現問題,迴歸結果需要解釋。

SAS軟體公司提供一份技術文件:SAS Global Forum 2012, Paper 333-2012, The steps to follow in a multiple regression analysis在此文件中依序介紹多重迴歸分析的5個步驟:

1. 建模(Model building

2. 模式適稱性檢查

3. 模式假設之檢定:殘差檢定及診斷(residual tests and diagnostic

4. 可能模式問題與解決方法

5. 模式驗證(Validation

 

一、建模

在建立迴歸模型之前,研究者需要儘量將可能影響的變數作為獨立變數(independent variables),並納入迴歸模型。這些變數可能為一次(Xi),二次(Xi2),交互(XiXj)與虛無變數(dummy variables)。建模方法主要有逐次迴歸法(Stepwise regression)與所有可能迴歸選擇法(all-possible-regressions selection procedures)。用以判別適切模式的標準:

1. R2

2. Adjusted R2 MSE

R2adj愈高 ,MSE愈小之模式愈佳

3. Cp Cp值愈小,愈接近參數數目p,模式愈佳,代表總誤差平均(totalmean sguare error)與迴歸偏差(regression bias)最小。

4. PRESS

PRESS愈小,預測能力愈佳。

 

二、模式適稱性檢查

檢查之標準(criteria)包括:

1. 整體模式之F值。

2. 針對參數β1001-α%信賴區間與t檢定。

4. s:標準差,以±2s可用以判別y預測值之準確性。

5. CV Coefficient of Variance)。

CV值為之比例值,模式之CV值小於10%,代表預測能力可接受。

 

三、模式假說設之檢定

迴歸模式之基本假定包括:1. 誤差為長態分佈,2. 所有誤差值為彼此獨立。

可用的檢定方法為殘差試驗與診斷圖。用以顯示模式是否需要轉換或修正。殘差圖與一些統計量可用以判別:

a.模式是否缺乏適稱(lack of fit),

b. 違反假設,

c. 歸納之結論無效,

d. 離差點或影響點是否存在。

 使用的統計方法有:

1. 殘差圖:用以判別模式是否適合。

2. 常態機率圖:判別是否為常態分佈。

3. 標準殘差值:標準殘差絕對值大於3.0則有可能為離群值(outliers)。

4. 影響點(influence points

a. hii值,,則有可能是影響點。

b. Cook’s distance,與Fp, n-p, 50%)臨界值比較。

c. Diffits,評估標準為

5. Durbin-Watson(D)試驗

a. 0d4

b. d2,殘差無相關

c. 0<d<2,殘差為正相關

d. 4>d>2,殘差為負相關

 

四、模式的可能問題與解決方式

1. 違背了假設條件

自殘差圖檢定可發現已違背一些假設,最基本的方法是yi加以轉(transform),經由轉換yixi值可以:

a. 得到均質的變異量,

b. 使非線性模式接近線性,

c. 使得相乘效應(XiXj)以對數轉換成為相加效應(log Xi + log Xj)。

Box-Cox方法可協助如何進行轉換。

轉換方法

 

方程式

 

Lambma

平方

 

Y2

 

1.5 to 2.5

 

Y

 

0.75 to 1.5

開方

 

 

0.25 to 0.75

自然對數

 

lnY

 

-0.25 to 0.25

開方倒數

 

 

-0.75 to -0.25

倒數

 

 

-1.5 to- 0.75

平方倒數

 

 

-2.5 to -1.5

 

2.參數估計能力

問題:變數(Xi, Xj)有高度相關。

解決:在模式中移出高度相關之變數。

3. 重合性

移出高度重合參數(Note:此方式不見得正確)。

4. 外插

因為用以預測之xi範圍超原數據範圍,因此yi預測值不準確

 

五、模式驗證

原有的數據群是用以建模,模式的驗證需要採用與建模完全獨立的數據。

1. 檢查預測值合理。如果預測值嚴重偏離,可能的原因是模式不正確或參數估計值不佳。

2. 檢查模式之參數,如果其正負號不合理,或是參數數值極大或極小,都可能來自模式不合理。

3. 以新的數據組進行驗證,以MSE值比較。

4. 如果無法得到新的數據群,對原數據群分成兩部份進行驗證。

5. 對小的數據群,以進行驗證。此方法又稱jackknifing

 

註解:SAS公司之技術說明只是一個指引,介紹多重迴歸分析之使步驟。詳細方法建議需參考迴歸分析教科書。