多重比較分析檢定

最新消息 :

數字分析 - 中國於非洲農業報導之破解

生醫研究之統計方法

多重比較分析檢定

中興大學生物系統工程研究室陳加忠.

對於多重處理的研究數據相互比較，主要的分析工具是變方分析(ANOVA)。但是ANOVA如果顯示處理之間有顯著差異，則必須採用事後比較檢定（Post hoc tests）用以測試處理組與對照組是否有顯著差異。這種統計技術稱為多重比較測定（Multiple comparison analysis testing）。常用的分析技術有Tukey , Newman-Keuls, Scheflee, Bonferroni與Dunnett, 上述每個統計技術都有其特殊用途，優點與缺點。有些統計技術用以進行比較檢定，有些技術是用以推衍新原理。為了避免第一型錯誤，研究人員要慎選多重比較技術。

以下的文章容引自Biochemia Medicu 2011年 21(3), 203-209頁：

作者：Mary. L. McHugh

篇名：Multiple Comparison analysis testing in ANOVA

一、使用多重比較分析檢定

研究者在完成變方分析之後，如果結果顯示有顯著差異。各試驗群與控制群的差異性需要持續分析。這種子群差異性的比對稱為成雙比較（Pair wise difference）。ANOVA不能顯示各處理之間是否不同，因此在執行ANOVA分析之後，持續進行的檢定稱為事後比較檢定（Post hoc tests）。

完成ANOVA，再進行成對比較。最簡單的方法是進行一系列t檢定，執行一對對的檢定。但是這種方法並不適合。第一個原因以相同的數據群，成對的進行t檢定，導致了α值的增加，（第一型錯誤的機率增加）。第二個原因為t檢定每次只有考慮兩組數據的平均值。在ANOVA中使用所有數據的平均值，在t檢定並未考慮整體數據的平均值。換言之以多次t檢定使得第一型錯誤的機會顯著增加。

除了成對t檢定，統計學家已發展其他的多種比較方法，最常用的方法有Bonferroni, Sheffee, Tukey, Newman-Keuls與Dunnett方法。每一個檢定技術都有其特點與限制。有些檢定技術自動進行所有的成對比較，有些檢定技術則是由研究人員主動選擇所需要比較的處理數據群。每個方法各有其α值與其特殊的檢定結果。因此研究人員必須依據自己的研究目的選擇適用的統計技術。例如在某項研究中，研究者可以針對一項特殊處理組，以此組數據與其他對照組比較。此外研究者也可能希望將一組處理組的數據與其他控制組的數據加以比較。研究方法中，也有一個處理組與其他處理組相互比較。

研究數據的一些特殊狀況影響了多重比較定方法之選用。例如各組數據的樣本數目可能不相同。不同的檢定其檢定力（Power）的要求可能不同。有些研究要結合一些處理組數據與結合一些控制組數據，再相互比較。因此多重比較之技術其選擇是取決於探討比較的目的，有興趣的處理群與數據的型式。

二、比較數據組之類別

對比（contrast）代表對於ANOVA檢定後，其中兩組平均值是否具有顯著不同的檢定工作。類別有兩型：簡單（Simple ）與複雜（Complex）。簡單對比代表兩組數據之比較，例如試驗組1與控制組2。複雜對比代表比較兩個不同組合之數據組是否有顯著差別。例如實驗組中第1、2、4組之結合數據，與對照組中1、3、4組之結合數據，兩組新數據相互比較。

執行ANOVA的目的也有測試原理或產生新理論。針對不同的研究目的，必須選用不同的多重比較檢定技術。

三、成對比較檢定

1. Tukey法

Tukey多重比較法是將每一個試驗組與每一個試驗組逐一比較。如果試驗組與控制組的樣本數目不相等，Tukey法是最佳選擇。Tukey法首先對於成對數據群具有最大不同平均值的兩組數據進行檢定。以一個q統計量用以判別組間的不同是否顯著。 q統計量來自最大的平均值減最小的平均值，再除以所有族群其平均值之標準差。所有族群平均值的標準差之總和除以樣本數目稱為族群之的均方（Mean Square Within , MSw），在許多統計軟體均有計算並加以呈現。q值再與特定的 q表查對其臨界值（Critical q-value）加以比較。如果計算之q值大於q表中的臨界值，即是代表有統計顯著性差異。

在平均值具有最大差異的兩組數據完成比較之後，再進行第二對數據之比較。此比較作業持續進行，一直到q值不高於臨界q值。

使用Tukey法的實例列舉如下：在一項研究中，以四種不同的抗生素以進行MRSA試驗（Multiple-Drug Resistant Staphylococcus Auras infection）。控制組只有以Vancomycin處理。其他三種抗生素用於三個處理組。因為樣本數目不同，因此選用Tukey法。另一個考慮因子是因為第一型錯誤的考量比第二型錯誤更為重要。研究的重點在於新藥是否優於傳統用藥Vancomycin。

如果犯了第一型錯誤，醫生將使用新藥以取代舊藥Vancomycin，但是新藥的藥效不如舊藥，而且成本更高。如果犯了第二型錯誤，只是導致用藥不改變。Tukey法可能引起較多的第二型錯誤，但是可以協助研究者避免第一型錯誤。

Tukey法的優點是成對比較，計算方式簡單，對不相同樣本數目之處理也可進行比較。其缺點是檢定力不如其他方法，而且無法進行複雜化數據群的比較。

2. Newman – Keuls法

Newman- Keuls法與Tukey法非常相似，但是Newman- Keuls法對於每一個比較可以都有各自的α值。此方法因此可以執行更多的比對，因此其檢定力比Tukey法更強大。在第一次比對中，也是與Tukey法相同。然而再使用每一組數據之平均值與全部數據平均值比對。其q臨界值隨著連續之比對而降低，而Tukey的q臨界值都是維持一定。因而Tukey法對α值並不擴增，Newman-Keuls對α值則逐漸增加，第一型錯誤的機率也逐漸增加。

如果兩組數據之間相對較小的差異值也是十分重要，Newman-Keuls法則是十分適用。尤其是進行一些新的，缺乏資訊的研究項目。例如HIV是一種新症，對感染無藥物可以處理。因此只要藥物的處理結果有微小不同，也是重要的發現。因為Newman-Keuls法的較大的檢定力，此技術十分適合。而且第一型錯誤對醫療的影響並不大。

總而言之，Newman-Keuls統計技術對於微小差異之鑑定十分重要。第二型錯誤的風險大於第一型錯誤。對於新的科學領域而且缺乏研究資料之研究主題十分有用。但是使用此方法，其各組樣本數目必須相同。

四、多重組群之比較

1. Scheffee法

Scheffee法可用以比較所有可能的對比，包括簡單與複雜。所有處理都進行比較時，Scheffee法與上述兩個方法的檢定力差別不大。只有一些特定的組合需要進行比對時，Bonferroni多種比較法則是最佳方法。

如果一個理論已發展完成，Scheffee法是十分適合。可用以比對所有試驗群與各組合的不同。換言之，試驗的調查數據與一個理論評估是否有顯著不同，Scheffee法最適合驗證其是否不同（顯著差異）。

如果一個理論尚未得到證實，Scheffee法也適合用以判斷是否有顯著差異。

假設有4個抗生素用以測試其效果。ANOVA顯示有顯著差異。其中三組效果相同，一組之效果最差或無效，以Scheffee法則可以提供最詳細的資訊。

Scheffee法允許研究人員進行理論推導與驗證工作，對所有的處理進行比較，並且發現是否有顯著差異。因此可以協助研究人員自現有數據發現一些可持續探索的數據組。由於這是以往未知或未發現的差異性被呈現，因此研究人員可以以此差異性推衍更新的原理。但是由Scheffee法探查所得的新原理必須進行持續研究以檢查此新原理是否真正有意義。在探索性的數據分析中，往往因為有偽裝的因果關係導致不正確的檢定結果。

由Scheffee法得到的差異性，以此再從事持續隨後性的試驗。新的試驗數據必須以Bonferroni法以進行檢定。因為Bonferroni法對第一型錯誤之敏感性較輕。

4. Bonferroni法

Bouferroni法對α值並不產生擴增，也可以進行複雜性的分析。但是Bonferroni法不適用於探索性的研究分析。研究者必須預先進行各種可能的判別。研究者對於研究主題的基本原理必須具備。因此Bonferroni主要用以確定證實原理。因為此方法有此限制，α值的擴充不顯著。

此方法最大的優點是降低了α值風險。適合用於探索性的研究。但是並不是用來檢定所有的試驗組群。

5. Dunnett法

Dunnett法主要用以進行控制組之試驗設計。對於處理組與控制組的細小差異可以使用此方法加以發現。研究人員以兩組或兩組以上的試驗組與對照組進行比對。以每一個試驗組之平均值與控制組之平均值相比較。其他的檢定方法以每組平均值比較所有數據之平均值。因此Dunnett法比較容易有顯著差異。不同試驗組中，平均值與控制組平均差別愈大者，顯著性愈高。

此Dunnett法的特點是以控制組數據與各試驗組數據互相比對，以檢定其差異性。

五、比較表

每個檢定方法有其特點，綜合比較如表一。

表1 數個多重比較統計技術
統計技術	測試目的	優點	缺點
所有處理成雙進行t檢定	所有處理都加以成對比較，包括Simple,Complex	1. 計算方法簡單。 2. 樣本數目不用之處理也可進行。	1. α值變大。 2. 多重的第一型錯誤。 3. 統計結果不可信賴。
Tukey	對Simple處理群加以比對	1. 在Complex數據群無意義時，對於研究之差異確認性比較十分有用。 2. 許多統計套裝軟體均有此功能。 3. 降低第一型錯誤之風險。 4. 處理之樣本數目不同時，可以採用。	1. 無法測試複雜的比對。 2. 對於降低第二型錯誤的風險，不如其他技術。 3. 對於探索性試驗並不理想。
Newman-Keals	Simple處理群加以比對	1. 比Tukey方法更有檢定效力。 2. 在一些商業軟體可使用。 3. 降低第二型錯誤。 4. 對於微小但是顯著性的差異容易發現。	1. 無法執行複雜比對。 2. 處理之樣本數需要相同。 3. 第一型錯誤之機率大。
Scheffee	所有的處理都可檢定，包括，Simple, Complex	1. 對探索性的數據分析與已發展完成的原理都適合使用。 2. 原始數據加以結合後也可以進行比對。 3. 更具有檢定力。 4. 許多統計軟體均有。 5. 減少第二型錯誤。	1. α值比其他成對比較技術更高。 2. 處理樣本數目必須相同。 3. 對試驗比對的用途不大。 4. 第一型錯誤的機率相當大。
Bonferroni	對選擇性之處理進行比對，包括Simple,Complex	1. α值不擴增 2. 針對控制組與不同之處理組進行比對。 3. 許多統計軟體具有此功能。	1. 處理之樣本數目必須相同。 2. 所有之對照組群由研究者加以定義。 3. 對於探索性的研究無法用。
Dunnett	在ANOVA test顯示有顯著差異時，以對照組與各處理組，或是處理組之結合數據進行測試。	1. 具有高檢定力，尤其微小差異，但是顯著性存在。 2. 針對處理與對照組進行測試，以確定其不同。	1. 許多商用軟體無此功能。 2. 對試驗組群無法進行測試。 3. 對探索性研究並不理想。