生化醫學期刊的一些統計錯誤

最新消息 :

數字分析 - 中國於非洲農業報導之破解

生醫研究之統計方法

生化醫學期刊的一些統計錯誤

中興大學生物系統工程研究室陳加忠

此篇來自一個特別的國家期刊，Croatia所發行的「Biochemia Medica」，2009,19(c3)：294-300。文章篇名為「Statistical errors in manuscripts submitted to Biochemia Medica」。此期刊以兩個語言並列，包括Croatia與English。

一、緒論

生物統計學在科學性的生化醫學期刊，已被接受做為一種有用的分析工具，用以了解與分析數據。不適當的使用統計方法，將引起嚴重的問題，可能導致扭曲錯誤的結果，得到不正確的結論以及浪費研究資源。許多醫學期刊不幸地都存在一些統計錯誤。

為了避免或是減少這些統計錯誤，許多學術期刊開始引進審慎的統計審查流程，甚至編輯群包括統計學家。期刊的投稿指引也包括研究方法學、研究設計、數據的分析與報導。這些措施對於論文品質有所改進，但是醫學期刊仍然存在著錯誤的統計分析技術。

Biochemia Medica自1991年開始發行，為一份臨床化學研究期刊。為了增進此期刊之品質，自2006年，期刊刊載一系列關於統計分析技術的文章。此篇文章則針對2006-2009年投稿於Biochemia Medica之文章，針對其經常發生的統計錯誤進行分析。這些統計錯誤都經過統計審查，所有的統計錯誤都已經更正之後，這些文章才得到出版。

二、研究方法

投稿於期刊的研究論文，經過嚴謹的審查，發現其常出現的錯誤與其發生比例介紹如下：

1. 敘述統計不正確的使用或是不正確的描述，35%

2. 統計方法選擇不正確，62%

3. 使用不正確的方法比較三組或更多組的數據群，75%

4. 不正確的表達P值，66%

5. 不正確的解釋P值，22%

6. 不正確的解釋相關分析，20%

7. 並未進行檢定力分析（Power analysis），100%

三、使用軟體

此研究用以進行統計分析的軟體為Medcalc statistical software（Medcalc 9.3.0.0, Frank Schoonjcns, Mariakerke, Belgium）。

四、結果

在所有論文稿件，100%沒有進行檢定性分析。55篇論文有34篇（62%）不正確的使用統計方法。主要錯誤在於1.在樣本數目太少，或是樣本分佈非常態分時，並未採用非參數檢定。2.樣本為成對出現，並未使用成對檢定（Paired test）。3.在low cell frequency情況下，未使用Fisher exact test取代卡方檢定。

不正確的使用或是不正確的表現敘述統計，主要的錯誤包括：1.在樣本太少或是非常態分佈時，誤用平均值與標準差，而不是採用均數，與四分數（median, interquartile range）。2.未使用樣本平均標準差以表示樣本數據之差異。

五、討論

不正確的統計方法導致不正確的統計結論文獻上經常發現。

藉由適當的試驗設計與檢定力分析，才能檢查虛無假設是否違反。對試驗分析而言，必須藉由檢定力分析以探討試驗需要的最少樣本數目。通常樣本數目愈大，取樣誤差愈小。取樣誤差在許多生醫文獻中都容易發現。正確與適當的取樣對於試驗的有效性是預先條件。如果研究的樣本無法代表母群，使用歸納統計則無效果。此期刊之論文都未曾進行檢定性分析，顯示論文內容還有許多改善空間。

統計方法的不正確選用也是錯誤的主要原因。以統計方法進行檢定之前，必須先行檢定此數據群是否合乎統計方法的假設條件。這些假設條件與數據的分佈特性相關，包括量測值大小、樣本數目，分組數目等。例如ANOVA檢定是用以比較多重、相互獨立的群組。非參數Kruskul-Wallis檢定用以非常態分佈之樣本。

在此研究結果，有三分之二以上的期刊對P值並未正確的表示。所有差異性檢定之確定P值都應該列出。其數值至小數點第三位，例如P = 0.048。以P < 0.05是不恰當。其他不適當的寫法包括P = NS，P > 0.05， P < 0.05。P值不應該以太多的小數位加以表示，例如P < 0.00001。

只有以P值為唯一判別標準，也是十分危險。族群間差異絕對值與信賴區間都應該列舉表示。差異值太少，在統計上或許有顯著差異，但是實質上並無意義。如果樣本數相當多，在臨床醫學有顯著差異性，但是可能無顯著統計差異。如果樣本太少，要說明臨床研究上是否有顯著差異。以一篇研究的結果說明如下：「Though statistically significant , differences in plasma cholesterol （P = 0.001）HDC-Cholesterol （P < 0.001）, apolipoprotein A（P < 0.001） and triatylglycerol（P = 0.002）concentrations between normal, overweight and obese patients were clinically irrelevant」。

另一種經常性的錯誤在於錯誤的數據表現。有33%的論文出現的數據。對於母群的標準差與樣本的標準偏差，兩者的混用與誤用。

相關分析的錯誤使用也經常發生：

1. 參數Pearson檢定的誤用，尤其在假設條件不成立。

2. 相關分析之r值與其相關之統計顯著性P解釋不正確。

3. 迴歸的擬合線（fitting line）超過數據分佈範圍。

4. 以相關分析推論何者為因（independent variable）與果（dependent variable）。

相關分析最常見的錯誤在於其假設條件。兩個變數（x,y）必須為數值數據，其中一個變數必須為常態分佈。樣本要足夠多，以數據散佈圖或是殘差圖為定性分佈。如果上述條件不存在，必須採用Spearman相關研究。

此篇論文無法列舉所有生化醫學論文所有的錯誤。其他統計常見的錯誤包括多重假設檢定的錯誤、數據圖形的表達錯誤、數據遺失之補救、迴歸分析與離差點（outliers）之錯誤等。

從事生化醫學研究者，要加強重視統計技術，以避免研究上的錯誤。