此篇來自一個特別的國家期刊,Croatia所發行的「Biochemia
Medica」,2009,19(c3):294-300。文章篇名為「Statistical
errors in manuscripts submitted to Biochemia Medica」。此期刊以兩個語言並列,包括Croatia與English。
一、緒論
生物統計學在科學性的生化醫學期刊,已被接受做為一種有用的分析工具,用以了解與分析數據。不適當的使用統計方法,將引起嚴重的問題,可能導致扭曲錯誤的結果,得到不正確的結論以及浪費研究資源。許多醫學期刊不幸地都存在一些統計錯誤。
為了避免或是減少這些統計錯誤,許多學術期刊開始引進審慎的統計審查流程,甚至編輯群包括統計學家。期刊的投稿指引也包括研究方法學、研究設計、數據的分析與報導。這些措施對於論文品質有所改進,但是醫學期刊仍然存在著錯誤的統計分析技術。
Biochemia Medica自1991年開始發行,為一份臨床化學研究期刊。為了增進此期刊之品質,自2006年,期刊刊載一系列關於統計分析技術的文章。此篇文章則針對2006-2009年投稿於Biochemia
Medica之文章,針對其經常發生的統計錯誤進行分析。這些統計錯誤都經過統計審查,所有的統計錯誤都已經更正之後,這些文章才得到出版。
二、研究方法
投稿於期刊的研究論文,經過嚴謹的審查,發現其常出現的錯誤與其發生比例介紹如下:
1.
敘述統計不正確的使用或是不正確的描述,35%
2.
統計方法選擇不正確,62%
3.
使用不正確的方法比較三組或更多組的數據群,75%
4.
不正確的表達P值,66%
5.
不正確的解釋P值,22%
6.
不正確的解釋相關分析,20%
7.
並未進行檢定力分析(Power
analysis),100%
三、使用軟體
此研究用以進行統計分析的軟體為Medcalc
statistical software(Medcalc
9.3.0.0, Frank Schoonjcns, Mariakerke, Belgium)。
四、結果
在所有論文稿件,100%沒有進行檢定性分析。55篇論文有34篇(62%)不正確的使用統計方法。主要錯誤在於1.在樣本數目太少,或是樣本分佈非常態分時,並未採用非參數檢定。2.樣本為成對出現,並未使用成對檢定(Paired
test)。3.在low
cell frequency情況下,未使用Fisher
exact test取代卡方檢定。
不正確的使用或是不正確的表現敘述統計,主要的錯誤包括:1.在樣本太少或是非常態分佈時,誤用平均值與標準差,而不是採用均數,與四分數(median,
interquartile range)。2.未使用樣本平均標準差以表示樣本數據之差異。
五、討論
不正確的統計方法導致不正確的統計結論文獻上經常發現。
藉由適當的試驗設計與檢定力分析,才能檢查虛無假設是否違反。對試驗分析而言,必須藉由檢定力分析以探討試驗需要的最少樣本數目。通常樣本數目愈大,取樣誤差愈小。取樣誤差在許多生醫文獻中都容易發現。正確與適當的取樣對於試驗的有效性是預先條件。如果研究的樣本無法代表母群,使用歸納統計則無效果。此期刊之論文都未曾進行檢定性分析,顯示論文內容還有許多改善空間。
統計方法的不正確選用也是錯誤的主要原因。以統計方法進行檢定之前,必須先行檢定此數據群是否合乎統計方法的假設條件。這些假設條件與數據的分佈特性相關,包括量測值大小、樣本數目,分組數目等。例如ANOVA檢定是用以比較多重、相互獨立的群組。非參數Kruskul-Wallis檢定用以非常態分佈之樣本。
在此研究結果,有三分之二以上的期刊對P值並未正確的表示。所有差異性檢定之確定P值都應該列出。其數值至小數點第三位,例如P
= 0.048。以P
< 0.05是不恰當。其他不適當的寫法包括P
= NS,P
> 0.05,
P < 0.05。P值不應該以太多的小數位加以表示,例如P
< 0.00001。
只有以P值為唯一判別標準,也是十分危險。族群間差異絕對值與信賴區間都應該列舉表示。差異值太少,在統計上或許有顯著差異,但是實質上並無意義。如果樣本數相當多,在臨床醫學有顯著差異性,但是可能無顯著統計差異。如果樣本太少,要說明臨床研究上是否有顯著差異。以一篇研究的結果說明如下:「Though
statistically significant , differences in plasma cholesterol
(P =
0.001)HDC-Cholesterol
(P
< 0.001),
apolipoprotein A(P
< 0.001)
and triatylglycerol(P
= 0.002)concentrations
between normal, overweight and obese patients were clinically irrelevant」。
另一種經常性的錯誤在於錯誤的數據表現。有33%的論文出現的數據。對於母群的標準差與樣本的標準偏差,兩者的混用與誤用。
相關分析的錯誤使用也經常發生:
1.
參數Pearson檢定的誤用,尤其在假設條件不成立。
2.
相關分析之r值與其相關之統計顯著性P解釋不正確。
3.
迴歸的擬合線(fitting
line)超過數據分佈範圍。
4.
以相關分析推論何者為因(independent
variable)與果(dependent
variable)。
相關分析最常見的錯誤在於其假設條件。兩個變數(x,y)必須為數值數據,其中一個變數必須為常態分佈。樣本要足夠多,以數據散佈圖或是殘差圖為定性分佈。如果上述條件不存在,必須採用Spearman相關研究。
此篇論文無法列舉所有生化醫學論文所有的錯誤。其他統計常見的錯誤包括多重假設檢定的錯誤、數據圖形的表達錯誤、數據遺失之補救、迴歸分析與離差點(outliers)之錯誤等。
從事生化醫學研究者,要加強重視統計技術,以避免研究上的錯誤。 |