「Radiology」之編輯群,在期刊中登載一篇綜合性報告,標題是投稿此期刊最常見的10項統計錯誤。原文刊載於Radiology,2009,253(2):288-290。最常出現於投稿件的統計錯誤與建議如下:
1.
在進行實驗過程,要與統計專家討論。決定試驗設計,樣本所需的數目,數據的型式與數據量測總數目。
2.
確定研究執行時所需要的樣本數目,此數目必須足夠以支持研究所得的結論。因此在研究同時要進行檢定力分析。
有許多研究,其樣本數目都是不足,如果統計結果為顯著,檢定力分析不是強制性。如果統計分析結果為無顯著差別,檢定力分析必須強制進行(Mandatory)。但是如果樣本數目太少,基本上無法針對顯著差異性之分析。因此在試驗進行之前,可以進行初期試驗(Preliminary),再進行檢定力分析。
由於生物的差異性,樣本太少對於母群是沒有代表性。
3.
對於所有的數據進行分析。
許多作者只提供有顯著影響的變數,對於其他數據並未介紹說明。對於多重比較結果,無顯著差別的變數往往未加報導。其實這些結果也包含許多有用的資訊。
4.
在診斷性能研究(diagnostic
performance study),要計算使用族群的正負情況。
許多研究引用文獻的資料,但是只引用「正面」結果部份。由於疏忽了「負面」數據,容易造成低估結果。
5.
使用信賴區間以評估差異性的範圍。
統計的差異性與臨床的差異性並不是相同。在統計上的顯著性往往不足以顯示臨床效果的差異。P值小於0.05,或差異性顯示量測值有1%至2%差異,在統計上為顯著,但是在臨床意義上可能為不重要。因此在評估是否有實際差異,一定要以信賴區間加以表示。
6.
使用統計檢定要考慮群聚效應,一個研究對象要量測數個部位。
如果一個研究對象只量測其一個單位位置,由於生物體個體的差異性,以此型數據往往無法代表整體之差異性。因此一個量測對象要有多點量測數據。
7.
有多個變數需要比較其差異性,需要使用多重比較。
有更多的變數同時進行差異性比較,其「顯著性」的機率就更少。例如同時進行每5個變數比較試驗,則有10個成對比較次數,顯著性之檢定缺乏效力。
8.
了解P值的解釋能力。
P值小於或等於0.5,並不是代表虛無假設有5%的機率為真。真正的解釋如下:如果虛無假設為真,有5%的機率察覺量測數據的極端差異。
9.
相關(correlation)與準確(accuracy)並不相同。
如果新的量測值與原來量測值高度相關,但不代表兩者相同。有篇論文對此描述最為清楚:「Bland
JM, Aluman DG. 1986. Statistical methods for assessing agreement between
two methods of clinical measurement. Lancet 1(8476):307-310。
10. 「Report
on variability in readers」此段文字說明將由Radiology編輯群另篇文章加以表達。 |