COVID-19研究與生物統計學的品質

Michal Ordak
Arch Med Sci. 2022; 18(1): 257–259.
Published online 2021 Dec 8. doi: 10.5114/aoms/144644
摘要

介紹：不幸的是，近年來觀察到醫學統計分析的品質低下。事實證明這COVID-19也適用於此主題。

方法：該研究包括 2020年初至 2021年6月期間，發表的 2600篇醫學文章，其中作者描述了獲得的結果，都與 COVID-19 相關。

結果：在所分析的文章中，39% 的文章所進行的統計分析是正確的。

結論：應該更加強調作者對 COVID-19各個方面的貢獻，進行統計審查。

全球 COVID-19 大流行在全球範圍內引發了健康問題。近年來，世界各地都觀察到濫用統計分析導致有缺陷或不準確的結論。 2019 年在馬來西亞舉行的國際統計大會上提到，被接受的醫學文章中，只有 40%統計是正確的。事實證明，這也適用於有關 COVID-19 的文章。

該分析包括 2020 年初至 2021 年 6 月期間，發表的關於 COVID-19 醫學（整體生活品質、醫學/藥理學方法）的 2600 篇文章。以PubMed 和 Scopus 等國際數據庫以查找關於COVID-19的醫學論文。為了進行分析，我們考慮了發表在影響因子高達 15 的期刊上的文章。其中超過 95%的文章，最大影響因子為 10。分析每篇文章的統計正確性，即與所執行分析相關的所有方面問題。它包括選擇適當的統計檢定（包括檢查他們的假設），以及正確解釋和記錄所獲得的結果（包括所使用適當的描述性統計）。在評估過程中，還考慮了其他因素。例如對分析變數的描述、使用的統計軟體、適當的樣本量以及考慮可能的數據差距。對結果的不正確分析，並在討論中提及這些不正確分析，這導致其文章被視為統計分析不正確的文章。例如統計檢定的錯誤選擇、未能滿足許多統計檢定的假設，結果可見但是作者未加描述等。

首先，在 2600篇關於 COVID-19 醫學方面的分析出版物中，只有 39%（n = 1014；未發表）在統計上是正確的。這樣甚至會導致了關於 COVID-19 各方面的模棱兩可的結果，而這並不是我們所有人所期望的。最常見的錯誤包括使用不充分的統計檢定（包括參數等值，儘管未實現假設），以及錯誤估計或低估測試樣本的正確大小。作者在稿件中使用的更高級的統計分析應該由有經驗的人或例如統計審查人員進行審查 [4,5] 。

下面的第一個表僅顯示了作者們在發表與 COVID-19 各個方面相關的研究結果時，所犯的基本統計錯誤。

作者 COVID-19 發表的文章中的基本統計錯誤（n = 2 6 0 0）	例子	建議審稿人/編輯在審稿時需要考慮與指導
沒有關於用於統計分析的軟體的資訊	僅以2句關於所用統計檢定，沒有關於所用軟體的資訊。	提供所用統計軟體的詳細資訊。
對所用統計檢定的粗略、可疑的描描述	像這樣的單一描述：“稿件使用學生的 t 檢定和 Pearson 的相關分析”	包括對所用統計檢定的詳細描述。具體目的和對於選擇單個統計檢定的充分解釋
統計檢定選擇不正確和結果解釋不正確	儘管有許多可見的未實現的假設（組規模非常小、常態分佈的干擾、變異數的異質性等），但仍使用統計檢定的參數等價物。儘管預測變數具有很強的相關性，但仍使用迴歸分析。將相關性解釋為因果關係	注意分佈的常態性（高斯分佈）、組的相等性（χ2）、分析變數的類型、變異數的同質性（Levene檢定）等因素。
結果中沒有關於在何處以及應用了哪個統計檢定的資訊。結果與所呈現結果的品質有疑問	使用的各種統計檢定的一般描述，獲得的結果包括許多表格，其中不知道作者如何分析各個參數	深入檢查作者是否在獲得的結果中，指出他們在何處，以及使用什麼進行統計檢定
以不同的方式表現p值	不同型式描述，例如以p< 0.05準時和另一時間的風格在稿件中寫作，例如p= 0.03。	應用獲得結果的一致性
未按照科學標準記錄統計檢定結果	以p = 0.04樣式表示變異數分析的結果	按科系標準記錄統計檢定結果，而不僅僅是 p 值
對異常值的有效解釋	在迴歸中不包括異常值	需要/懷疑時注意異常值/極端值情況。例如在散點圖中
未說明樣本數目的變化	缺失數據	檢查作者是否描述了任何可能的缺失數據
未能在分析中，考慮可能影響所得結果的各種因素	在分析中包括數百名患有 COVID-19 的女性和男性，而分析並未反映性別此因素	在評論文章中查看作者是否考慮了性別、年齡、合併症等必要因素。
描述性統計的使用，過於膚淺	在文章中僅放置平均值，而沒有與給定研究相關的其他描述性統計數據	注意稿件中包含的描述性統計數據，即針對所進行的特定研究量身定制的統計數據（中位數、標準差等）
其他	沒有關於參與者的數據、樣本量不足、變數列表不可讀、沒有明確的基線人口統計和臨床參數	驗證作者是否描述了諸如選擇樣本量的方法、測試/對照組的描述、分析變數列表、效果大小（例如 eta-squared、Cohen's）等方面數據。

其次，由於有關 COVID-19 數據不連貫而撤回文章，也應該適用於著名的國際期刊。這種情況的結果之一是資訊混亂，這破壞了對可靠資訊來源的信任，並影響了針對 COVID-19 的疫苗接種方法。在一項針對 3480 名非醫學生的研究中，其中 75%（n = 2.610；未發表）表示，由於這種情況，他們對發表在著名期刊上的 COVID-19 研究結果的信心顯著下降。

第三，多年來可以看出，由於年輕的研究人員希望在排名期刊上發表他們的文章，經常犯統計欺詐行為。例如，一項針對 14,000 名在各個醫學領域工作的人（包括醫生、研究生、博士生、博士和教授）進行的研究表明，多達 76% 的受訪者表示，他們不知道第一類累積誤差是什麼。 46% 的人承認他們經常進行幾次或十幾次 t 檢定，而不是進行變異數分析。雖然其中 10% 的人由於缺乏統計知識而這樣做，但其他人則是因為希望增加獲得統計顯著結果的機會。

不幸的是，這同樣適用於分析COVID-19 獲得的結果。研究人員處理這個問題是因為它現在是熱門話題，因此他們認為即使他們的分析不正確，他們也有機會為發表的文章獲得學術積分。不幸的是，他們這樣做不僅不能改善 COVID-19 患者的生活品質，反而會損害他們的利益。在我於 2020 年對一組 550 名從事科學工作的精神科醫生進行的一項示範性研究中，其中 48%（n = 264；未發表）開始研究 COVID-19，並解釋說這是一個熱門問題。因此他們將能夠更快地發布獲得的結果。眾所周知，這對研究單位的運作中有重要作用。不幸的是，有問題的速度可能會導致發表統計分析不正確的科學文章。這可能與激勵員工進行科學研究的因素有關。這是由於競爭壓力、機構、地區和國家認可，以及經濟報酬。

在富裕國家（例如 UE、美國）對感染的最佳化保護，以及不幫助低收入國家接種疫苗將導致長期大流行。醫學期刊的編輯應該更加注意驗證作者的統計分析。擁有統計審稿人或統計編輯對於生物醫學期刊十分重要。在PLoS One 上發表的一篇文章的作者指出，迫切需要改進統計教育。對提交的文稿的實質性評估顯然是不夠的。我們將不得不長期面對這種流行病，一方面是因為研究人員沒有遵守嚴格的統計數據，還因為很大一部分普通人沒有遵守具體的預防措施人口。

總之，提交給期刊的有關 COVID-19 各個方面的結果，應接受徹底的統計審查。