資料來源:
https://doi.org/10.3390/app10113885
摘要
數據分析方法已成為實證研究論文的重要組成部分,尤其是在健康科學和醫學研究方面。醫學文章在其統計報告中存在值得注意百分比的缺陷。報告的統計問題一直是一個長期問題。儘管不斷努力改善這種情況,但改善遠非令人滿意。有一種解釋是同行評審期間對統計報告的評估不充分。本文提出了一種簡短的工具,評估稿件和已發表論文中數據分析報告的品質。方法是通過從以前關於醫學期刊統計報告品質的報告,以及已發布的報告,和數據呈現指南中選擇和改進項目。在此開發了一種清單類型的工具。
I.材料和方法部分
材料和方法部分中統計分析(或數據分析)小節:
1.是否包括統計分析小節?
2.研究前是否有樣本數量證明?
3.作者是否說明了如何描述和總結變數?
3.作者是否說明了使用哪些方法來評估統計的顯著性?
4.作者是否確定了每個分析的變數,並提到了所有使用的統計方法?
5.是否提供了對於一些特定程序的擴展描述?
6.作者是否驗證了數據是否符合所用方法的假設?
7.是否報告了統計軟體?
8.丟失的數據是否得到解決?
10.是否提供對統計的參考文獻?
11.是否解決了研究主題流失或被排除問題?
12.在分析中任何異常數據如何處理?
數據呈現:
1.是否具有一個表格,對於研究對象的基本特徵用描述性統計數據進行了總結?
2.是否在所有表格和圖中,報告了每次分析的總樣本量和每組樣本量?
3.是否所有表格和圖表,都有清晰且不言自明的標題?
4.是否在所有表格和圖中,都解釋了統計縮寫?
5.是否在所有表格和圖中,識別和命名了總結統計數據、測試或方法?
6.是否正確報告了
p 值(例如,沒有類似 NS、p <
0.05、p = 0.000 的表達方式)
7.表格和圖中報告的
p 值和信賴區間的總數是否少於 100?
8.所有的表格和數字都合適嗎?
評估統計報告和數據呈現品質的十項要點
第 1
項:表格是否包含用描述性統計,總結研究對象的基本特徵?
大多數報告醫療保健和醫療數據分析的報告論文,在某些時候會使用統計數據來描述研究參與者的社會人口特徵、病史和主要結果變數。這樣做的重要動機是讓讀者了解研究結果,在多大程度上可以推廣到他們自己的當地情況。產生描述性統計是一件簡單的事情,但作者通常需要決定要呈現哪些統計數據。選定的統計數據應以讀者易於理解的方式包含在論文中。當描述許多患者特徵時,最好將所使用的統計數據的詳細資訊,和參與分析的參與者數量結合在表格中。
第 2
項:所有表格和圖表中是否提供了參與者總數目?
醫學文獻顯示出強調顯著性檢驗的一種強烈趨勢,特別是“具有統計學意義”的結果。大多數發表在醫學期刊上的論文都包含報告
p
值的表格和圖表。尋查統計顯著或不顯著的結果取決於樣本量。在評估研究結果的有效性時,讀者必須知道研究參與者的數量。樣本量是研究的一個重要考慮因素。更大的樣本量會導致更高水準的精確度,因此對於給定研究檢定給定大小的影響的能力水準更高。即使沒有臨床實用性,過多的研究參與者也可能導致具有統計學意義的結果;少數研究參與者可能無法顯示重要且具有臨床意義的差異。應清楚地報告每組的參與者總數或樣本量。
第 3
項:是否在所有表格和圖表中識別和命名匯總統計數據、測試和方法?
表格和數字應該能夠獨立存在。也就是說,解釋所需的所有資訊,都應包含在表格或圖形、圖例或註釋中。這代表著所使用的描述性統計、顯著性檢驗和多變數建模方法都已命名。許多讀者在仔細閱讀之前會略讀文章,並在表格或圖中識別數據分析方法,將可使讀者立即理解程序。不必定義眾所周知的統計縮寫。例如
SD、SE、OR、RR、HR、CI、r、R2、n
或 NA。但應命名產生這些統計數據的方法。
第 4
項:表格和數字是否準備充分?
高品質的表格和圖表,增加了讀者利用文章結果的機會。在有效的科學寫作中,必須確保表格和圖表完美無缺、資訊豐富而且有吸引力。下面列出了一些可能會妨礙讀者快速掌握資訊,並降低數據呈現的整體品質問題。
一、數據的整體技術呈現混亂、劣質或不合格。
1.表格或圖形沒有明確的標題。
2.表格的格式類似於電子表格。每行和每列之間的行距大小相同大。無助於澄清表格中呈現的不同數據。
3.在圖中,數據數值不清晰可見。
4.數據數值未定義。
5.呈現的數字或數據元素存在明顯錯誤。
二、表格或圖表包含不必要的功能
1.圖中,非數據元素(網格線、陰影或三維透視圖)與數據元素競爭空間,它們在圖中沒有提供特定的解釋功能。
2.表格或數字是不必要的,因為數據的數值太少。作者可以用一兩句話清楚地展示他們的結果。句子比餅圖更受歡迎。
三、未遵循報告統計結果的一般指導原則:
1. p
值在表格或圖中用星號或字母系統表示,實際的
p 值未報告。在可行的情況下,應報告實際的 p
值,不要出現錯誤的精確度。提供實際 p 值可防止與接近
0.05 的 p 值相關的解釋問題。非常小的
p 值不需要精確表示,p < 0.001 通常就足夠了。
2.表格中沒有以適當的精確度報告數字。在解釋研究結果時,讀者不能注意使用幾位小數表示的數字。
3.以平均值的標準誤差
(SE) 用於指示數據的變異性。
4.在迴歸分析或巨量分析中,沒有報告信賴區間和效應大小(迴歸係數、OR、HR
或 IRR)。主要比較的結果應該始終與信賴區間一起報告。
5.一個表只包含
p 值。 p
值不能告訴讀者影響、變化或關係強度或大小。最後患者和醫生想知道實際的益處、變化或關聯的大小,而不是單個研究的統計意義。
第 5
項:方法部分是否提供了統計分析(或數據分析)此小節?
大多數一般報告指南和建議都要求原始研究文章包括方法部分。在這些建議中,指出在方法部分的目標應該是足夠詳細,以便其他有權訪問數據的人能夠重現研究結果。本節應至少包括以下小節:參與者的選擇和描述、有關變數(主要和次要結果、解釋變數、其他變數)的技術資訊和統計方法。對許多研究人員來說,當稿件包含一些統計數據分析的元素時似乎很明顯,應該在材料和方法部分提供一個帶有明確子標題的統計分析(或數據分析)小節。然而,根據我的經驗,這個要求對於所有生物醫學或健康科學研究人員來說並不明顯。我已經為期刊審查了幾篇生物醫學稿件,其中深入描述了實驗室實驗,但沒有提及如何獲得報告的
p 值。當統計分析小節中對統計方法進行了足夠詳細的描述時,知識淵博的讀者可以判斷研究方法的適當性,並驗證報告的方法。
第 6
項:作者是否確定了每個分析的變數和方法?
作者非常了解自己的工作,以至於有些人發現自己第一次接觸該研究論文很難理解。作為一名讀者,經常要求作者提供有關數據分析某些方面的更多資訊。在統計分析部分,作者需要解釋每種分析使用了哪些統計方法或測試,而不是僅僅在一個地方列出所有使用的統計方法。良好的統計分析小節中,作者還應確定每次分析中使用的變數。應告知讀者每種方法分析了哪些變數。必須注意確保列出所有方法,並且所有列出測試確實應用於研究。統計部分應與結果部分一致。
第 7
項:數據是否符合分析方法的假設和前提條件?
所有基本的數據分析方法和多變數技術,都依賴於對數據特徵的假設。如果在不滿足假設的情況下進行分析,則可能會根據錯誤的結果,得出錯誤的結論。例如,廣泛應用的變異數分析至少取決於三個假設。在實際數據分析中,不可能滿足變異數分析的所有假設。一些統計假設是必不可少的,而一些假設則相當寬鬆。主要變數的常態分佈是許多統計技術中的一項強烈要求,應予以驗證和報告。另一方面,應該證明使用非參數顯著性檢驗而不是使用更強大的參數檢驗是合理的。如果提供了簡要的理由,讀者可能會更好地理解為什麼應用了特定的數據分析方法。迴歸建模有幾個約束或先決條件,例如線性、解釋變數之間的獨立性,以及每個變數的參與者數量。在對多變數方法的描述中,作者應該描述可能的限制或前提條件。
第 8
項:是否提供了對統計文獻的參考?
研究中所有統計方法的使用都需要用相關描述記錄下來,以幫助讀者驗證作者描述的發現。參考文獻使其他人能夠識別和跟踪數據分析中使用的方法。常見的統計方法可以簡單描述,但一些不太常見或晦澀難懂的方法,也應該詳細解釋。國際醫學期刊編輯委員會
(ICMJE)
也指示參考已建立的方法。良好的科學寫作包括對已發表但不為人所知或不常用的方法的參考和簡要描述,對新方法或實質性修改方法的描述,為何使用不常用方法的原因,以及對方法局限性的評估。
第 9
項:是否報告了分析中使用的統計軟體?
識別數據分析中使用的統計套裝軟體很重要,因為並非所有統計程序都使用相同的演算法或默認選項來計算相同的統計數據。因此發現可能因軟體套件或演算法而異。此外私人開發的演算法可能無法驗證和更新。 |