資料來源:
The
Correct Interpretation of Confidence Intervals
Sze
Huey Tan1,2, MSc, BEng, Say Beng Tan1,2,3, PhD
CStat
1Division
of Clinical Trials & Epidemiological Sciences, National Cancer Centre
Singapore
2Centre
for Quantitative Medicine, Duke-NUS Graduate Medical School, Singapore
3Singapore
Clinical Research Institute
Proceedings of Singapore Healthcare 19:3, 2010 276-278
信賴區間(CI)是許多統計分析關鍵輸出,並在參數估計的解釋中發揮關鍵作用。儘管它們很常用,但CI經常被誤解和錯誤解釋。在本文,將討論CI應該如何正確被解釋,也突出與他們一些常見的誤解。
信賴之間的關係區間和p值
CI和p值密切相關,儘管它們提供不同的資訊。而p值是假設檢定的結果,並表明樣本數據是否足夠拒絕原假設的證據。例如是否觀察到的2個處理之間的差異,是因為這兩種處理方法確實不同檢定力水準,或者是否是由於隨機機會。CI描述了我們估計的不確定性。簡單地說,CI表示是否估計值是一個精確的數值或只是一個非常“粗略”的估計。例如,如果研究的目標是測試兩組人之間的血壓其收縮壓是否有差異,p值僅說明兩組之間的收縮壓,是否存在統計上的“顯著性”或統計上的“非顯著”差異。
不同的是它沒有提供對此的估計。為了得到這樣的估計,我們需要計算收縮期血液的平均差壓力,以及相關的CI。它告訴我們這個估計值有多精確(即有多“好”)預測母群水準。更窄的CI將表示更精確的估計,而更廣泛的CI表示不太精確的估計。
如果兩者之間的差異的95% CI
groups包含值0,這代表著p值將大於0.05。相反,如果95%CI不包含值0,則p值將嚴格小於0.05。相同適用於使用比率比較組時,例如優勢比或風險比。當使用一個RATIO而不是DIFFERENCE,沒有差異的情況將顯示兩組之間的差異由1而不是0的值。如果比率等於1、兩組相等。因此,如果95%CI比率包含值1,p值將是大於0.05。或者,如果95%CI不包含值1,p值嚴格小於大於0.05。
信賴區間的許多值以及如何計算信賴間隔
CI可以表示為90%CI、95%CI、99%CI或任何百分比(0%到100%之間)CI。雖然95%CI是最在許多應用中,選擇是否使用90%或95%CI有點武斷,並且取決於程度調查員的希望在他或她的估計中傳達的“自信”。
CI的計算方法取決於感興趣的估計值(平均值,中位數,比例,優勢比等)。通常,CI為一個平均值的表達式是:
[(樣本均值)–(常數)x(SEM)]至[(樣本平均值)+(常數)x(SEM)])
其中“常數”取值2.58、1.96和1.64取決於我們是否使用99%、95%和90%CI分別,SEM是標準均值誤差。對於單項研究,可以計算90%CI,95%CI和99%CI,它們的區別在於它們的寬度,90%CI的寬度更窄於99%CI。使用100個人的假設數據,收縮壓的觀察平均值123mmHg,相應的90%CI,95%CI和99%CI為(117.7至128.4),(116.6至129.5)和(114.5到131.6)分別。如圖所示,90%CI的寬度小於99%CI。除了信賴水準的選擇,CI的寬度數量也與研究的樣本量有關。較大的研究樣本量將給出較窄的CI。
使用相同的例子,如果研究樣本量從100個觀察值增加到1,000個觀察值,則相應的95%CI將是(121.4到126.5),比有100個觀測值樣品的95%CI窄(116.6到129.5)。
對真實信賴區間含義的常見誤解
關於CI的一個常見誤解是假設95%CI(A到B),則有95%的概率真實的總體均值介於A和B之間。這是對95%CI的錯誤解釋,因為真實總體平均值是一個固定的未知值,100%確定位於CI內部或外部。
作為一個例子,讓我們假設我們知道真實人群平均收縮壓是120mmHg。進行的一項研究得到了一個平均值收縮壓為105mmHg,95%CI為(95.5至118.9
mmHg)。已知道真實的母群平均值為120mmHg,真正的總體平均值位於95%CI(95.5至118.9mmHg),顯示有95%的概率是不正確的。量測總體平均值位於95%CI(95.5至118.9mmHg)。我們確信計算的95%CI不包含真實的母群平均數。95%CI僅僅代表著如果該研究進行了多次(多次從同一人群中抽樣),平均值對應的95%CI,是我們預計95%的CI包含真實的母群平均數。圖1說明了這個概念。
圖1.
對於一項使用20種不同方法,來自人群的樣本進行20次的研究。20個95%CI中,有19(95%)次建立的包含真實的母群平均數。請注意,95%CI的空心圓圈不包含真實的母群。因此每個CI不是包含,就是不包含真實的總體均值。
重疊信賴區間比較組時常見的誤解
另一個常見的誤解發生在比較對結果的解釋。兩組的母群是指使用他們的95%CI。
圖2
它經常被誤解: 如果一組95%CI剛好觸及另一組的95%CI下限(如圖2所示,兩者之間的差異的p值組為0.05。與預期相反,差異值上對應的p值兩組之間不是0.05。事實上,如果兩個組樣本大小至少為10,p值大約為0.01並且誤差範圍不相差超過2倍。誤差是樣本估計的範圍(實心方塊)到CI的上限或下限為如圖2所示。即使CI重疊稍微,p值可能仍小於0.05。
因此,僅僅因為兩個95%的CI重疊,它確實不一定暗示統計兩組之間上沒有顯著差異。使用一組假設數據的例子,兩個處理組的收縮期血壓的平均值和相應的95%CI各為123mmHg(95%CI:116.6至129.5mmHg)和135mmHg(95%CI:126.6至142.6mmHg)。如所見,兩個CI略有重疊,可能很誘人得出在兩次處理之間的收縮壓沒有顯著差異的結論。然而,這作為正式的T檢定是不正確。兩組95%CI之間的差異將給出和95%的p值為0.03,CI為(1.4至21.8mmHg),其中不包括值0。兩組是否不同,使用CI的更好方法判斷是計算兩組之間差異的95%CI,看看是否包括值。
信賴區間包含關鍵資訊對許多人的正確解釋是必要的統計分析。因此有必要了解並將信賴區間正確解釋為不這樣做可能會導致不正確或得出的誤導性結論。 |