在生醫統計之參考文章中,「www.whatisseries.co.uk」出版了一系列論文。這些論文值得從事生醫統計研究者再三研讀。此篇文章。「What
are confidence intervals and p-values?」之內容簡介如下,由此篇文章的內涵可以想像其他文章之功力。
一、概要
1.
對一個處理其影響量的信賴區間計算,是用以顯示此處理真正影響性的範圍。
2.
p值的計算是用以評估試驗的結果,只是單純的機率數值(假設新方法與舊方法無真正不同,而且這些試驗都是在完善規劃下完成)。
3.
信賴區間的判別結果比p值更有意義,信賴區間可以告知真實值可能的影響範圍。
4.
p值只是一個臨界值,用以評估是否「統計的顯著性」通常寫成p<0.05。
5.
如果信賴區代表處理之間無顯著差異,顯示處理組與對照值無顯著性不同。
6.
信賴區間可用以幫助臨床試驗結果數據的解釋能力,以上下限範圍以說明真正的影響。
7.
在信賴區間被用以解釋是否有顯著差異之前,必須先評估偏差值(Bias)。甚至在非常大的樣本數目與非常窄的信賴區間,只要有偏差存在,評估結果都可能誤導。
8.
非顯著性不代表「無影響」。在一些處理真正有顯著影響,但是因為樣本很小,經常被判斷為無顯著影響。
9.
統計上的顯著性並不一定代表此影響是真實存在。有二十分之一的機率使得研究結果為偽證(spurious)。
10.
統計上的顯著並不代表臨床試診真正有意義,有可能是樣本數目之效應影響了此重要性判斷。
二、 假設檢定與p值之產生
假設檢定與p值是相互衍生(Convolute)。如果研究結果發現新的處理方式優於原來的治療方式。研究人員希望瞭解此差異性是真實存在或者只是偶然出現。一些醫學研究長用的影響性量測值如表一。
表一 影響性量測值 |
影響性量測值 |
縮寫 |
描述 |
無影響 |
總成功數 |
Absolute risk
reduction
|
ARR |
[對照組之風險率]減[處理組之風險率]
|
ARR = 0% |
ARR = initial risk |
Relative risk
Reduction
|
RRR |
藉由處理以消除風險之比例,[絕對的風減低量]除以[控制組的最初風險]。以百分率表達。
|
RRR = 0% |
RRR = 100% |
Relative risk
|
RR |
在[處理組中事件的風險]除以[控制組中事件的風險]。以小數點或百分比表示。 |
RR = 1
或
RR= 100%
|
RR = 0 |
Odds ratio |
OR |
在[處理組中事件的機會]除以[在控制組中事件的機會],以小數點表示。
|
OR = 1 |
OR = 0 |
Number needed to treat |
NNT |
在一項研究中需要的樣本(病人)數目,以整數表示。
|
NNT =
∞ |
NNT = 1/(最初風險) |
在計算p值時,首先假設兩個處理並沒有實際差異(稱為虛無假設)。如果此假設是真實(無差別),研究者可以量測數據計算以顯示此差異性之機率。
如果兩個處理無真正的差異性,在研究中觀察值產生之影響其機率稱為p值。如果p值很小,試驗的結果不像是因為機率而產生。因此研究者拒絕原來的假設(無差異)。如果p值很大,代表觀察值之不同只是來自機率,研究者不能拒絕虛無假設,不能拒絕「兩者無差異」之假設。
但是p值要多小?此數值要多小,才可以拒絕兩者無差別之假設。如果p值為0.05則可以認定很小,那麼機率是二十分之一。p值能夠更小,研究者才能宣稱有顯著差異。更小的p值,例如p<0.01,被稱為高度顯著性。因為其機率為百分之一以下。
使用信賴區間的例證如下:雷未普利片(Ramipril)是一種血管集縮素轉換酵素(angiotensin-converting
enzyme,ACE)拒化劑(inhibitor),已被使用於高危險性心血管病害之病人。在New
England Journal的一篇文章介紹以9297個病人進行一項隨機,雙盲,控制試驗。最初之試驗結果如下表:
結果 |
Ramipril群 |
安慰藥劑群 |
相對風險(RR)
(relative
risk) |
|
(n
= 4645) |
(n
= 4652) |
(95%信賴區間) |
|
數目(比例) |
數目(比例) |
|
心血管病例(包含死亡) |
651(14.0) |
826(17.8) |
0.78(0.70-0.86) |
死因非心血管疾病 |
200(4.3) |
192(4.1) |
1.03(0.85-1.26) |
死因為其他因子 |
482(10.4) |
596(12.2) |
0.84(0.75-0.95) |
這些數據顯示以下結果:與使用安慰藥劑族群(17.8%)比較,使用Ramipril族群在心血管病例之比例較低(14.0%),相對風險為0.78,或是相對風險減低率22%。以95%之信賴區間表示,為0.70~0.86。由此信賴區間可得到兩項結論:
1.
此觀察結果在5%信賴水準(Level),顯示為統計性的顯著差異。
2.
此觀察數據最多為30%降低相對風險,或14%最高降低風險。
另外兩項信賴區間,0.84的相對風險其信賴區間為0.75~0.95。與1.0此數值有顯著差異。因此死亡率的降低最大到25%,最小為5%。研究者有95%的機率表示服用Ramipril族群之整體死亡率降低。
上表的最後兩行可用以說明如何以信賴區間顯示無顯著差異。對於非心血管疾病之死亡者,服用Ramipril之死亡率(4.3%)高於服用安慰丸(4.1%)。相對風險為1.03,其信賴區間0.85~1.28,包含1.0,代表無顯著差異。
三、信賴區間與p值
臨床試驗的目的在於發現有效治療的新知識。此種研究工作與其他研究相同,需要對於有興趣的參數進行估計。影響大小(effective
size)就是一個參數。影響大小可以以不同方式進行表示,例如相對風險比率差,絕對風險比例差或試驗需要的數目(NTT),相對量測值等。
無論使用哪一種量測值,對於試驗結果必須進行評估。研究的目的在於發現並且提供一項影響力的點估計,但是引起矛盾。自樣本得到的發現對於其他近似的病人族群是否也是真正的正確?在回答此問題之前,必須清楚瞭解兩種影響。1.
研究過程是否有偏差(bias)。2.
研究的結果是否只是偶然發生。
(一)、偏差(bias)
偏差代表在研究內容中關於設計、執行或解釋所包含的系統性錯誤。
實驗的偏差來源有:
1.
缺乏隨機性,導致試驗族群取樣不公平或是評估有偏差。
2.
盲目試驗不完整,因此處理不公平或是評估有偏差。
3.
試驗過程中,大批病人失去連絡。
在任何試驗進行評估之前,上述偏差來源必須嚴格檢視。醫學研究界已出版許多指引。用以指導研究者如何避免偏差。只有偏差真正被去除,試驗的結果才能有效地解釋。
(二)差異性
任何研究結果,都有可能只是因為機率(chance)。研究結果的差異性有可能是偶然發生。甚至每一個項目都維持常態,仍然有一些任意變異性。因此研究人員必須有其他工具以協助評估新與舊兩種處理方式其差異是否真實存在,或者是其產生只是一種機率。信賴區間與p值即是可以採用的統計工具。
以往評估試驗結果的機率是採用統計檢定,在進行檢定時可以計算p值。p值用以評估試驗的結果與特定的參考值是「顯著不同」或是「無顯著不同」。另一種不同的方式,但是更有用的評估方法則是採用「信賴區間」。p值與信賴區間的計算公式或許不同,但是兩個方法的基本原理是一樣。
信賴區間提供與統計假設不一樣的知識。統計檢定的結果是一個決定(decision),其結果是「顯著差異」或「無顯著差異」。信賴區間是針對觀察結果的影響大小提供一個範圍,以此範圍可以瞭解影響值之範圍大小。
因此信賴區間正式的定義是「對一個有興趣的變數其大小範圍」。這個範圍是包括真實值的範圍。此種特別的機率稱為信賴區間。信賴區間的極端值稱為信賴局限。
通常以95%水準以計算信賴區間,代表有95%的機率此信賴區之範圍涵蓋真實值。此結果與統計檢定95%水準之p值其判斷結果相同。
以口語化的說法,信賴區間提供一個數值範圍,此範圍用以提供研究者推測真實值的影響大小。
以信賴區間評估是否有顯著性。如果信賴區間範圍包含了一個特別值,則代表此試驗之差異並非有顯著性不同。如果信賴區間並未包含某一特定值,代表此處理有顯著差異。而且信賴區可以顯示最大與最小值的影響性。
除了進行統計檢定,信賴區間比統計檢定(p值)能夠提供更多的知識。信賴區間的最大值(上限)與最小值(下限)提供了真正影響力是多大或多小。此信賴區間之範圍又提供一些有用的知識。如果信賴區間很窄,代表影響大小只是很小的範圍。因此檢定如果與此範圍相距很遠,此統計檢定則十分精確。如果信賴範圍相當大,對影響性的範圍十分廣泛,此檢定的準確性則相當小。因此其檢定力(power)也相當小。
(三)錯誤的解釋
以信賴區間與p值的數值進行統計檢定,常見的錯誤解釋如下:
1.
影響性並非真實
以信賴區間或p值得到試驗結果為「統計性顯著」。研究人員則進行結論,認為兩種處理為顯著不同。然而5%水準另一個說法是二十次即有一次的機率代表此發現是偽造不真。此錯誤稱為第一型錯誤。尤其在進行多次檢定時,此種第一型的錯誤其發生機率更大。在臨床試驗中,如果只有調查一或兩個次族群,此顯著差異更是難以置信,這種顯著性可能是騙人。
2.
統計顯著與臨床顯著
統計的顯著性只是代表此試驗研究的結果,來自其新舊方法的數據,有否顯著不同。對於新法與舊法的統計結論是不相等(有統計顯著)並不見得代表臨床一定有顯著差異。如果差異性十分小,必須進行更大型的試驗。因此影響性大小(effect
size)都要加入考量。
3.
對真實影響沒有發現
「非顯著」不等於「無影響」。
一個非顯著影響的信賴區間只是告訴研究者,兩者處理無真正差異。但是如果有真實差異而未發現,此稱為第二型錯誤。因此信賴區間值比p值在此更有意義。對於兩組比較,可由其信賴區間進行比對。
4.
試驗結果外插解釋
對試驗結果其差異性很大,足以證明顯著之存在。但是研究者仍要面對以下問題:這些結果應用於其他族群效果將是如何?或是只是適用這些試驗族群。
四、結論
信賴區間與p值之統計檢定結果是相同。但是信賴區間的上下值可告知真正的影響是多大或是多小?此種知識可協助研究人員解釋顯著或非顯著性之範圍。大型的研究,其信賴區間相對是範圍小,表示試驗結果愈加精確。相反地,小型試驗其信賴區間範圍廣,顯示不精確。
|