張斌、蔡雅雯
近幾年學術界逐漸意識 到p值不能提供足夠的證據支援統計模型或者相關性假設,意即在研究中單獨以p值來下結論是不夠的,因其無法全面的反映實驗的結果。那麼,還有哪些統計值可以做為p值判定的輔助呢? 答案有很多,實務上根據不同研究、不同實驗目的,需要報告的結果也不一樣。本文將討論一個普遍用到的概念,confidence interval(置信區間/信賴區間)。
何謂信賴區間?又如何能做為p值有力的補充?信賴區間是由樣本的觀察值得出的對目標母群體或目標總體(population)某個未知參數的區間估計;簡單點說,它代表的是參數的一個估計區間,並可提供此區間包含參數真實值的可信度。
舉例來說,若想知道某國成年男性的群體平均身高是不是180公分?研究不可能測量該國所有成年男性的身高,於是隨機選擇100名成年男性,得到該樣本的平均身高為175公分,95%的信賴區間是172到178公分。若每次隨機選取不同的人來做實驗無數次,每次皆會得到一個95%信賴區間,則在95%的實驗中(100次實驗大約有95次),此信賴區間會包括真實的(未知)的平均身高。
但需注意的是,此真實的平均身高是一個具體的數值,僅「存在」或「不存在」於172公分到178公分之間,所以並不能說平均身高在這個信賴區間內的概率是95%,更不能說95%的成年男性的身高在172到178公分之間!這裡的區間是對於群體「平均」身高而言,不是對個體(個人)身高。這也是在解讀信賴區間的時候最容易犯的錯誤。我們只能說幾乎可以確定(95%的自信)該國男性的平均身高是在172到178公分間。
在學術研究或實際生活中,多數時候需透過分析目標樣本的分佈來估計總體的分佈,進而得到總體的區間範圍。此時,使用的是統計學中被用來表示個體間離散程度的「標準差」(Standard deviation, SD)概念。而最常被提及的是在常態分佈時,95% 個體落在平均數 ± 1.96 SD之間,而此段的95% 的信賴區間通常被解讀成95%的目標總體的值落在某區間範圍內。
再看另一例,在某酒駕案件中,檢方認定酒精濃度大都依呼氣酒精消退率回推開車時之酒精濃度,依此判定是否超過法定0.25毫克/公升,構成公共危險罪。臺灣高等法院 106 年度原交上易字第 32 號刑事判決中,引內政部警政署刑事警察局91年1月25日(91)刑鑑字第11718號函文,「國人飲酒後呼氣酒精消退率為每小時每公升0.062至0.098毫克(乃指95%之人之酒精消退率落於上開信賴區間,僅有2.5%會小於0.062,另2.5%之人大於0.098)」。此段代表從研究樣本計算出的酒精消退率區間為0.062至0.098毫克,但需注意的重點之一就是樣本的隨機性。在實驗設計初始,選取樣本時是否為隨機抽樣,這些樣本是否足以代表目標總體?假設在進行該酒精消退率實驗的時候恰巧選取的都是消退率較高的族群,有可能會對大部分消退率不那麼高的普通族群很不公平,會導致誤判。反之,若恰巧選取的是消退率較低的族群,又可能造成很多潛在的公共危險。由此可見,樣本的隨機性相當重要,亦是實驗設計裡至關重要的一環,而這一點確容易被忽略。另外,此例即為是一次實驗結果代替目標總體的一個典型的例子,由於現實生活中不可能對所有國人測試酒精消退率,因此選取了一群樣本進行實驗。而函文中指出的0.062至0.098則是對全體國人所下的結論。此外,「僅有2.5%會小於0.062,另2.5%之人大於0.098」意味著發生小於0.062毫克和大於0.098毫克這樣的極端情況各占2.5%。最後需注意的是,這裡的95%信賴區間並不是對國人平均酒精消退率的估計,而是所有國人的個體估計。
本文兩個例子使用的為95%的信賴區間,也是各界最常用的,其他常用的信賴區間,有90%、99%信賴賴區間。同理, 90%或者99%都是表示區間的「可信度」。而影響信賴區間的一個參數就是樣本量,樣本量越大,信賴區間的結果越準確。
而信賴區間和p值之間的關係我們可以通過男性身高的例子加以說明。如果研究的虛無假設是該國成年男性平均身高是180公分,而對立假設是平均身高不是180公分,結果顯示p值小於0.05,研究得出結論為該國男性平均身高不是180公分。但倘若只看p值,則會忽略很多資訊。p值並不能提供平均身高大概是多少或者落在什麼範圍內等具體資訊,而只能給出一個「是」或「不是」的結論,但配合信賴區間可補充更多資訊。而反過來,如果得知信賴區間範圍,即可得到p值的範圍。具體來說,以雙邊核對和95%信賴區間為例,如果信賴區間的範圍包含了虛無假設中的參數值,那麼p值就大於0.05;反之如果95%信賴區間的範圍不包含虛無假設中的參數值,那麼p值就小於0.05。在上面身高的例子中,95%的信賴區間是172公分到178公分,不包含180公分,所以p值小於0.05。因此,信賴區間是p值之外的一個強有力的補充,並且它提供了判斷實驗結果顯著與否的依據。
在解讀信賴區間時,常見誤解其真正所代表含義之情況,對於要使用此一統計值做為科學證據之前,必須謹慎瞭解概念與限制;本文旨傳達信賴區間做為估計未知參數的方法,除提供此區間包含參數真實值的可信度,另一個層面其實也提供了對p值之外的有力補充。
參考文獻
- 臺灣高等法院106年度原交上易字第32號刑事判決。
- Dtsch Arztebl Int. 2009 May; 106(19): 335–339. Confidence Interval or P-Value? Part 4 of a Series on Evaluation of Scientific Publications
張斌
- 學歷:博士,統計,密蘇里大學(University of Missouri)
- 經歷:副教授,辛辛那提兒童醫學中心,兒童醫學科-統計暨流行病學組【12/2014~迄今】、助理教授,辛辛那提兒童醫學中心,兒童醫學科-統計暨流行病學組 (Cincinnati Children’s Hospital Medical Center)【01/2012-12/2014】
- 專長:醫療大數據分析、存活分析(Survival analysis)、縱貫性研究 ( longitudinal study)、臨床試驗分析 (clinical trial)、實驗設計
- Email:bin.zhang@cchmc.org
蔡雅雯
- 學歷:國立中山大學,生物醫學研究所,博士班【09/2017~迄今】、輔英科技大學,醫事技術系,碩士【09/2008~06/2010】
- 經歷:永康奇美醫院,病理中心,醫事檢驗師【02/2011~迄今】、美國阿拉巴馬州立大學 (University of Alabama at Birmingham, UAB)癌症研究中心,生物統計暨生物資訊組,研究員【01/2010~05/2010】
- 專長:醫學實驗室認證 (ISO 15189)、統計分析(SPSS, SAS)
- Email:rositatsai@gmail.com