從p值談起

文章發表:2018/07/05

張斌、蔡雅雯

統計學中不少艱澀複雜的概念公式讓多數人覺得枯燥、退怯,唯獨p值因使用方便和直觀而被廣為接受。然而,近年關於p值的爭論ㄧ直未曾間斷;2016年美國統計協會(American Statistical Association, ASA)發表一份聲明,「The ASA’s Statement on p-Values: Content, Process, and Purpose」,釐清各界對於p值概念的謬誤,尤其是部分非統計專業人士的質疑,並從多方面討論p值的意義和正確的使用方法,此亦為該協會創立177年來,首次針對特定統計檢定議題發聲,可見其受重視程度。此外,陸續有學術期刊公告禁用p值,如美國權威的政治學術期刊「政治分析」(Political Analysis)2018年1月22日在其官方社群網站-推特(Twitter)上宣佈,自2018年開始的第26期起,禁用p值,此一消息更引起軒然大波,意味著學術界長久以來沿用的p值有可能將被廢除。

長久以來,p值是學術界衡量一個研究結果好壞的重要標準之一,但究竟何謂p值?要理解p值,就需要先明白什麼是假設檢驗。舉例來說,第四期肺癌病人的生存時間中位數是8個月,即一半的第四期肺癌病人活不過8個月,當某藥廠開發一種新藥,宣稱此藥可延長第四期肺癌病人的生命到兩年,並且沒有明顯副作用,但如何判斷這個新藥是不是比原有的藥物更有效呢?因此,研究設計通常是假定所有的新藥都是無效的,除非具強而有力的證據證明新藥有效。而假定新藥無效的就是檢定假設裡的虛無假設(Null Hypothesis),而相對立的,也就是新藥有效的假設就叫做對立假設(Alternative Hypothesis)。主管機關需審核藥廠提交的各項證據,是否足夠支持對立假設,才能批准新藥上市。

而如何才能拒絕虛無假設接受對立假設呢?換句話說,什麼樣的證據才是足夠強而有力?首先我們要知道,醫學試驗(收集證據)的過程不只是收集實驗中病人的資料,而是要利用這些現有的資料瞭解這個藥對所有患者總體的效用,因此不得不提到樣本(sample)的概念。在一個醫學試驗中,不太可能讓所有病人都參與,那麼需要多大的樣本量才能提供足夠的證據呢?如果同樣的兩個試驗,一個試驗有2個人參與,而另一個試驗有200人參與,哪個結果更讓人相信呢?顯然是200人參與的那個。那200個人的試驗提供的證據是不是足夠了呢?如果是2萬人呢?

因此,需要有衡量證據強弱的標準,從而在是否批准新藥上市這點上做出選擇,而p值就是一個可衡量證據強弱的工具。如同前述,因試驗無法讓全體病人參與,所以選擇一個樣本,且假設此樣本為隨機產生,其結果用以代表全體病人。p值就是在假設虛無假設是正確的情況下(即新藥沒有用),研究資料得出的結果等於或大於實際觀察值的概率。

簡單但不權威的說,就是在虛無假設是正確的情況下,得到該試驗結果或更加極端情況的概率。p值在0到1之間,p值越小(越接近0),就是如果虛無假設正確的情況下觀察到試驗結果的概率越小,換句話說也就是原假設正確的可能性就越小,證明原假設錯誤的證據就越強,就更傾向於對立假設。反之越大,證明原假設是錯誤的證據就越弱。可是p值多小才能算證據夠強呢?我們需要統一的標準評判一個試驗證據是不是足夠強。此一標準就是我們所說的「顯著性水準」(significant level)。經過一段時間的討論,大家就看到了沿用至今的0.05。那麼這個0.05 的顯著性水準又是什麼意思呢?其實它是一個臨界值,是在虛無假設正確的情況下,推翻了原假設,犯這樣錯誤的機會。也就是說,由於樣本是隨機產生,如果虛無假設是對的,而我們做了100次試驗,只有5次抽樣的結果會誤判虛無假設是錯的。這個0.05也就是我們需要控制的犯錯率;然而0.05也是p值被各界批評的重點之一,為什麼是0.05而不是0.06,亦或不是0.04?此數值的選擇與p值無關,無論最終選擇什麼數值,總是需要一個值作為標準,每個實驗用不同的顯著性水準而會產生的混亂狀況相比,採用一個統一的數值顯然更可行更科學。

但需謹記的是,p值不能代表實驗的全部,仍需其他統計分析結果來支持實驗的結論。ASA亦提出幾個取代p值的方法學,受限於篇幅,本次暫不介紹,但未來在使用p值需更謹慎,且真正掌握其所代表義涵,才不致發生下錯結論或做錯決策的憾事。

參考文獻

  • Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASAs Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133.
  • https://twitter.com/polanalysis/status/955458917705945088

張斌

  • 學歷:博士,統計,密蘇里大學(University of Missouri)
  • 經歷:副教授,辛辛那提兒童醫學中心,兒童醫學科-統計暨流行病學組【12/2014~迄今】、助理教授,辛辛那提兒童醫學中心,兒童醫學科-統計暨流行病學組 (Cincinnati Children’s Hospital Medical Center)【01/2012-12/2014】
  • 專長:醫療大數據分析、存活分析(Survival analysis)、縱貫性研究 ( longitudinal study)、臨床試驗分析 (clinical trial)、實驗設計
  • Email:bin.zhang@cchmc.org

蔡雅雯

  • 學歷:國立中山大學,生物醫學研究所,博士班【09/2017~迄今】、輔英科技大學,醫事技術系,碩士【09/2008~06/2010】
  • 經歷:永康奇美醫院,病理中心,醫事檢驗師【02/2011~迄今】、美國阿拉巴馬州立大學 (University of Alabama at Birmingham, UAB)癌症研究中心,生物統計暨生物資訊組,研究員【01/2010~05/2010】
  • 專長:醫學實驗室認證 (ISO 15189)、統計分析(SPSS, SAS)
  • Email:rositatsai@gmail.com


月旦系列雜誌

月旦知識庫

月旦品評家



數位整合服務
產品服務
讀者服務專線:+886-2-23756688   傳真:+886-2-23318496   地址:臺北市館前路28號7樓

Copyright © 元照出版 All rights reserved. 版權所有,禁止轉貼節錄
TOP