從p值談起,醫法品評,‪月旦醫事法:醫事專業人士的法律平台

A+
A-

從p值談起

文章發表：2018/07/05

張斌、蔡雅雯

統計學中不少艱澀複雜的概念公式讓多數人覺得枯燥、退怯，唯獨p值因使用方便和直觀而被廣為接受。然而，近年關於p值的爭論ㄧ直未曾間斷；2016年美國統計協會（American Statistical Association, ASA）發表一份聲明，「The ASA’s Statement on p-Values: Content, Process, and Purpose」，釐清各界對於p值概念的謬誤，尤其是部分非統計專業人士的質疑，並從多方面討論p值的意義和正確的使用方法，此亦為該協會創立177年來，首次針對特定統計檢定議題發聲，可見其受重視程度。此外，陸續有學術期刊公告禁用p值，如美國權威的政治學術期刊「政治分析」（Political Analysis）2018年1月22日在其官方社群網站-推特(Twitter)上宣佈，自2018年開始的第26期起，禁用p值，此一消息更引起軒然大波，意味著學術界長久以來沿用的p值有可能將被廢除。

長久以來，p值是學術界衡量一個研究結果好壞的重要標準之一，但究竟何謂p值？要理解p值，就需要先明白什麼是假設檢驗。舉例來說，第四期肺癌病人的生存時間中位數是8個月，即一半的第四期肺癌病人活不過8個月，當某藥廠開發一種新藥，宣稱此藥可延長第四期肺癌病人的生命到兩年，並且沒有明顯副作用，但如何判斷這個新藥是不是比原有的藥物更有效呢？因此，研究設計通常是假定所有的新藥都是無效的，除非具強而有力的證據證明新藥有效。而假定新藥無效的就是檢定假設裡的虛無假設（Null Hypothesis），而相對立的，也就是新藥有效的假設就叫做對立假設（Alternative Hypothesis）。主管機關需審核藥廠提交的各項證據，是否足夠支持對立假設，才能批准新藥上市。

而如何才能拒絕虛無假設接受對立假設呢？換句話說，什麼樣的證據才是足夠強而有力？首先我們要知道，醫學試驗（收集證據）的過程不只是收集實驗中病人的資料，而是要利用這些現有的資料瞭解這個藥對所有患者總體的效用，因此不得不提到樣本（sample）的概念。在一個醫學試驗中，不太可能讓所有病人都參與，那麼需要多大的樣本量才能提供足夠的證據呢？如果同樣的兩個試驗，一個試驗有2個人參與，而另一個試驗有200人參與，哪個結果更讓人相信呢？顯然是200人參與的那個。那200個人的試驗提供的證據是不是足夠了呢？如果是2萬人呢？

因此，需要有衡量證據強弱的標準，從而在是否批准新藥上市這點上做出選擇，而p值就是一個可衡量證據強弱的工具。如同前述，因試驗無法讓全體病人參與，所以選擇一個樣本，且假設此樣本為隨機產生，其結果用以代表全體病人。p值就是在假設虛無假設是正確的情況下（即新藥沒有用），研究資料得出的結果等於或大於實際觀察值的概率。

簡單但不權威的說，就是在虛無假設是正確的情況下，得到該試驗結果或更加極端情況的概率。p值在0到1之間，p值越小（越接近0），就是如果虛無假設正確的情況下觀察到試驗結果的概率越小，換句話說也就是原假設正確的可能性就越小，證明原假設錯誤的證據就越強，就更傾向於對立假設。反之越大，證明原假設是錯誤的證據就越弱。可是p值多小才能算證據夠強呢？我們需要統一的標準評判一個試驗證據是不是足夠強。此一標準就是我們所說的「顯著性水準」（significant level）。經過一段時間的討論，大家就看到了沿用至今的0.05。那麼這個0.05 的顯著性水準又是什麼意思呢？其實它是一個臨界值，是在虛無假設正確的情況下，推翻了原假設，犯這樣錯誤的機會。也就是說，由於樣本是隨機產生，如果虛無假設是對的，而我們做了100次試驗，只有5次抽樣的結果會誤判虛無假設是錯的。這個0.05也就是我們需要控制的犯錯率；然而0.05也是p值被各界批評的重點之一，為什麼是0.05而不是0.06，亦或不是0.04？此數值的選擇與p值無關，無論最終選擇什麼數值，總是需要一個值作為標準，每個實驗用不同的顯著性水準而會產生的混亂狀況相比，採用一個統一的數值顯然更可行更科學。

但需謹記的是，p值不能代表實驗的全部，仍需其他統計分析結果來支持實驗的結論。ASA亦提出幾個取代p值的方法學，受限於篇幅，本次暫不介紹，但未來在使用p值需更謹慎，且真正掌握其所代表義涵，才不致發生下錯結論或做錯決策的憾事。

參考文獻

Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASAs Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133.
https://twitter.com/polanalysis/status/955458917705945088

張斌

學歷：博士，統計，密蘇里大學(University of Missouri)
經歷：副教授，辛辛那提兒童醫學中心，兒童醫學科-統計暨流行病學組【12/2014~迄今】、助理教授，辛辛那提兒童醫學中心，兒童醫學科-統計暨流行病學組 (Cincinnati Children’s Hospital Medical Center)【01/2012-12/2014】
專長：醫療大數據分析、存活分析(Survival analysis)、縱貫性研究 ( longitudinal study)、臨床試驗分析 (clinical trial)、實驗設計
Email：bin.zhang@cchmc.org

蔡雅雯

學歷：國立中山大學，生物醫學研究所，博士班【09/2017~迄今】、輔英科技大學，醫事技術系，碩士【09/2008~06/2010】
經歷：永康奇美醫院，病理中心，醫事檢驗師【02/2011~迄今】、美國阿拉巴馬州立大學 (University of Alabama at Birmingham, UAB)癌症研究中心，生物統計暨生物資訊組，研究員【01/2010~05/2010】
專長：醫學實驗室認證 (ISO 15189)、統計分析(SPSS, SAS)
Email：rositatsai@gmail.com