估算染疫人數需用正確統計方法

本港疫情嚴峻，每日新增新冠病毒感染人數持續在數以萬計的水平。雖然港府極力提高檢測能力，但社區中仍然存在相當數量未被發現的病毒感染者。

近日多家大學的研究團隊，發表對本地實際感染人數的估算，香港大學醫學院於3月14日估計本港實際感染人數為358萬，惟多數新聞報道並未強調該研究估計的95%置信區間為230萬至460萬人。同日，香港中文大學醫學院賽馬會公共衛生及基層醫療學院助理教授郭健安估計，本港第五波最終約有500萬人感染。

若置信區間過大未能反映實况

從統計學角度看，任何統計模型都基於某些假設，如果模型假設與數據不相符，自然會導致結論的偏差。累計感染人數的預測屬於點估計（point estimate），這裏的感染人數是指所有感染新冠病毒的人（包含感染過病毒但已康復者）。我們如果未能結合置信區間（confidence interval）來分析，點估計的意義其實不大。

在給定95%置信水平下，95%置信區間為對於未知量的區間估計（該區間約有95%概率包含未知統計量）。如果統計模型得出感染人數的置信區間過大，代表我們對感染人數的估計有較高不確定性，而未能反映出感染人數的真實情况。

舉例說明：假設我們採用兩個不同模型來估計感染人數，基於「大樣本原理」，兩個估計量（estimator）都近似服從正態分佈（normal distribution），其中一個正態分布（圖1模型A）方差較大，另外一個（圖1模型B）方差較小。顯然，模型A的95%置信區間，比模型B的要寬許多，因此具有更高的不確定性。置信區間的大小，可以直接反映估計量與實際感染數字的誤差。

預測358萬人感染存相當程度誤差

港大醫學院估計的感染人數為358萬，其95%置信區間是230萬至460萬。以現時香港總人口約741萬來算，我們可以求出模型估計的感染比例（感染率）為「358 / 741≈0.48」，其95%置信區間的下限和上限，分別為「230 / 741≈0.31」和「460 / 741≈0.62」。

基於95%置信區間的臨界值為1.96，我們通過圖2公式可以推算出有效樣本量（effective sample size）約為40人，這相當於我們按不同地域隨機選取40幢樓宇，每幢樓宇隨機抽取一人檢測（以確保抽樣個體的獨立性）。所以，港大醫學院估計的感染人數，相當於僅僅基於樣本量為40的隨機抽樣調查結果。如此小的樣本量，有多高的可信度？

附表列出近日的圍封強檢樓宇名單，每一幢強制檢測樓宇的人數都遠遠多過40，這些應該是香港病毒感染最高危的樓宇，其平均初步陽性比率約為11.6%，遠遠低於港大醫學院模型推算的48%感染率，這反映了港大醫學院3月14日模型預測的358萬感染人數，存在相當程度的誤差，更何况中大醫學院郭健安所估計的500萬人感染？