大數據防疫 3大技術挑戰

大數據是一門應用科學，目的是以精準的數據分析去有效地解決不同應用場景的問題，例如在「智慧城市」應用中用作紓緩交通堵塞。顧名思義，大數據分析的先決條件是數據，而採集數據必然是這任務前期的最重要工作。

在「智慧出行」應用上，透過街上「天眼」實時攝錄的車輛往來、意外、修路等資訊都是大數據分析交通擠塞的基礎資源，不可或缺；而分析得出的結果則用作疏導交通之用，例如適時地調校個別交通燈的轉燈頻率來控制車輛流量，減輕堵塞。

追蹤傳播路徑堵截病毒源頭

「智慧醫療」是「智慧城市」的另一主要應用，與「智慧出行」任務類似，大數據是「智慧醫療」的核心技術。近期「新冠狀肺炎病毒」（COVID-19）在全球大爆發，防疫抗疫工作是世界各地政府的當務之急，全球醫務人員及科學家毫不計較，挺身而出，積極參與防疫工作。例如數據科學家，他們利用大數據技術去跟蹤新冠狀肺炎病毒的傳播路徑，藉以盡快堵截病毒源頭，控制疫情。

儘管紓緩交通堵塞及防止疫情擴散兩個應用都充分採用大數據技術，一般業外人士都誤以為兩者的算法可以一概而論。事實上後者的應用場景特殊，甚為複雜，主要的困難在於肺炎病毒擴散是公共突發事件，政府（系統）實在難以預測，或預先做好防疫準備。反之，交通堵塞每天都會發生，大數據分析系統已習以為常，因此能夠應付自如。那麼大數據分析應用於公共突發事件會面對什麼技術上的困難呢？

篩選有用樣本過濾噪音數據

對上一次冠狀病毒在香港大規模傳播發生於2003年，當時「沙士」肆虐，全港人心惶惶。新冠狀肺炎病毒與「沙士」（SARS-CoV）同是冠狀病毒（Corona Virus, CoV），因此很自然地大數據專家可以借助SARS-CoV數據去分析COVID-19，對這新型病毒作初步了解。然而，大數據是一門科學，追求精準，但根據醫學理論COVID-19跟SARS-CoV的基因序列只有79.5%相同，因此「沙士」的數據分析結果只可作為參考而已，並非百分之百可靠。

既然新冠狀肺炎病毒是嶄新的病毒，之前從來未出現過，那麼相關數據從何得到呢？當然是要靠公開蒐集案例（包括確診及懷疑病患者）。隨着疫情自去年底急劇蔓延，案例數目不斷地增加，這情況對大數據分析的確很有幫助，但科學家在數據蒐集過程中經常遇到以下幾個問題。

（一）在浩瀚的網海之中怎樣挖掘出有用的數據呢？例如新冠狀肺炎病毒於去年底在武漢出現，雖然有一小撮人在網上積極討論，但該話題沒有即時被人注意，因為當時大部分的網絡討論都環繞着春運，以致「病毒」相關的討論被淹沒了。這情況是大數據研究中典型的「小樣本」問題，面對這問題，大數據系統需要先把高頻率的噪音數據過濾，然後才能針對「小樣本」數據進行具體分析。

各地政府合作建立分析模型

（二）新冠狀肺炎病毒在世界各地蔓延，迄今（3月17日）全球確診人數約189053人，當中死亡人數約7511人，而香港則分別逾160人受感染及4人死亡。若然香港大數據科學家要有效地分析病毒的話，單憑香港小量個案是絕對不足夠的，專家必須設法獲取其他地方的數據，例如兩地跨境疫情數據。

奈何此舉談何容易，主要問題在於各地政府之間很少有交換醫療數據的政策，就算是有雙方的數據格式也未必一致，難以互通。由此可見，政府與政府（G2G）之間的國際「電子政府」（e-Government）是醫療大數據的嚴重樽頸之一。

新模型難驗證可靠性受影響

（三）由於之前沒有針對「新冠狀肺炎病毒」而設的分析模型（Analytic Model），不同地方的大數據科學家便各出其謀，採用不同的「機器學習」（Machine Learning, ML）方法去研發出最佳的分析模型。

不過，因為疫情變化急劇，新的分析模型難以被及時驗證，更不時在其初形狀態下被迫推出使用，令其可靠性大受質疑。

總括而言，公共突發事件如新冠狀病毒在社會什麼時候會出現實在難以揣測。大數據應用於這類事件時，在沒有往迹可尋的情況下，顯得困難重重。常見的困難包括數據不足、潛伏在大數據的「小樣本」等問題。再者，針對公共突發事件，究竟哪一大數據分析模型最適合呢？在如此變幻莫測應用場景之下，傳統大數據技術仍然存在不足之處。

原刊於《經濟日報》，本社獲作者授權轉載。