大數據防疫 3大技術挑戰

隨着疫情自去年底急劇蔓延,案例數目不斷地增加,這情況對大數據分析的確很有幫助,但科學家在數據蒐集過程中經常遇到以下幾個問題。

大數據是一門應用科學,目的是以精準的數據分析去有效地解決不同應用場景的問題,例如在「智慧城市」應用中用作紓緩交通堵塞。顧名思義,大數據分析的先決條件是數據,而採集數據必然是這任務前期的最重要工作。

在「智慧出行」應用上,透過街上「天眼」實時攝錄的車輛往來、意外、修路等資訊都是大數據分析交通擠塞的基礎資源,不可或缺;而分析得出的結果則用作疏導交通之用,例如適時地調校個別交通燈的轉燈頻率來控制車輛流量,減輕堵塞。

追蹤傳播路徑 堵截病毒源頭

「智慧醫療」是「智慧城市」的另一主要應用,與「智慧出行」任務類似,大數據是「智慧醫療」的核心技術。近期「新冠狀肺炎病毒」(COVID-19)在全球大爆發,防疫抗疫工作是世界各地政府的當務之急,全球醫務人員及科學家毫不計較,挺身而出,積極參與防疫工作。例如數據科學家,他們利用大數據技術去跟蹤新冠狀肺炎病毒的傳播路徑,藉以盡快堵截病毒源頭,控制疫情。

儘管紓緩交通堵塞及防止疫情擴散兩個應用都充分採用大數據技術,一般業外人士都誤以為兩者的算法可以一概而論。事實上後者的應用場景特殊,甚為複雜,主要的困難在於肺炎病毒擴散是公共突發事件,政府(系統)實在難以預測,或預先做好防疫準備。反之,交通堵塞每天都會發生,大數據分析系統已習以為常,因此能夠應付自如。那麼大數據分析應用於公共突發事件會面對什麼技術上的困難呢?

篩選有用樣本 過濾噪音數據

對上一次冠狀病毒在香港大規模傳播發生於2003年,當時「沙士」肆虐,全港人心惶惶。新冠狀肺炎病毒與「沙士」(SARS-CoV)同是冠狀病毒(Corona Virus, CoV),因此很自然地大數據專家可以借助SARS-CoV數據去分析COVID-19,對這新型病毒作初步了解。然而,大數據是一門科學,追求精準,但根據醫學理論COVID-19跟SARS-CoV的基因序列只有79.5%相同,因此「沙士」的數據分析結果只可作為參考而已,並非百分之百可靠。

既然新冠狀肺炎病毒是嶄新的病毒,之前從來未出現過,那麼相關數據從何得到呢?當然是要靠公開蒐集案例(包括確診及懷疑病患者)。隨着疫情自去年底急劇蔓延,案例數目不斷地增加,這情況對大數據分析的確很有幫助,但科學家在數據蒐集過程中經常遇到以下幾個問題。

(一)在浩瀚的網海之中怎樣挖掘出有用的數據呢?例如新冠狀肺炎病毒於去年底在武漢出現,雖然有一小撮人在網上積極討論,但該話題沒有即時被人注意,因為當時大部分的網絡討論都環繞着春運,以致「病毒」相關的討論被淹沒了。這情況是大數據研究中典型的「小樣本」問題,面對這問題,大數據系統需要先把高頻率的噪音數據過濾,然後才能針對「小樣本」數據進行具體分析。

各地政府合作 建立分析模型

(二)新冠狀肺炎病毒在世界各地蔓延,迄今(3月17日)全球確診人數約189053人,當中死亡人數約7511人,而香港則分別逾160人受感染及4人死亡。若然香港大數據科學家要有效地分析病毒的話,單憑香港小量個案是絕對不足夠的,專家必須設法獲取其他地方的數據,例如兩地跨境疫情數據。

奈何此舉談何容易,主要問題在於各地政府之間很少有交換醫療數據的政策,就算是有雙方的數據格式也未必一致,難以互通。由此可見,政府與政府(G2G)之間的國際「電子政府」(e-Government)是醫療大數據的嚴重樽頸之一。

新模型難驗證 可靠性受影響

(三)由於之前沒有針對「新冠狀肺炎病毒」而設的分析模型(Analytic Model),不同地方的大數據科學家便各出其謀,採用不同的「機器學習」(Machine Learning, ML)方法去研發出最佳的分析模型。

不過,因為疫情變化急劇,新的分析模型難以被及時驗證,更不時在其初形狀態下被迫推出使用,令其可靠性大受質疑。

總括而言,公共突發事件如新冠狀病毒在社會什麼時候會出現實在難以揣測。大數據應用於這類事件時,在沒有往迹可尋的情況下,顯得困難重重。常見的困難包括數據不足、潛伏在大數據的「小樣本」等問題。再者,針對公共突發事件,究竟哪一大數據分析模型最適合呢?在如此變幻莫測應用場景之下,傳統大數據技術仍然存在不足之處。

原刊於《經濟日報》,本社獲作者授權轉載。

黃錦輝