港大利用新冠肺炎CT電腦掃描數據庫 協助篩查疑似病人

港大研發了一個網上診斷系統,利用人工智能技術分析CT電腦掃描檢測,對新冠肺炎疑似病人進行篩查,了解他們的染病基率。

由港大統計及精算學系系主任尹國聖教授和西南財經大學統計學院助理教授劉斌博士(現為港大博士後研究員)率領的團隊,研發了一個網上診斷系統,利用人工智能技術分析CT電腦掃描檢測,對新冠肺炎疑似病人進行篩查,了解他們的染病基率。

研究團隊於新冠肺炎疫情蔓延初期便開始關注與病毒相關的研究, 此網上COVID-19診斷系統 (https://www.covidct.cn)有以下特點:

– 快速診斷──只需上傳胸部CT電腦掃描圖像便立刻顯示結果

– 精準診斷準──確率88%、AUC值(用於對模型訓練效果的評價)93%、靈敏度86%、特異度90%(見註1)

– 操作簡易 — 以網上形式進行、界面易用

– 數據開放 — 系統的核心技術、程序以及訓練數據完全開放
https://github.com/xiaoxuegao499/LA-DNN-for-COVID-19-diagnosis

尹國聖教授的團隊多年來從事生物統計和臨床試驗方面的研究,近年積極開展人工智能在醫學方面的應用,而以CT電腦掃描檢查來篩查疑似個案的做法,普遍應用在各類疾病的研究領域。

「我們選擇以CT掃描診斷作爲篩選工具,主要是因為團隊在計算機視覺領域累積了很多研究經驗和成果。而新冠疾病的核酸檢測目前仍存在許多問題,包括精準度低和耗時長,通常需要多次檢測才能得出最終結果,即假陰性率較高。這對於早期病人的快速診斷、隔離和治療極為不利。」尹教授說。

很多放射科影像學研究發現,CT對早期無症狀的新冠肺炎病人有很好的篩查效果,這是因為病毒在進入人體很早期就會首先攻擊肺部,產生病變。尹教授表示:「我們結合AI技術,利用胸部CT掃描圖像來對新冠病人進行篩選。但由於新冠疾病領域最初一直沒有公開的CT數據集,我們需要花大量的時間去尋找開放的樣本數據並對樣本進行標記。這個數據平台再次印證放射科影像學與計算機視覺可以完美地結合,以實現AI在醫學領域的落地應用。」

新冠肺炎CT掃描圖像研究初期,部分學術同儕刊登文章所預測的效果還未能達到臨床標準,主要是除了樣本量較少外,亦沒有充分利用CT圖像樣本自身豐富的標註信息。而有別於傳統的醫療圖像數據,研究團隊採用的CT數據,每個樣本都來自一篇醫學影像學論文。在這些文章中,臨床醫生對新冠病人的胸部CT病徵做了詳細的描述,有些還和其他常見肺部疾病的病徵做了仔細的對比分析。

研究團隊進一步對樣本附帶的文本信息進行了針對性的研究,發現760篇論文涵蓋了對於新冠肺炎的五種病徵的描述,其中每個新冠病人CT影像上均會出現其中一種或者多種病徵,而這五種病徵是新冠疾病區分於其他肺炎的顯著特徵。於是,團隊設計出一個基於CT圖像的Lesion-Attention 深度神經網絡模型。模型一方面學習圖像中可以區分新冠病人和非新冠病人的特徵,另一方面把模型的「注意力」集中在病徵區域,即學習多標籤病徵,這就是團隊提出的LA-DNN(Lesion-Attention Deep Neural Networks)模型。如同臨床醫生通過CT圖像判斷病情時會側重關注異常的病徵區域一樣,模型同時訓練兩個任務,相互協調,從而使得模型性能得到顯著的提升。

平台所採用的LA-DNN(Lesion-Attention Deep Neural Networks)模型建構圖。
平台所採用的LA-DNN(Lesion-Attention Deep Neural Networks)模型建構圖。

研究團隊推出新冠CT圖像診斷系統後,現在仍然繼續收集新的樣本,並定期重新訓練模型,對於該成果未來的應用方向,尹教授和劉博士表示:「我們希望前線抗疫的醫務人員使用診斷系統並分享數據、開展合作研究,以減輕核酸檢測的負擔。目前,很多論文都不公開數據及程序,這不利於數據與技術分享及全球抗疫工作,而我們的系統,數據、程序完全開源,全世界任何地方、任何人都可以免費使用。」

註1:

靈敏度和特異度是醫學診斷上的用語。靈敏度,即真陽性率,即實際有病(COVID-19)並按該診斷標準被正確地判為有病的百分比,反映篩檢試驗發現病人的能力,數值愈大愈好。特異度,即真陰性率,是實際無病按該診斷標準被正確地判為無病的百分比。該值也是愈大愈好,它反映篩檢試驗確定非病人的能力。對於COVID-19診斷,研究團隊更注重敏感度,即盡量不要「誤放」任何一個真正的COVID-19病人。