假新聞內容複雜 機器難代人分析

面對虛假新聞對社會的負面影響,科技企業、大學、科研中心等各界沒有坐視不理,無不積極投放資源進行研究,務求找出有效的方法識別及過濾虛假新聞,卻正在面對不少難題。

大數據分析是人工智能背後的核心技術。在現實生活中,人工智能從人類日常生活的數據中學習人類文化,從中進行模仿,達至「機器代人」的目標,例如從市民閱讀報章、雜誌的習慣,了解他們的生活方式、日常興趣、甚至其政治立場等,然後針對性地提供個人化的智能服務。

虛假新聞傳播  屢造成重大破壞

俗語云:「樹大有枯枝」,這道理也適用於大數據應用上。網絡上的數據良莠不齊,垃圾信息滿布,當中虛假新聞更是全球焦點,因而造成重大破壞的例子比比皆是。例如美國於2003年在沒有真憑實據下,堅持伊拉克擁有大殺傷力武器而入侵該國,導致死傷無數;2016年美國總統大選,市場研究公司劍橋分析(Cambridge Analytics)利用5000萬個Facebook私人用戶資料,發放假信息打壓希拉莉,最終特朗普以爆冷姿態在選舉中勝出;2020年美國總統大選投票過後,特朗普團隊內部在社交網絡中瘋傳拜登選舉舞弊,引發暴徒上街衝擊國會山莊等。

在香港網絡社會中,情況也不遑多讓,線上謠言滿天飛,虛假新聞嚴重影響本地社會秩序和常態,例如有「偽專家」指鹿為馬,錯誤地指出「安心出行」存在私隱外洩風險,令市民抗拒下載使用;亦有網民誤導普羅大眾,刻意指摘新冠疫苗效果不彰,令不少市民放棄接種。這些源源不絕的「假新聞」嚴重拖慢本港抗疫步伐,打擊民生和經濟。

面對虛假新聞對社會的負面影響,科技企業、大學、科研中心等各界沒有坐視不理,無不積極投放資源進行研究,務求找出有效的方法識別及過濾虛假新聞。筆者的研究領域聚焦於「自然語言處理」,研究目的是利用人工智能技術分析及理解文字信息(例如報章內容),而識別虛假新聞亦是筆者近年的主要研究方向。

兩類傳媒資訊  AI處理各不同

傳媒資訊如報章、雜誌等的內容,主要由兩類信息組成,分別為客觀信息(Objective Information)和主觀信息(Subjective Information),客觀信息描述所報道的事件,包括其前因後果,主觀信息則是記者或受訪者對事件的個人意見。根據傳統定義,大眾視前者為新聞,而後者則為評論,從人工智能角度,處理這兩種信息的目標截然不同。

客觀信息理論上由事實組成,因此要判斷它的真偽,人工智能系統會查證事實(Fact Check),目的是核對事件是否事實。如果事件是自然發生的,系統可以從它的合理性及科學性進行研究和求證,但若然系統面對的是社會事件,查證便會較為複雜。分析這類新聞的算法,並非純粹是證實目標事件是否發生過那麽簡單,而是把事件在何時進行(When)、哪裏發生(Where)、誰人導致(Who)、如何造成(How)等關連證據也進行徹底分析,例如系統會追溯事件發生的歷史,以及牽涉相關人士之間的人際網絡等。

進行這類任務的最大困難是「自然語言理解」(Natural Language Understanding,NLU),因為在這方面的現有技術都是針對特定領域(如法律)而設,並不能普及地應用於日常新聞理解上。

處理主觀信息的手法大有區別,其主要目的是作「輿情分析」(Public Opinion Analysis),讓用戶了解大眾對目標事件所關注的要點及程度。人工智能系統首先利用「自然語言處理」技術,從評論中挖掘出各評論員的不同論點,然後統計每一論點的支持人數,最後作出結論,例如分析發現大多數香港年輕人認為「在大灣區創業」是正面的。

然而,由於輿情分析的算法主要基於統計學,因此其結果深受數據(即新聞)完備性的影響,常見的現象包括:

  1. 系統並沒有涵蓋所有關鍵持份者,導致其分析結果偏頗或帶有立場;
  2. 由於分析系統並沒有獲取所有論點,因而導致以偏概全的問題,影響分析的可靠性。

缺標準測試數據 礙新聞理解研究

總體而言,無論是事實查證或輿情分析,兩者與其他大數據分析應用同出一轍,都是非常依靠機器學習技術。有效的機器學習,與系統背後所採用的訓練及測試數據質量息息相關。然而,訓練數據不足,以及缺乏標準測試數據,是新聞理解研究的瓶頸,窒礙了它的廣泛應用。

以擁有最先進科研能力的Facebook公司為例,自從特朗普首屆選舉以來,他們便堅決要杜絕臉書社交平台上的虛假新聞,為此花了不少人力、物力去研發專責的人工智能算法,但到了今天仍未能完全把過程自動化,還是需要人機互動,以人工智能技術輔助專家團隊作出最終判斷。從另一角度看,此情景又一次反映出坊間盛傳的「機器代人」觀念在現階段並不適於傳媒行業。新聞採集、寫作、而至編輯等工作還是以人為本,很需要真人參與。

原刊於《經濟日報》,本社獲作者授權轉載。

黃錦輝