自然語言處理(Natural Language Processing, NLP)是人工智能的重要技術領域之一。自人工智能於上世紀中期面世以來,科學家一直鑽研開發智能算法,以分析及理解人類如何透過文字及語音來表達意思(semantics)。中文自然語言處理是筆者的研究領域,除了發表過百篇論文外,也於1998年創辦了香港第一間互聯網中文新聞檢索公司(慧科訊業公司,Wiser)。隨着數碼經濟迅速發展,自然語言處理技術變得炙手可熱,其相關應用遍布全球。例如網商會利用用戶針對新產品的評語,為產品進行評分;政府透過網上言論去了解網民對政務的評價;明星透過分析粉絲的聊天訊息來評估自己的知名度等。
自然語言處理技術近年有着顛覆性的進步,主要基於3個原因。首先,社交網絡普及化產生超海量的文字訊息,例如全球在微博、推特、臉書等社交平台每分鐘發出的帖子數以億計;二是超級電腦運算速度的飆升;三是機器學習(包括深度學習)的算法效率突飛猛進。有了這三件寶物,人工智能工程師便可以設計出適合公司需求的自然語言應用系統。然而,不管軟硬件技術有多先進、能力有多強、效率有多高,自然語言處理技術面對不少「倫理準則」(ethics)的問題,常見問題包括以下幾項:
企業或採用偏頗NLP處理模型
以偏概全:企業為了發表有利於自家產品的分析,刻意採用偏頗的自然語言處理模型(biased NLP model)。
排斥異己:企業無所不用其極,設法拒絕不利於自己產品的訊息,這情況產生訊息排斥(information exclusion)的效應,導致分析結果完全不可靠。
指鹿為馬:由於企業在模型培訓(model training)時沒有提供適當訊息,系統在分類過程中,便會把不認識或以前未見過的事件歸納於錯誤的類別,造成過分普及化(Overgeneralization)的現象,影響自然語言處理的表現。
樣本不足(Under-representation):儘管社交網絡中擁有超大量訊息,但倘若缺乏與目標相關的訊息,這會大大影響前期自然語言處理模型訓練的效率,導致文字分析效果嚴重失準。
侵犯私隱:系統從文字分析中可以直接或間接暴露客戶的個人身份,例如透過用戶網絡聊天的習慣識別出個別人士的身份。企業往往未獲得客戶同意之前便利用這些資料以營商圖利。
蜚短流長:企業四處散播不利其競爭對手的謠言(rumours spreading),以損人利己的方法來提升自己在市場上的聲譽。
「水能載舟亦能覆舟」。科技本身是中立的,它的用途是由使用者決定。在現實社會中,不少用戶為求達到目的,不惜利用上述自然語言處理科技涉及的「倫理準則」灰色地帶,作出惡意行為。更可悲的是,這些惡行往往殃及池魚,連累無辜。以近日「反送中」事件為例,雙方陣營的激進分子均瘋狂散播支持己方的消息,當中不乏造謠和失實的報道,造成兩敗俱傷之餘,更導致社會嚴重撕裂。
檢視現行法例是今屆政府推動創新及科技發展的八大工作方向之一。為此,政府責無旁貸,應該及早立法防止資訊及通訊包括濫用自然語言處理技術所導致的罪行。
原刊於《信報》,本社獲作者授權轉載。
!doctype>