自然語言處理(Natural Language Processing, NLP)是人工智能技術之一,其目標是以機器(硬件或軟件)模仿人類閱讀和編寫語文的能力。在日常生活中,自然語言處理的應用甚廣,例如自動翻譯、網上訊息抽取、聊天機械人等。早期的自然語言處理技術基於規則算法,利用傳統文法來進行語文分析,但語文是活的,文法不斷在演變(例如新名詞的產生),因此規則算法未能有效地處理現代語文。有見及此,語言科學家推出統計語言學,利用統計算法從文獻中自動學習文法。這方法一直流行,而且在網絡文字大數據及深度學習(Deep Learning, DL)的支撐之下,其效能近年突飛猛進。
AI仍處「弱能」技術階段
人工智能仍然處於「弱能」技術階段。「弱人工智能」(Weak AI)主要針對特定應用場景而設,例如在日常生活中「圍棋王」阿爾法狗不能充當提供遙距診症服務的網上醫生;又例如在自然語言處理領域中,會寫詩的「微軟小冰」(Xiaobing)不能代替「IBM華生」(Watson)執行實時對答任務。因此,研發一套跨場景、通用的「強人工智能」一直之來都是電腦科學家的目標。有見及此,電動汽車特斯拉(Tesla)的創辦人馬斯克(Elon Musk)於2015年成立國際非牟利研究組織OpenAI,匯集全球人工智能科學家及機構共同合作,研發友善的人工智能技術,使人類受益,當中「強人工智能」是組織的重點研究任務之一。
OpenAI於今年5月成功研製並推出GPT3自然語言分析器。GPT3是一套跨領域的語言模型(Language Model)。所謂語言模型,就是讓機器自行理解並預測人類語言的技術。與專責的「弱人工智能」不同,GPT3是「萬能俠」,除了能寫文章、翻譯之外,還能寫程序、算公式、做表格、畫圖等,集百般武藝於一身。要達至通才,OpenAI科學家研發 GPT3利用了超大量的預先訓練數據,多達45萬億字節(TB),並從中訓練出1750億個參數,是全世界公認現今最大規模的人工智能系統。理論上訓練數據量愈大機器學習的效果會愈好,這觀點的前設是數據是不偏不倚的,可惜事實卻並非如此。
GPT3訓練數據是大規模的從互聯網上讀取。最近有研究報告指出,網上文章的用詞偏頗和不公(biased and unfair),經常出現種族、性別及宗教歧視的現象,例如在商業文章中描述白人及男性所用的形容詞,比描述其他種族及性別的較為優越,又例如不少評論文章傾向標籤個別宗教及相關人物等。正因如此,報告進一步指出GPT3所自動產生的文章也出現同樣的問題。再者,互聯網上虛假消息泛濫,尤其是在美國總統大選期間情況特別嚴重,因此GPT3在對答、文章分析等應用上的可靠性難免受到質疑。要避免垃圾入、垃圾出的問題,在進行機器學習之前把數據清洗(Data Cleaning),篩選並除去垃圾數據是必須的步驟,但要找各領域專家去分析45TB數據又談何容易呢。
涉及金額達1200萬美元
另外,有人工智能專家在博文中指出GPT3的運算費用非常昂貴,保守估計高達1200萬美元,絕對不是一般科研機構所能應付,與科研普及化的理念背道而馳,窒礙創新科技發展。報告又指GPT3深度學習背後的超級電腦所消耗電量,大約等於173萬家普通美國住戶一年的耗電量。再者,福布斯研究指出GPT3深度學習至少製造了超過7.8萬磅的二氧化碳(CO2),這產量與一個人兩年所排放量相若,對全球環境污染構成影響。
綜合而言,人工智能是有代價的,它背後的深度學習過程不論是訓練數據、軟件、硬件都所費不菲,需要狂燒錢。事實上,要做一個聰明的機械人,與人類一樣要接受良好的教育和培訓。同樣理論上人多學一點便聰明一點,機械人亦然。在現實世界中,各國政府皆知道貧困失學的問題,紛紛提供免費教育。可是,在人工智能世界中,唯有富裕「家庭」(企業)才有能力培育出通才的機械人。若然未來世界真的「機器代人」的話,那麼你願意被一個疏於訓練的低智能、笨拙的機械人管治或服務嗎?
原刊於《信報》,本社獲作者授權轉載。
!doctype>