通用人工智能高不可攀

自然語言處理（Natural Language Processing, NLP）是人工智能技術之一，其目標是以機器（硬件或軟件）模仿人類閱讀和編寫語文的能力。在日常生活中，自然語言處理的應用甚廣，例如自動翻譯、網上訊息抽取、聊天機械人等。早期的自然語言處理技術基於規則算法，利用傳統文法來進行語文分析，但語文是活的，文法不斷在演變（例如新名詞的產生），因此規則算法未能有效地處理現代語文。有見及此，語言科學家推出統計語言學，利用統計算法從文獻中自動學習文法。這方法一直流行，而且在網絡文字大數據及深度學習（Deep Learning, DL）的支撐之下，其效能近年突飛猛進。

AI仍處「弱能」技術階段

人工智能仍然處於「弱能」技術階段。「弱人工智能」（Weak AI）主要針對特定應用場景而設，例如在日常生活中「圍棋王」阿爾法狗不能充當提供遙距診症服務的網上醫生；又例如在自然語言處理領域中，會寫詩的「微軟小冰」（Xiaobing）不能代替「IBM華生」（Watson）執行實時對答任務。因此，研發一套跨場景、通用的「強人工智能」一直之來都是電腦科學家的目標。有見及此，電動汽車特斯拉（Tesla）的創辦人馬斯克（Elon Musk）於2015年成立國際非牟利研究組織OpenAI，匯集全球人工智能科學家及機構共同合作，研發友善的人工智能技術，使人類受益，當中「強人工智能」是組織的重點研究任務之一。

OpenAI於今年5月成功研製並推出GPT3自然語言分析器。GPT3是一套跨領域的語言模型（Language Model）。所謂語言模型，就是讓機器自行理解並預測人類語言的技術。與專責的「弱人工智能」不同，GPT3是「萬能俠」，除了能寫文章、翻譯之外，還能寫程序、算公式、做表格、畫圖等，集百般武藝於一身。要達至通才，OpenAI科學家研發 GPT3利用了超大量的預先訓練數據，多達45萬億字節（TB），並從中訓練出1750億個參數，是全世界公認現今最大規模的人工智能系統。理論上訓練數據量愈大機器學習的效果會愈好，這觀點的前設是數據是不偏不倚的，可惜事實卻並非如此。

GPT3訓練數據是大規模的從互聯網上讀取。最近有研究報告指出，網上文章的用詞偏頗和不公（biased and unfair），經常出現種族、性別及宗教歧視的現象，例如在商業文章中描述白人及男性所用的形容詞，比描述其他種族及性別的較為優越，又例如不少評論文章傾向標籤個別宗教及相關人物等。正因如此，報告進一步指出GPT3所自動產生的文章也出現同樣的問題。再者，互聯網上虛假消息泛濫，尤其是在美國總統大選期間情況特別嚴重，因此GPT3在對答、文章分析等應用上的可靠性難免受到質疑。要避免垃圾入、垃圾出的問題，在進行機器學習之前把數據清洗（Data Cleaning），篩選並除去垃圾數據是必須的步驟，但要找各領域專家去分析45TB數據又談何容易呢。

涉及金額達1200萬美元

另外，有人工智能專家在博文中指出GPT3的運算費用非常昂貴，保守估計高達1200萬美元，絕對不是一般科研機構所能應付，與科研普及化的理念背道而馳，窒礙創新科技發展。報告又指GPT3深度學習背後的超級電腦所消耗電量，大約等於173萬家普通美國住戶一年的耗電量。再者，福布斯研究指出GPT3深度學習至少製造了超過7.8萬磅的二氧化碳（CO2），這產量與一個人兩年所排放量相若，對全球環境污染構成影響。

綜合而言，人工智能是有代價的，它背後的深度學習過程不論是訓練數據、軟件、硬件都所費不菲，需要狂燒錢。事實上，要做一個聰明的機械人，與人類一樣要接受良好的教育和培訓。同樣理論上人多學一點便聰明一點，機械人亦然。在現實世界中，各國政府皆知道貧困失學的問題，紛紛提供免費教育。可是，在人工智能世界中，唯有富裕「家庭」（企業）才有能力培育出通才的機械人。若然未來世界真的「機器代人」的話，那麼你願意被一個疏於訓練的低智能、笨拙的機械人管治或服務嗎？

原刊於《信報》，本社獲作者授權轉載。