2023年隨着數碼經濟(Digital Economy)的迅速發展,數碼人文(Digital Humanities)成為許多國際知名大學的熱門研究領域。過去1年生成式人工智能(GenAI)橫空出世,給人類帶來不少方便,全球官、產、學、研各界均爭相使用,這熱潮勢不可擋,將會持續是創科業界於2024年的大發展方向。AI科研發展的目標是「機器代人」,所以AI(數碼)和人類智能(人文)之間的微妙關係,兩者如何互動協作,都是不少「數碼人文」學者(包括筆者)關注的議題。
理論上,「數碼(D)人文(H)」可以分為3個範疇。一是D2H:如何利用數據去分析並了解現實世界文化?這是典型的大數據的應用;二是H2D:如何模仿現實人類文化,把它搬到虛擬世界上,達至「數碼孿生(Digital Twins)」的效果?三是D&H:如何推動現實和虛擬世界的互動,建造一個高效的「信息物理系統(Cyber-Physical System,CPS)」、網絡實體世界?
語料庫帶「歧視」 掀「保育」問題
簡單而言,從學術角度「數碼人文」學包括語言(Languistics)、歷史(History)、哲學(Philosophy)、藝術(Arts)等4大學科。電腦科學家一直不斷地研究,設法把這些科目數碼化,擴展及深化其內容,推動學科交叉,以助優化教與學成效。但倘若數碼化被不適當地應用,難免會影響科目的內涵。然而,無論哪一學科,「數碼人文」與數據息息相關,基於此本文談談「數碼」對「人文」的影響。
在語言方面,自然語言處理(Natural Language Processing,NLP)技術是用於語文分析及理解。NLP能力建基於深度學習,並在系統訓練中需要大型語料庫(即文字大數據,Corpus)的支撑。語料庫訓練容易衍生語言歧視,繼而引發語言保育的問題。大型語料庫主要是以網絡常用語言為主,因此ChatGPT能以英文、中文、西班牙文、阿拉伯文等(當前網絡上最多人用的語言)與用戶流利對話,但對於未有數碼化的語言卻一籌莫展。舉例,世界上使用人數最少的語言是阿亞帕涅科語,它是墨西哥境內絕少數人使用的古老語言,在網上全無數碼語料,有專家估計這些少人用的語言將會在網絡世界消失,繼而它的相關文化也隨之而滅。而更可怕者的是如此下去,未來網絡世界的文化將會由大國操縱。
自動生成藝術 版權或重新定義
在哲學方面,以ChatGPT為例,構建ChatGPT同樣利用深度學習,做法猶如鸚鵡學舌,從大型語料庫學習對話技巧。所以語料庫的質量非常關鍵,最常見的漏洞是幻覺(Hallucination)效應,ChatGPT會因為訓練語料不足,繼而信口雌黃,答非所問。再者,幻覺會產生連鎖效應,一個錯誤的答案自然會影響下一個用戶提示,之後的推理和答案更會一錯再錯。
在歷史方面,歷史所記載的是過去發生的事件,深度學習技術當然能令歷史覆蓋更深、更廣,不過這優點極度要求訓練數據的真實性。但深度學習主要是一套基於統計學的運算法,並不考究數據的真實性,所以並沒有對數據進行「事實查核(Fact Check)」。再者,無論輸出的歷史事件是真或假,系統亦無法對結果作解釋。歷史數碼化同樣地帶有連鎖效應,若然未經查核(確實)的歷史事件,被散播以訛傳訛的話,未來數碼歷史的可信性便大打折扣。
在藝術方面,參考上月美國《紐約時報》因ChatGPT所牽涉的版權起訴案件,被告OpenAI及微軟被控訴在未經《紐時》允許之下盜用其文章,作訓練ChatGPT之用;ChatGPT所生成的文章更是「搬字過紙」,一字不差地輸出原文。另外,同樣情況亦經常在圖片生成器MidJourney出現,存在違反版權法之嫌。如此這般,未來在AI世界,自動生成藝術的創作生態圈及版權定義,是否需要重新制定呢?當中所產生的價值又將如何公平地分配呢?
數據遭侵襲污染 恐危害國安
國家主席習近平指出,「安全是發展的前提,發展是安全的保障,安全和發展要同步推進。」因此,香港推動數碼經濟亦必須要注意數碼安全。在當前第4代(AI)工業革命時代,數據是創作和生產的核心資源,其內容絕不可以被侵襲及污染。不潔淨的數據除會窒礙特區經濟發展之餘,更會構建危害國家安全的後門,讓不法之徒有機可乘,乘虛而入。所以,踏入2024年,數碼安全包括網絡安全、AI安全等都是全球各經濟體的頭等大事,特區政府亦不容掉以輕心。
原刊於《經濟日報》,本社獲作者授權轉載。