淺談數碼人文學數據影響文史哲藝

2023年隨着數碼經濟（Digital Economy）的迅速發展，數碼人文（Digital Humanities）成為許多國際知名大學的熱門研究領域。過去1年生成式人工智能（GenAI）橫空出世，給人類帶來不少方便，全球官、產、學、研各界均爭相使用，這熱潮勢不可擋，將會持續是創科業界於2024年的大發展方向。AI科研發展的目標是「機器代人」，所以AI（數碼）和人類智能（人文）之間的微妙關係，兩者如何互動協作，都是不少「數碼人文」學者（包括筆者）關注的議題。

理論上，「數碼（D）人文（H）」可以分為3個範疇。一是D2H：如何利用數據去分析並了解現實世界文化？這是典型的大數據的應用；二是H2D：如何模仿現實人類文化，把它搬到虛擬世界上，達至「數碼孿生（Digital Twins）」的效果？三是D&H：如何推動現實和虛擬世界的互動，建造一個高效的「信息物理系統（Cyber-Physical System，CPS）」、網絡實體世界？

語料庫帶「歧視」掀「保育」問題

簡單而言，從學術角度「數碼人文」學包括語言（Languistics）、歷史（History）、哲學（Philosophy）、藝術（Arts）等4大學科。電腦科學家一直不斷地研究，設法把這些科目數碼化，擴展及深化其內容，推動學科交叉，以助優化教與學成效。但倘若數碼化被不適當地應用，難免會影響科目的內涵。然而，無論哪一學科，「數碼人文」與數據息息相關，基於此本文談談「數碼」對「人文」的影響。

大型語料庫主要是以網絡常用語言為主，因此ChatGPT能以英文、中文、西班牙文、阿拉伯文等與用戶流利對話，但對於未有數碼化的語言卻一籌莫展。（Shutterstock）

在語言方面，自然語言處理（Natural Language Processing，NLP）技術是用於語文分析及理解。NLP能力建基於深度學習，並在系統訓練中需要大型語料庫（即文字大數據，Corpus）的支撑。語料庫訓練容易衍生語言歧視，繼而引發語言保育的問題。大型語料庫主要是以網絡常用語言為主，因此ChatGPT能以英文、中文、西班牙文、阿拉伯文等（當前網絡上最多人用的語言）與用戶流利對話，但對於未有數碼化的語言卻一籌莫展。舉例，世界上使用人數最少的語言是阿亞帕涅科語，它是墨西哥境內絕少數人使用的古老語言，在網上全無數碼語料，有專家估計這些少人用的語言將會在網絡世界消失，繼而它的相關文化也隨之而滅。而更可怕者的是如此下去，未來網絡世界的文化將會由大國操縱。

自動生成藝術版權或重新定義

在哲學方面，以ChatGPT為例，構建ChatGPT同樣利用深度學習，做法猶如鸚鵡學舌，從大型語料庫學習對話技巧。所以語料庫的質量非常關鍵，最常見的漏洞是幻覺（Hallucination）效應，ChatGPT會因為訓練語料不足，繼而信口雌黃，答非所問。再者，幻覺會產生連鎖效應，一個錯誤的答案自然會影響下一個用戶提示，之後的推理和答案更會一錯再錯。

在歷史方面，歷史所記載的是過去發生的事件，深度學習技術當然能令歷史覆蓋更深、更廣，不過這優點極度要求訓練數據的真實性。但深度學習主要是一套基於統計學的運算法，並不考究數據的真實性，所以並沒有對數據進行「事實查核（Fact Check）」。再者，無論輸出的歷史事件是真或假，系統亦無法對結果作解釋。歷史數碼化同樣地帶有連鎖效應，若然未經查核（確實）的歷史事件，被散播以訛傳訛的話，未來數碼歷史的可信性便大打折扣。

同樣情況亦經常在「圖片生成器」MidJourney出現，存在違反版權法之嫌。（Shutterstock）

在藝術方面，參考上月美國《紐約時報》因ChatGPT所牽涉的版權起訴案件，被告OpenAI及微軟被控訴在未經《紐時》允許之下盜用其文章，作訓練ChatGPT之用；ChatGPT所生成的文章更是「搬字過紙」，一字不差地輸出原文。另外，同樣情況亦經常在圖片生成器MidJourney出現，存在違反版權法之嫌。如此這般，未來在AI世界，自動生成藝術的創作生態圈及版權定義，是否需要重新制定呢？當中所產生的價值又將如何公平地分配呢？

數據遭侵襲污染恐危害國安

國家主席習近平指出，「安全是發展的前提，發展是安全的保障，安全和發展要同步推進。」因此，香港推動數碼經濟亦必須要注意數碼安全。在當前第4代（AI）工業革命時代，數據是創作和生產的核心資源，其內容絕不可以被侵襲及污染。不潔淨的數據除會窒礙特區經濟發展之餘，更會構建危害國家安全的後門，讓不法之徒有機可乘，乘虛而入。所以，踏入2024年，數碼安全包括網絡安全、AI安全等都是全球各經濟體的頭等大事，特區政府亦不容掉以輕心。

原刊於《經濟日報》，本社獲作者授權轉載。