曾幾何時,經濟學者高斯的《社會成本問題》是高考經濟科的內容。
當然,就算高考再艱深,也不會要求考生去讀這篇四十幾頁長的文章。那個年代考生需要知道的只是文章要點,亦即所謂的「高斯定律」,其他細節不用理會。
不用理會的細節,包括佔了文章大半篇幅、橫跨幾百年的大量法律案例。高斯除了逐一詳細說明案情,還咬文嚼字解讀判詞,為的就是透過案例闡明產權、交易成本、社會成本等的關係。高斯這篇文章沒有數學,也沒有統計學,使用的數據就是一大堆案件,實證分析就是從法律文字中找出經濟學內容。
這套方法,今天被稱為文本分析(text analysis),指的是一個從文字中抽取資訊的過程。分析包括提取關鍵字、短語、句子、段落,找出主題或「感情色彩」(例如樂觀、悲觀)等。一度成為熱門話題的ChatGPT,其實就是文本分析產物,先透過學習大量文字(書籍、新聞等),除掌握其中資訊,還模仿不同風格文字書寫。這就是GPT中的T,即預先訓練(pre-trained)。GPT中的G,指的是generative(生成式),即可以有樣學樣,產出文字和其他內容(如電腦程式)。
電腦作文本分析仍在改進
超過半世紀以前的高斯,就如一部「人肉電腦」,費盡心機只分析了十數個案例。今天科技進步,靠文本分析的電腦程式又好,直接使用ChatGPT又好,是否可以分析數以千計以至萬計案例,規模龐大N倍地探討社會成本的問題?
以我了解,答案是不可以,或至少非常困難。需知道今天最先進文本分析,跟一個普通人閱讀能力仍有頗大段距離。比如說I go to X by bus,若果我們在香港網上看到這親切的句子,都會知道X是school,但若果句子出現在英美刊物,X就可能是work了。我們懂得填充,是因為我們會看前言後語、會留意語境。這個對我們來說平凡不過的能力,對用電腦作文本分析卻是一個不久前才開始解決的難題。GPT中的T亦即transformer,就是一個掌握語境的技術突破。
高斯分析法律案例的洞見和見微知著,不能透過文本分析直接大量複製。理論上較可行的做法,是找來一班洞察力跟高斯相若的經濟學者,大量示範如何從案例中讀出經濟內容,讓電腦程式學習其中的奧妙後,就可以大量複製同類分析了。至於複製出來的分析質素如何,就不得而知了。
原刊於《am730》,本社獲作者授權轉載。