奇妙的7和詞式文本

本文從認知心理學的大腦通道理論談到資訊單元和信息量概念，以及這些概念在詞式文本方面的應用。文章還說明資訊通道影響資訊單元的選擇和展望世界文字的字母化趨勢。

認知心理學的發現

美國 Princeton 大學認知心理學家 George A. Miller 於 1956年發表題為《奇妙的7，加減2我們處理資訊時的一些限制》（註1）。文章指出大腦同時處理資訊的能力是 7 單元左右，單元過多便會難記。但資訊單元所含的信息量卻可大可小，而人們傾向於使用信息量較大的資訊單元。

資訊單元的信息量

Shannon的資訊理論規定，毫無變化的單一符號信息量為 0。在符號出現頻率不變的理想情況下，可以用 log(2) [符號數目] 來計算出單個符號的信息量。二進位只有 0 和1 兩個符號，因此log(2) 2 = 1，即單個二進位元符號的信息量為 1比特。符號的信息量又稱為資訊熵（information entropy）。

英文字母為27 （註2），根據出現頻率相等的理想狀態來計算，log(2) 27 = 4.76 比特。但是，實際上字母有不同的出現頻率，Shannon 用實驗方法測定英文句子裡每個字母的信息量約為 1.9 比特。漢字元號眾多，句子裡每個漢字的信息量估計為 6.5 比特左右。漢字的信息量高於英文字母，但代價是符號太多和無序，不利於學用和資料檢索。

就符號佔用空間而言，漢字信息量高，佔用空間小。例如：「風花雪月」和 “wind flower snow moon” 中英兩片語的對比顯示，漢字佔用空間較小。不過，英文縮寫卻能夠大幅度壓縮資訊。例如：CEPA (Closer Economic Partnership Arrangement) 即（內地與香港關於建立更緊密經貿關係安排）。試問開會討論 CEPA 問題時，如何稱呼該會議呢？

反映大腦7 通道的實例

唐詩多為五言和七言詩，很少八言詩。例如：「白日依山盡，黃河入海流」為五言詩，「回眸一笑百媚生，六宮粉黛無顏色」則為七言詩。古人雖然沒有發現「奇妙的7」的大腦通道規律，但寫詩時卻自然地遵循這個規律。

美國 AT&T (美國電話電報公司) 在上世紀 60年代規定電話號碼時，考慮到「奇妙的7」規律，決定把社區電話號碼設定為 7 數位，例如，4729172，然後又分別規定不超過三位元數位的區域碼和國家碼。美國和加拿大的國家碼為 1，中國為 86 而香港則為 852。採用 1 為國家碼肯定方便些。筆者記得 60年代在 AT&T 屬下設在加拿大 Ottawa 的 Advanced Research Centre 任職工程師時，正好是該公司設定電話號碼的時候。研究員在介紹按鍵式音訊電話（touch-tone telephone）時指出，在使用新穎的音訊電話機時，跟舊式的輪盤電話機相比，撥電話所需時間可以從幾十秒減為幾秒。

香港這個小地方，竟然使用 8 位元數位的電話號碼。這也許是電話公司沒有考慮到‘奇妙的7’規律的緣故。大家在看到 8位元數字電話號碼時，會感到不容易記。不過，如果把它切分為兩個 4 位元數位組，就會好記得多，例如把28401463切分為 2840 1463。筆者建議，所有使用 8 位元數位電話號碼的地方，都應該推廣 4位元數字的號碼切分法。

「奇妙的7」和詞式書寫

上文舉例的「內地與香港關於建立更緊密經貿關係安排」字串因為遠超 7個漢字資訊單元不好記。但如果採用詞式書寫和簡約的辦法改寫為「內地與香港更緊密經貿關係安排」（相當於7個資訊單元）便會更容易記了（註3）。把長串漢字按詞或片語切分後，即可把若干單字組成為信息量較大的資訊單元。拼音字頭縮寫還可以有更佳的效果。漢字按照思維習慣進行詞式組塊書寫，便能夠提高漢字文本的資訊處理效率。因此筆者建議中國語文學界推行詞式書寫。

其實，人們閱讀時也像機器雙文翻譯那樣，要先切分詞塊，然後再辨別其含意。詞式書寫省掉讀者們的詞塊切分麻煩和避免因切分錯誤而不必要地出現歧義（註4），從而提高閱讀的效率和準確度。相對于英文而言，連寫的漢字句子偏短。詞式書寫的漢字句子可以更長些。

資訊處理是以詞或片語為單元的。例如，在網上找尋「流感」一詞的出現頻率可以比醫療機構更快地發現流感正在某地蔓延（註5）。詞式書寫更加配合大資料時代的需要。詞本位理論才是指導語文實踐的正確理論。

毫不偶然的是，世界各國文字都採用詞式書寫，中文拼音也不例外，例如： “rang women dajia yiqilai changge tiaowu” 僅僅包含 6 個資訊單元。即「讓我們大家一起來唱歌跳舞」。但傳統的漢字連寫「讓我們大家一起來唱歌跳舞」卻包含12個資訊單元。這足以證明全連寫的漢字句子由於資訊單元太多而不便記認。與之相比，切分後只有 6 個資訊單元的句子，讀起來就容易得多。

資訊單元的選擇

電腦之所以使用二進位元數位作為資訊單元，因為電腦的通道可以擴大到遠超人腦的，例如按照 8 通道累進到 16, 32, 64, 128 以至更多的通道。換句話說，現代電腦可以同時處理高達128 個比特的資訊單元，遠超人腦的只能處理 7個資訊單元。因此，電腦可以使用 0 1 兩個簡單的符號，而人腦則需要使用 0 至9 的十進位元數位系統，以配合人腦通道少的需要。

我們如何理解通道上的資訊單元呢？筆者認為可以用公路上行駛的交通工具來作比擬。每條行車線相當於大腦的一條通道。在同一時間上，每條行車線上只能有一個交通工具，不管是摩托車，小汽車，公共汽車或大卡車。它們各有不同的運載量。大腦通道上也可以運行信息量不同的資訊單元。字母縮寫仿佛像大卡車，GDP，CDB，RMB，它們分別等於國內生產總值，中央商業區和人民幣。大腦通道的優化利用是現代資訊學的重要課題。

字母文字和非字母文字

世界語文的發展從古代的象形文字走向字母文字。數目有限的表音字母方便學習和使用，尤其是在資料排序檢索方面的使用。在象形基礎上發展起來的非字母漢字，由於字數繁多、表音能力差和排序困難而難以適應現代社會的需要。回顧歷史，漢字其實也不適合農耕社會的需要【6】。國人自從接觸到字母文字以後，有識之士不斷地努力進行中文拼音化，以便享受到字母的好處。中國終於在 1958年正式頒佈和推廣中文拼音，以之作為輔助漢字的工具。

在二十一世紀的今天，中文拼音已經在漢字輸入法和資料排序和檢索等方面發揮愈來愈大的作用。字母的應用可以彌補漢字的不足，讓漢字能夠更加有效用地使用。當前一些學者致力發展字母式漢文，以期最終實現與漢字並駕齊驅的一語雙文願景。

目前在語文現代化方面，有需要擴大拼音排序和字母縮寫的應用。以便進一步提高信息量和加強在科技研究和資料再找尋方面的功能。同時也應該配合國際上地名單一羅馬化的發展，在國內外推廣使用羅馬拼式的地名。

註釋：

註1： The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information is one of the most highly cited papers in psychology. It was published in 1956 by the cognitive psychologist George A. Miller of Princeton University’s Department of Psychology in Psychological Review. It is often interpreted to argue that the number of objects an average human can hold in working memory is 7 ± 2. This is frequently referred to as Miller’s Law.

註2：空格當作為一個字母，Shannon 在計算英文字母資訊熵時，忽略出現頻率低的大寫字母。

註3：資訊的切分又稱為組塊（chunking），把較小的資訊單元組合成為較大的單元。

註4：不同的切分會產生歧義，例如，‘環院長跑’可以切分為 ‘環院長跑’或 ‘環院長跑’。

註5：Google 利用大資料技術來提供超過 25個國家的估計流感（influenza）的趨勢。 (見WIKIPEDIA： Google Flu Trends)

註6：中西學術界認為，中國古代的四大發明是心靈手巧的產物，跟符號系統不沾邊。中國的美食也是如此。由於漢字元號不利於再找尋（research）, 以至難以承傳前人的研究成果，不斷需要反復從事低水準的研究，導致社會發展長期停滯。人們感到，宋徽宗時代（1120 年前後），由張擇端創作的《清明上河圖》中所描述的社會情況似乎不變地延續到清末。這很能反映中國社會長達八百多年的發展停滯。