奇妙的7和詞式文本

把 長串漢字 按詞或片語 切分 後,即可 把 若干單字 組成 為 信息量 較大的 資訊單元。 拼音 字頭 縮寫 還可以 有 更佳的 效果。

本文 從 認知心理學 的 大腦通道 理論 談到 資訊單元 和 信息量 概念, 以及 這些 概念 在 詞式文本 方面 的 應用。 文章 還說明 資訊通道 影響資訊單元的選擇和展望世界文字的字母化趨勢。

認知心理學的發現

美國 Princeton 大學 認知心理學家 George A. Miller 於 1956年 發表 題為《奇妙的7,加減2我們 處理 資訊時 的 一些 限制》(註1)。文章 指出 大腦 同時處理 資訊 的 能力 是 7 單元 左右,單元 過多 便會 難記。 但 資訊單元 所含的 信息量 卻 可大可小,而 人們 傾向於 使用 信息量 較大的 資訊單元。

資訊單元 的 信息量

Shannon的 資訊理論 規定,毫無變化 的 單一符號 信息量 為 0。 在 符號 出現 頻率不變 的 理想情況下,可以 用 log(2) [符號數目] 來 計算出 單個符號 的 信息量。 二進位 只有 0 和1 兩個 符號,因此log(2) 2 = 1,即 單個 二進位元 符號 的 信息量 為 1比特。 符號 的 信息量 又 稱為 資訊熵 (information entropy)。

英文字母為27 (註2),根據 出現 頻率相等 的 理想狀態 來 計算,log(2) 27 = 4.76 比特。 但是,實際上 字母 有 不同的 出現 頻率,Shannon 用 實驗方法 測定 英文句子裡 每個字母 的 信息量 約為 1.9 比特。 漢字元號眾多,句子裡 每個 漢字 的 信息量 估計為 6.5 比特 左右。漢字 的 信息量 高於 英文字母,但 代價是 符號 太多 和 無序,不利於 學用 和 資料檢索。

就 符號 佔用 空間 而言,漢字 信息量高,佔用 空間小。例如:「風花雪月」 和 “wind flower snow moon”  中英兩片語 的 對比 顯示,漢字 佔用 空間 較小。不過,英文縮寫 卻 能夠 大幅度 壓縮 資訊。例如:CEPA  (Closer Economic  Partnership Arrangement) 即(內地與香港關於建立更緊密經貿關係安排)。   試問 開會 討論 CEPA 問題時,如何 稱呼 該 會議 呢?

反映 大腦7 通道的 實例

唐詩 多為 五言 和 七言 詩,很少 八言詩。例如:「白日依山盡,黃河入海流」為 五言詩 ,「回眸一笑百媚生,六宮粉黛無顏色」則為 七言詩。古人 雖然 沒有 發現 「奇妙的7」的 大腦通道 規律,但 寫詩時 卻 自然地 遵循 這個 規律。

美國 AT&T (美國電話電報公司) 在 上世紀 60年代 規定 電話號碼 時,考慮到 「奇妙的7」規律,決定 把 社區 電話號碼 設定為 7 數位,例如,4729172,然後 又 分別規定 不超過 三位元數位的 區域碼 和 國家碼。美國和加拿大的 國家碼 為 1,中國為 86 而 香港 則為 852。  採用 1 為 國家碼 肯定 方便些。 筆者 記得 60年代 在 AT&T 屬下 設在 加拿大 Ottawa 的 Advanced Research Centre 任職 工程師時,正好 是 該公司 設定 電話號碼 的 時候。 研究員 在 介紹 按鍵式音訊電話(touch-tone telephone)時 指出,在 使用 新穎的 音訊電話機 時,跟 舊式的 輪盤電話機 相比,撥電話 所需 時間 可以 從 幾十秒 減為 幾秒。

香港 這個 小地方,竟然 使用 8 位元數位 的 電話 號碼。 這 也許 是 電話公司 沒有 考慮到‘奇妙的7’規律 的 緣故。大家 在 看到 8位元數字 電話號碼時,會 感到 不容易記。不過,如果 把它 切分為 兩個  4 位元數位組,就會 好記得多,例如把28401463切分為 2840 1463。 筆者 建議,所有 使用 8 位元 數位 電話號碼的 地方,都應該 推廣 4位元數字 的 號碼 切分法。

「奇妙的7」和 詞式書寫

上文 舉例 的 「內地與香港關於建立更緊密經貿關係安排」字串 因為 遠超 7個 漢字資訊單元不好記。但如果 採用 詞式書寫 和 簡約 的 辦法 改寫為 「內地 與 香港 更緊密 經貿 關係 安排」(相當於7個 資訊單元)便會 更 容易 記了(註3)。 把 長串漢字 按詞或片語 切分 後,即可 把 若干單字  組成 為 信息量 較大的 資訊單元。 拼音 字頭 縮寫 還可以 有 更佳的 效果。 漢字按照 思維 習慣 進行 詞式 組塊書寫,便能夠 提高 漢字文本 的 資訊處理 效率。因此 筆者 建議 中國 語文學界 推行 詞式書寫。

其實,人們 閱讀時 也像 機器 雙文翻譯 那樣,要先 切分 詞塊,然後 再辨別 其含意。詞式書寫 省掉 讀者們 的 詞塊切分 麻煩 和 避免 因切分錯誤 而 不必要地 出現 歧義(註4),從而 提高 閱讀 的 效率 和 準確度。 相對于 英文而言,連寫的 漢字 句子 偏短。 詞式書寫 的 漢字句子 可以 更長些。

資訊處理 是 以詞或片語 為 單元的。例如,在 網上 找尋 「流感」 一詞的 出現 頻率 可以 比 醫療機構 更快地 發現 流感 正在 某地 蔓延(註5)。詞式書寫  更加配合 大資料時代的 需要。詞本位理論 才是 指導 語文實踐 的 正確 理論。

毫不偶然 的是,世界各國 文字 都採用 詞式書寫,中文拼音 也不例外,例如: “rang women dajia yiqilai changge tiaowu” 僅僅 包含 6 個 資訊 單元。即 「讓 我們 大家 一起來 唱歌 跳舞」。 但 傳統的 漢字連寫 「讓我們大家一起來唱歌跳舞」 卻包含12個 資訊單元。 這 足以 證明 全連寫的 漢字句子 由於 資訊單元太多 而 不便 記認。與之 相比,切分後 只有 6 個 資訊單元 的 句子,讀起來就 容易 得多。

資訊單元的 選擇

電腦 之所以 使用 二進位元 數位 作為 資訊單元,因為 電腦的 通道 可以 擴大到 遠超 人腦的,例如按照 8 通道 累進到 16, 32, 64, 128 以至 更多的 通道。換句話說,現代 電腦 可以 同時 處理 高達128 個 比特 的 資訊單元,遠超 人腦 的 只能 處理 7個 資訊 單元。 因此,電腦 可以 使用 0 1 兩個 簡單的 符號,而 人腦 則需要 使用 0 至9 的 十進位元 數位 系統,以 配合 人腦通道少 的 需要。

我們 如何 理解 通道上的 資訊 單元 呢? 筆者 認為 可以 用 公路 上 行駛 的 交通工具 來作 比擬。 每條 行車線 相當於 大腦的 一條 通道。 在 同一時間上,每條 行車線上 只能有  一個 交通工具,不管 是 摩托車,小汽車,公共汽車 或 大卡車 。它們  各有 不同的 運載量。 大腦 通道上 也可以  運行 信息量不同 的 資訊單元。字母縮寫 仿佛 像 大卡車,GDP,CDB,RMB,它們 分別  等於 國內生產總值,中央商業區 和 人民幣 。 大腦 通道的 優化 利用 是 現代 資訊學的 重要 課題。

字母文字 和 非字母文字

世界語文的 發展 從 古代 的 象形文字 走向 字母文字。數目 有限 的 表音字母 方便 學習和使用,尤其是 在 資料 排序檢索方面 的 使用。 在 象形 基礎上 發展 起來 的 非字母 漢字, 由於 字數繁多、表音能力差 和 排序困難 而 難以 適應 現代社會的 需要。 回顧歷史,漢字 其實 也 不適合 農耕社會的 需要【6】。 國人 自從 接觸到 字母文字 以後,有識之士 不斷地 努力進行 中文拼音化,以便 享受到 字母 的 好處。 中國 終於 在 1958年 正式 頒佈和推廣 中文拼音,以之 作為 輔助 漢字的 工具。

在 二十一世紀的 今天,中文拼音 已經 在 漢字輸入法 和 資料排序 和 檢索等 方面 發揮 愈來愈大 的 作用。 字母 的 應用 可以 彌補 漢字的 不足,讓 漢字能夠 更加 有效用地 使用。 當前 一些學者 致力 發展  字母式 漢文,以期 最終 實現 與 漢字 並駕齊驅 的  一語雙文 願景。

目前 在 語文 現代化方面,有需要 擴大 拼音排序 和 字母縮寫 的 應用。 以便 進一步 提高 信息量 和 加強 在 科技 研究 和 資料再找尋 方面 的 功能。 同時 也應該 配合 國際上 地名  單一羅馬化的 發展,在 國內外 推廣使用  羅馬拼式的 地名。

註釋:

註1: The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information is one of the most highly cited papers in psychology.   It was published in 1956 by the cognitive psychologist George A. Miller of Princeton University’s Department of Psychology in Psychological Review. It is often interpreted to argue that the number of objects an average human can hold in working memory is 7 ± 2. This is frequently referred to as Miller’s Law.

註2:空格 當作為 一個 字母,Shannon 在 計算 英文字母 資訊熵 時,忽略 出現   頻率低 的 大寫 字母。

註3:資訊 的 切分 又稱為 組塊 (chunking),把  較小的 資訊單元 組合 成為     較大的 單元。

註4:不同的 切分 會產生 歧義,例如,‘環院長跑’可以 切分為 ‘環 院 長跑’或 ‘環 院長 跑’。

註5:Google 利用 大資料 技術 來 提供 超過 25個 國家 的 估計 流感 (influenza)的 趨勢。 (見WIKIPEDIA: Google Flu Trends)

註6:中西 學術界 認為,中國 古代 的 四大發明 是 心靈手巧 的 產物,跟 符號系統 不沾邊。 中國 的 美食 也是 如此。  由於 漢字元號 不利於 再找尋(research),  以至 難以 承傳 前人 的 研究成果,不斷 需要 反復 從事 低水準的 研究,導致 社會 發展 長期停滯。 人們 感到,宋 徽宗 時代(1120 年 前後),由 張擇端 創作的 《清明上河圖》中 所描述的 社會情況 似乎 不變地 延續到   清末。 這 很能反映 中國 社會 長達 八百多年的 發展停滯。

吳文超