理解4V特性共同點

筆者覺得大數據和大型語言模型(LLM)之間存在許多相似性,可以通過大數據的「4V」特性來理解:Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實性)。

過去10年間,大數據的發展深深地影響大型AI(人工智能)模型(如深度學習和機器學習模型)的進步及應用。隨着大數據的普及與可訪問性增加,大規模模型訓練呼之欲出。雲計算及先進的數據分析技術,使我們能夠處理和分析之前無法處理的非結構化數據(例如文章、影像等),從而訓練出更複雜的模型,如BERT和GPT-4等大規模語言模型的應用。

「4V」特性

然而,筆者覺得大數據和大型語言模型(LLM)之間存在許多相似性,值得用家們參考,這些共通點可以通過大數據的「4V」特性來理解:Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實性)。

一、體量(Volume)

大數據和LLM都需要處理大量數據。處理這些數據的成本包括硬體、軟件、人力等資源。同時,數據的保護和私隱也是重要成本。當然更值得我們深思的是,往後走下去,數據量真是愈多愈好嗎?還是會出現飽和現象?

二、速度(Velocity)

在大數據和LLM中,處理速度至為重要。大數據需要快速捕獲、儲存、處理和分析,而LLM需要快速處理和理解輸入的文本數據,以滿足用戶的實時需求,但追求速度的背後,當然是高昂成本及投資回報。

三、多樣性(Variety)

大數據和LLM都要處理多種來源的數據。處理和分析不同類型數據,可以讓我們從多個角度理解一個問題,從而獲得更全面的洞察。那麼大模型是否會像大數據一樣,需要有很多小模型作為交接點,從而產出價值?

四、真實性(Veracity)

大數據的價值和LLM的表現,很大程度上取決於數據的質量。但因多源異構的關係,數據質量是無法像小數據作清洗及驗證,因此在使用時都要格外小心及作多方驗證,甚至僅可以作為大方向指引,或者與傳統分析一併使用。

監督的關注點

當處理大數據和LLM時,還需要考慮數據的私隱和安全問題。對於大數據,監管主要關注是如何收集、儲存和使用數據,以及如何保護數據的安全和私隱。對於LLM,雖然亦需要保護訓練數據的私隱,但更重要的是,如何確保模型生成的文本不會洩露敏感訊息。

毋庸置疑,LLM具有巨大的潛力,可以提高生產力,甚至幫助獲取新的知識和技能。我們需要在創意與效率之間找到平衡,筆者建議企業或個人在使用GPT類似的產品時,最好先從自己熟悉的範疇開始,學習如何與人工智能合作,最好預設它不一定會給你最準確的答案,而是提供較有創意但又模糊(Probabilistic)的建議供參考。

原刊於《信報》,本社獲作者授權轉載。

車品覺