全球數碼化經濟發展勢不可擋,當中數據更是人工智能(AI)的基石,今天幾乎所有人工智能應用都建基於大數據分析。國際統計研究報告(statista.com) 估算全球產生的數據量將會由2010年的2ZB(即2×10的21次方,1×10^21)躍升80多倍至175ZB。面對這趨勢,環球科技巨擘阿里巴巴(09988)的創始人馬雲於2015年提出「數據科技」(Data Technology,DT)的技術發展方向,並認為企業可利用「數據科技」為普羅大眾提供更多及更好的服務。
分布式運算 處理超量數據
實際上「數據科技」主要集中於驅動「大數據」分析之軟件及硬件的科技,當中包括支持「機器學習」(Machine Learning,ML)。不過由於網絡數據量日益劇增,「機器學習」的效率受到嚴重挑戰。
就此,數據科學家(Data Scientist)提出「分布式學習」(Distributed Learning)算法,把學習任務由中央伺服器(例如雲端)分派至不同的終端電腦工作站內進行,再把結果送返中央集成後進行共享。如此這般,若然拋開了數據傳送的間接成本的話,利用N部電腦進行分工,學習效率理論上可加快N倍。
當解決了大數據分析有關「量」的樽頸之後,另一與大數據分析密不可分的問題是用戶私隱。針對這問題,另一批科學家推出「聯邦式學習」(Federated Computing)算法。
這算法讓分布在不同地方的電腦(例如終端伺服器或移動智能設備) 因應其自身擁有的數據進行本地學習,再把結果送給中央伺服器(雲端)作整合,然後把學習模型公開共享。
這種「集思廣益」方法,充分利用各分布的終端電腦內之本地知識和運算能力,讓終端電腦各自發揮所長,有效解法「資訊孤島」問題。要注意的特點是過程中本地數據不能離開它所屬的電腦,這做法避免了用戶私隱外洩。
嚴格而言,「分布式學習」和「聯邦式學習」在操作上均廣泛利用「分工合作」的原理進行大規模分布式運算,但兩者的分別在於數據管理方法。在「分布式學習」的框架之下,雖然數據分布在不同終端,但其管理完全由中央統籌,因此中央對所有數據瞭如指掌。
原駐電腦分析 免資料外洩
相比之下,「聯邦式學習」的數據是由個別終端伺服器或移動智慧設備擁有。這樣「去中央化」的安排的優點是徹底保障數據私隱,例如甲與乙公司之電腦會獨立處理自己客戶的機密數據,運算中除了學習模型外,無須輸出其他數據。
「聯邦式學習」另一優點是中央伺服器可以因應終端電腦的功能選擇性的起動並行式的「機器學習」,當中不同電腦可能進行不同目標的學習任務。然而,參與「分布式學習」的終端電腦之任務始終是一致的,仍然由中央伺服器主導。
最後,筆者認為隨着5G及智慧城市在全球迅速發展及各地對數據私隱的關注,「聯邦式學習」將會愈來愈重要,例如我們每日攜帶的智能電話將成為一部活躍的「聯邦式學習」代理人,與附近的代理人緊密協作,繼而優化自身及周邊其他智能設備所提供的應用服務。如此這般,不同「代理人」群組可以進一步透過聯邦形式構建一個高效的「智慧城市」。
原刊於《信報》,本社獲作者授權轉載。