你曾經有養狗的經驗嗎?姑勿論主人對狗狗期望高低,訓練寵物時都少不免要給予獎勵。最常見的把戲,莫過於主人向狗狗發出一個指令(狀態),例如「坐下」(Sit),牠會根據指令,做出坐下的行動(Action),在狗狗正確地執行了指令後,主人會給予獎勵(Reward)。通過不斷地重複發出指令、成功執行行動和給予獎勵的行為,狗狗會獲得更多的累積獎勵(包括快樂)並完成訓練任務。
以上是正向強化學習的簡單原理,強化學習是人工智能(AI)的一個應用方式,例如在自動駕駛、聊天機械人等領域,這些智能應用通過與環境的交互,不斷地接受指令並從行動中學習,而「獎勵函數」正是用來評估智慧應用的行為模式與目標是否吻合,通過達成最大化獎勵來優化智能應用。
獎勵函數的不足
可想而知,當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。
我們把這種情況稱之為「獎勵函數漏洞」(Reward Hacking),這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。
讓我舉一個活生生的例子,在學校裏學生的表現,往往是通過考試成績來評核的。如果學生在考試奪得高分,就容易得到老師讚許,甚至可以獲得獎學金。
不過,倘若過度「獎勵」學生的考試成績,而不關注學生的實際學習情況和能力,那麼學生可能會傾向死記硬背來考取高分,最終獲得獎勵,但實際上可能未必真正掌握到應用知識和技能。因此,執教者需要因應學生的學習情況和能力,設計更加多樣化的獎勵方式來鼓勵學生,這可能包括更多的實踐、項目研習和體驗,嘗試從多方位角度評估,以確保學生正確被激勵。
解決漏洞的方法
解決獎勵函數漏洞方法之一,是增強獎勵函數的魯棒性(Robustness),使其能夠更好地抵禦異常及危險意外情況,盡可能地避免漏洞的出現。然而,有時「人算不如天算」,且說在學校使用ChatGPT做作業,就已經造成「獎勵漏洞」。世界各地大學對此持着不同意見,可見現實生活中的「加強學習」更比想像中為複雜。
原刊於《信報》,本社獲作者授權轉載。