Tag: 獎勵函數

解決獎勵函數漏洞
作者:車品覺2023-05-15
當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。