財政司長曾俊華最近發表的一篇網誌,題為《從比賽中學習》,傳媒廣泛報道,但都是只引述文中談及電視劇《大時代》的段落。其實曾司長在文中用了更多篇幅討論「囚徒困境」的博弈策略;文題裏的「比賽」,就是有關策略的設計比賽。如果只看報道,不讀原文,便錯過了這主要內容。
「囚徒困境」:看博弈的局限
「囚徒困境」的遊戲規則和策略分析,見本欄較早前的文章。簡單地說,博弈雙方都可以在「合作」和「背叛」兩種策略之間選取其一;倘二人都選「合作」,可以得到最大的共同利益,但如果自己選了「合作」,對方卻選「背叛」,則自己將受最大損害。如果遊戲只玩一次,雙方必然一同選擇「背叛」,以保障自己最大利益。但如果是不斷重複玩下去,從長遠利益考慮,雙方終會堅持「合作」。
如果玩到某次,其中一方為要攫取眼前更大利益,突然轉為「背叛」,那末另一方必然從下一次開始也轉取「背叛」,令雙方重墮互輸的狀態,直至任何一方願意率先「合作」,重建互信。這就是曾司長網誌裏描述的 Tit For Tat(以牙還牙)策略,對怎樣處理現實世界中人際關係裏的矛盾,頗有啟發。
關於博弈者在「重複囚徒困境」裏採取的策略,還有一點很重要的考慮。假設規定遊戲重複玩到一個指定次數之後便告結束,例如說,只玩100次。那末玩到第100次的時候,雙方都會想:這是最後一次了,不用再考慮以後 Tit For Tat 的問題了。雙方都估計,對方為求在這終極一次取得最大利益,必會「背叛」,於是自己也必須「背叛」了。所以,如果重複有限次數,到最後一次雙方必然「背叛」。
但我們還可往前再推算一步。玩第99次時,雙方也會想:按先前的邏輯,不論我這一次採取甚麼策略,「合作」抑或「背叛」,下次(即最後一次)對方一定是「背叛」的,即 Tit For Tat 已不再有效,所以我現在就應「背叛」,以爭取最大利益。同樣的推理可以繼續用於第98次、第97次以至前面的每一次,即用歸納法可推導出:自始至終,每次都應「背叛」!Tit For Tat 只有在無限次數的重複博弈中才會發揮作用,對有限次數的博弈並不奏效。
「囚徒困境」博弈理論,有一個很重要的假設,就是所有博弈者都會通過理性思考,用嚴格的邏輯推理去尋找為自己取得最佳收益的策略。
「旅客困境」:說明理性不一定是最好的
然而,無數實驗證明,真實的人,在博弈時很少會理性地作決定;而人們憑「非理性」決定得到的收益,又往往比理性決定好得多!博弈論裏的「旅客困境」(Traveler’s Dilemma)很可以說明這問題。
航空公司丟失了兩件行李,價值完全相同,但分別屬於兩個互不相識的旅客。航空公司願意賠償,每件不超過100美元。為了定出一個合理的賠償額,公司請兩位旅客分別寫下各自對行李的估值,金額須不低於2美元、不高於100美元。賠償辦法:如果兩人寫下的數字一樣,各自可獲得等於這數字的賠償額。如果兩數不同,較小的就會成為賠償額,而兩人在獲得這賠償的時候,寫下較小金額的可獲多發2美元,寫下較大的則要被扣2美元。如果你是其中一個旅客,你會寫下甚麼金額?
你會想,當然應寫下最大的金額,即100美元,因為另外一個旅客也會寫100美元,這樣兩人都可以獲得這最高賠償了。但你再想深一層:對方寫100,如果你寫99,按公司的賠償辦法,你可得99+2=101美元,另一旅客得99-2=97美元。即是說,寫99比寫100對你更有利。
你繼續想:以上的道理,對方也會考慮到,所以他也會寫99;這樣,如果你也是99,每人便都只得99美元了。為要多拿一點,你應寫98,以拿取98+2=100美元;但是,對方出於同樣考慮,也會寫98,於是你要寫97。如是者不斷重複這套邏輯,理性思考的結果,就是你們兩人最終都決定寫下2美元(「納殊平衡」),而兩人都只獲得這最低的賠償額!
在現實處境裏,當然沒有人會這麼笨,寫出最少的2美元。實驗證明,大多數人都會寫100,或很接近100的大數字,結果獲得很好的賠償。實驗不但證明了多數人所作的決定並不是出自理性思考;更重要的,是理性決定不一定帶來最好的效益。
像「旅客困境」這樣的問題令人們相信,博弈裏的最佳策略,往往不是靠理性思考推導得來的。對於政治博弈,這道理尤其真確。
原文刊於《am730》,獲作者授權轉載,本題為編輯所擬。