再談博弈──「重複囚徒困境」與「旅客困境」

財政司長曾俊華最近發表的一篇網誌，題為《從比賽中學習》，傳媒廣泛報道，但都是只引述文中談及電視劇《大時代》的段落。其實曾司長在文中用了更多篇幅討論「囚徒困境」的博弈策略；文題裏的「比賽」，就是有關策略的設計比賽。如果只看報道，不讀原文，便錯過了這主要內容。

「囚徒困境」：看博弈的局限

「囚徒困境」的遊戲規則和策略分析，見本欄較早前的文章。簡單地說，博弈雙方都可以在「合作」和「背叛」兩種策略之間選取其一；倘二人都選「合作」，可以得到最大的共同利益，但如果自己選了「合作」，對方卻選「背叛」，則自己將受最大損害。如果遊戲只玩一次，雙方必然一同選擇「背叛」，以保障自己最大利益。但如果是不斷重複玩下去，從長遠利益考慮，雙方終會堅持「合作」。

如果玩到某次，其中一方為要攫取眼前更大利益，突然轉為「背叛」，那末另一方必然從下一次開始也轉取「背叛」，令雙方重墮互輸的狀態，直至任何一方願意率先「合作」，重建互信。這就是曾司長網誌裏描述的 Tit For Tat（以牙還牙）策略，對怎樣處理現實世界中人際關係裏的矛盾，頗有啟發。

關於博弈者在「重複囚徒困境」裏採取的策略，還有一點很重要的考慮。假設規定遊戲重複玩到一個指定次數之後便告結束，例如說，只玩100次。那末玩到第100次的時候，雙方都會想：這是最後一次了，不用再考慮以後 Tit For Tat 的問題了。雙方都估計，對方為求在這終極一次取得最大利益，必會「背叛」，於是自己也必須「背叛」了。所以，如果重複有限次數，到最後一次雙方必然「背叛」。

但我們還可往前再推算一步。玩第99次時，雙方也會想：按先前的邏輯，不論我這一次採取甚麼策略，「合作」抑或「背叛」，下次（即最後一次）對方一定是「背叛」的，即 Tit For Tat 已不再有效，所以我現在就應「背叛」，以爭取最大利益。同樣的推理可以繼續用於第98次、第97次以至前面的每一次，即用歸納法可推導出：自始至終，每次都應「背叛」！Tit For Tat 只有在無限次數的重複博弈中才會發揮作用，對有限次數的博弈並不奏效。

「囚徒困境」博弈理論，有一個很重要的假設，就是所有博弈者都會通過理性思考，用嚴格的邏輯推理去尋找為自己取得最佳收益的策略。

「旅客困境」：說明理性不一定是最好的

然而，無數實驗證明，真實的人，在博弈時很少會理性地作決定；而人們憑「非理性」決定得到的收益，又往往比理性決定好得多！博弈論裏的「旅客困境」（Traveler’s Dilemma）很可以說明這問題。

航空公司丟失了兩件行李，價值完全相同，但分別屬於兩個互不相識的旅客。航空公司願意賠償，每件不超過100美元。為了定出一個合理的賠償額，公司請兩位旅客分別寫下各自對行李的估值，金額須不低於2美元、不高於100美元。賠償辦法：如果兩人寫下的數字一樣，各自可獲得等於這數字的賠償額。如果兩數不同，較小的就會成為賠償額，而兩人在獲得這賠償的時候，寫下較小金額的可獲多發2美元，寫下較大的則要被扣2美元。如果你是其中一個旅客，你會寫下甚麼金額？

你會想，當然應寫下最大的金額，即100美元，因為另外一個旅客也會寫100美元，這樣兩人都可以獲得這最高賠償了。但你再想深一層：對方寫100，如果你寫99，按公司的賠償辦法，你可得99＋2＝101美元，另一旅客得99－2＝97美元。即是說，寫99比寫100對你更有利。

你繼續想：以上的道理，對方也會考慮到，所以他也會寫99；這樣，如果你也是99，每人便都只得99美元了。為要多拿一點，你應寫98，以拿取98＋2＝100美元；但是，對方出於同樣考慮，也會寫98，於是你要寫97。如是者不斷重複這套邏輯，理性思考的結果，就是你們兩人最終都決定寫下2美元（「納殊平衡」），而兩人都只獲得這最低的賠償額！

在現實處境裏，當然沒有人會這麼笨，寫出最少的2美元。實驗證明，大多數人都會寫100，或很接近100的大數字，結果獲得很好的賠償。實驗不但證明了多數人所作的決定並不是出自理性思考；更重要的，是理性決定不一定帶來最好的效益。

像「旅客困境」這樣的問題令人們相信，博弈裏的最佳策略，往往不是靠理性思考推導得來的。對於政治博弈，這道理尤其真確。

原文刊於《am730》，獲作者授權轉載，本題為編輯所擬。