為什麼評判都喜歡浮誇？

選秀選拔是現代社會的常態，當中評審團是怎樣打分的？

我們在日常生活和商場上，經常參加各種選秀賽，只是賽事型式不同、名稱不一。跟娛樂節目的新星選拔相似，投行間比拚的「選美會」、基金經理「冧」退休金主的輪選會和職場上的面試日等，篩選邏輯就是選手們施展渾身解數，而評審團根據客觀和主觀的指標打分。其實這等選秀賽和打分在足球賽事中經常上演，世界盃、英超、意甲等頂級比賽，吸引不少專家評審，當中優勝和劣敗，除了計分板上的絕對輸贏外，專家對個球員的評級就大有文章。

評審團以成敗論英雄

在下新書《超級巨星經濟學》中提到的複雜網絡學和程式科學家（以Albert-Laszlo Barabsi為代表，下簡稱「科學家」），曾以真實的賽事和賽後球星的評級，做了個「對評審團的評審」，其結論是，運氣以外（書中有詳細描述），評審團大部分時間以成敗論英雄；選手們要高分，得學Eason唱「浮誇」。

科學家用意甲2015-16至2016-17兩季760場賽事中的大數據為基礎。數據有多大？每場有100萬個事件，含事件發生的坐標、時間、人物和結果等非常細緻的情景，由之構成150個技術指標（傳球、射門……犯規等），和約2萬個技術向量的結集，以意甲20隊每隊25人共500個球員作為基數（兩季會有出入但從簡計算），每人有至少在40結集中——傳球集就一定有多於一人的。

專家評審的數據，是以三份當地最大的報章所聘用資深體育記者對所有球員的賽後評級。意國國民對足球的狂熱是眾所周知，要成為資深記者，每人都得具百科全書般的記憶、觀賽無數的閲歷方可入行，之後還要打入更衣室和球會酒吧，有徹夜不眠的體能，所以是頭腦和體力缺一不可。這個數據集的評級就是各評審員在每場比賽後對每個球員給出由0至10分的評價。就在梳理評級、還未做回歸或其他深層分析的階段，第一個發現就是專家的評審結果，經常南轅北轍，球員可能在一個比賽中被評為最佳和最差，這不是例外，而是佔總數的20%！

宏觀經濟般的球員研究

接著，為了深入分析評審團的評級過程和背後的標凖，科學家利用程式和機器學習，模擬在「正常」的情況下，球員的評級「應該」是什麽：根據上述150個技術指標的結集，推算如果純粹以技術指標作「參照點」的話，球員的應有評級，這就是「智能評審員」。最後就是把這個理論評級和實際的評級印證，從而看評審員在「人肉」的審核過程中，到底考慮什麽元素。

這其實與近年分析師在宏觀經濟的政策研究有好些相似之處，均以理論建立一個可信性高的中性模型，然後把模擬的政策/球評與現實對照，從中找出一些不符合推測之處，挖掘有趣的秘密。

結果? 篇幅有限，下周再講，但本欄的題目就有劇透。

原刊於《明報》，本社獲作者授權轉載。