新一季的英超,穿越那超現實的歐國盃和扣人心弦的奧運會,悄然逼近。今年夏天各球會各有各忙,球會高層、經紀和球星,穿梭於簽發支票、跳草裙舞、欲拒還來之間,不亦樂乎。營營役役,又在重演多年來另一齣超現實的英雄電影:因我的出手而拯救宇宙……唔……因果關係就是簽人花錢等結果這個流程的嗎?
老生常談的前因後果
為了理解身邊發生的現象,我們喜歡追因究底,為果子(Y)抽絲剝繭找到因子(X),是最原始的思想模式。球場上因果分析的例子很多,最重要的可能是有何因素決定誰是聯賽冠軍。
是不是冠軍這個結果一般可以用Y(果子)來標示,那麽大家便指手畫腳,說是球員素質、身高、士氣,甚至運氣等等的因素所致,這些因子,可以用X1、X2、X3……Xn標示之。 以長距離的視角來看,足球賽果的口水戰之中,經常看到一個漏斗圖。這個斗子中間因子關係混亂,果子緣何成為結果,無從分析,依此而生的口水戰,常生思想混沌之嫌。
如果可以的話,我們應該排開各個因子而以箭嘴射向圓心的「扇狀圖」來表達因果關係。球迷之間的口水戰(以至社會上各個領域的話題),常因為沒有用扇形的因果箭嘴圖,弄致論者不知其所言,聽者更不知其所以然。
根據圖靈獎的掌門人(J Pearl, Book of Why),我們常講的因果、創造和想像之間的關係,有三個層次。
第一層是霧裏看花的數據相關
由底層的第一層逐級攀上到頂層的第三層,因果關係就愈明晰,前因愈能解析後果。第一層因果關係最弱,是霧裏看花,探索數據的相關值。第二層是君子動手,以干預加力作檢驗。第三層因果關係最強,是反事實論,即我們口語的「如果唔係」。
在下的《超級巨星經濟學》新修版對第三層已有不少落墨,這裏容許我補白。第一層的因果解讀,核心就是相關性(correlation)。但相關性因果其實有很多局限。相關性,也就是兩組觀察值,一組是各種各樣「疑似」的因子(如球員質素、身高……),另一組是果子(如戰果),兩組之間存在一些關係,如同進同退、或「有你冇我」;數字上,前者是由0到1的正相關,後者就是從-1到0的負相關;0就是各不相干。
由於電腦與生俱來的條件,在計算相關值的運算上,比血肉之軀優勝,在儲存數據上我們很難與之匹敵,再加上計算、配對、檢測等等的運算均是吃力活,在這個第一層的因果階梯上,注定我等「飯桶」吃虧。
巧合/魔力為相關減分
啟發在下以球論經的是名著Soccernomics,其副題用了三個「為什麽」。當中在「解釋」英超和英冠等45隊球會在2007-16年間的成敗時,就是用相關性。結論是,球會的工資是解釋各隊在聯賽排名的最佳因子。大師指工資可以「解釋」(explained)超過九成的聯賽排名這個結果,而其強度指數R2為0.9219,非常接近1這個極點。
不過,「相關」不等於「因果」! 一齊出現,可以是(1)巧合,也可以(2)是它們幕後有另外一(多)股魔力。
大師似乎也明白他們這個說法有問題,還幽了自己一默,說:「我們也不是說球會只要不分青紅皀白,閉起眼睛給現有的球員猛加工資,球會的成績就會好了起來。」為了「補鑊」,他們說:「高工資是不會引致(cause)好成績,應該說,高工資可吸引高質的球員……取得好成績……」只是,這樣一拉出去,又會引起何謂「高質」,扯進來N個X來,到最後,恐怕又回到上面説的那個漏斗之中。
所以,大師之作(初版2008),的確是開山劈石地把足球文成宗立派,登上殿堂,但作品和視角仍有不少空間留白,有待各代弟子自行修煉。
青出於藍並非不可能。
原刊於《足球周刊》,本社獲作者授權轉載。