在互聯網和物聯網的大潮之下,加上芯片、感應器、機械人隨處都是,大數據大行其道,數據科學成為各個領域中的尚方寶劍,彷彿「得數據者得天下」。在足球產業中,這股旋風也是方興未艾,不少分析指出近年的冠軍球隊均得力於數據科學。然而,我們雖然得益於數據大爆炸,在賽事解讀上仍然存在許多先天的缺陷,最致命的就是因果分析的落差。當中的原因,便是分析社會現象和足球賽事,科學家很難模彷自然科學在實驗室中以干預和介入的方法,找出前因和後果的關係。
不過,全球肆虐的新冠肺炎,和由之所引申的封城和解封,正好提供了一次類似的介入干預,把現象分拆為事前和事後、處理組和控制組等,某程度上模擬實驗室中的隨機對照檢測(RCT)。
《經濟學人》今年7月,與一家近年聲名鵲起的「21st Club」(顧名思義,他們自詡是英超作賽的「第21隊」),以疫前和疫後的賽事,對球壇上一個長期存在、但也難以解釋的「迷思」——主場優勢,做了一次「類干預」的差分解釋。
主場優勢既真實卻又難以解釋
主場優勢,既真實卻又難以解釋,德國數據科學家就曾列出(1)熟識場地,(2)球迷支持,(3)球證偏幫,(4)自我安慰(覺得主場佔優所以主場真的佔優)等等,作為解釋項,並總結地說,沒有一項是可以「清晰地被證明」。(註1)
然而,新冠肺炎所引發的疫症大流行,卻給第21隊一次難得的數據採集的機會。他們的樣本,包括了歐洲16個聯賽組別,如英格蘭的英超和英冠,和德國的甲、乙和丙組等,疫前是由2019年8月至2020年3月共5294場比賽作為控制組,疫後復賽的就有自2020年5月以來1534場比賽,作為處理組。
經整理後,他們有以下發現(圖經簡化):圖左邊的第一二列,是疫前和復賽後主隊得分是否多於該場比賽的50%的數據。疫前的數據顯示,共有15個聯賽的主隊平均而言取分的確佔優,其中以西甲、波蘭甲和捷克甲的優勢最明顯,得分近65%;只有奧地利甲例外。但復賽之後,主場優勢有所回落,現在有「只有」有13個聯賽平均而言主隊仍然取分過半。雖然如此,主場仍然明顯佔優(13/16),而且,在那13個組別之中,有7個(包括英超和意甲)的主場得分百分比其實是有所提升的!
圖中第三四列是「球證偏幫」在疫前和疫後的表現。過去不少分析,指主隊的優勢,是透過主場球迷排山倒海的叫喊聲,影響球證的判斷,令其在不自覺之下「偏幫」主隊,懲罰客隊,這體現在罰牌數目。圖中顯示,疫前平均而言,客軍的罰牌數都多於主隊;而復賽後,由於是閉門作賽,情況大幅改善,只有5個聯賽仍然呈現客隊得罰牌數多於主隊。
第一至第四列加在一起,即是說雖然球證比較中立了,主場優勢雖然有所修窄,但是整體上,主隊得分仍然較多。那該怎麼解釋呢?數據科學家在這裏,拉出進一步的數字,試圖解釋為什麼這個現象會持續。圖中第五六列是疫前和復賽後,在那16個聯賽的賽事中,平均而言,主隊是否能夠取得超過50%的射中門機會。結果顯示,疫前主隊是百分百(16/16)佔優;復賽後,主隊的優勢略為下降,但仍在15個組別中呈明顯的優勢。由此,數據大師解釋指主場優勢的持續,是因為主隊射中門的次數多,簡言之,就是主隊踢得好。
以「射中門的次數較多」作因子,難以自圓其說。主場優勢,自然是說主隊得分多,得分多,大部分情況下自然是因為射中球門的次數較多(有例外、但例外不是普遍)。所以,射門佔比,其實很大程度上就是主場優勢的反映,在因果關係的鍊條上,其實更似是一個果子,多於作為一個因子。
大數據或者數據科學,始終須要靠我們用人的思維邏輯(如因果關係的設定)來判斷,否則,給五花八門的圖表嚇唬,還真以為找到了解答迷思的鑰匙。
註1:Memmert, D. & D. Raabe (2018) Data Analytics in Football.
!doctype>