真數據都可以騙人

香港的基礎教育,對數學能力的基礎培訓已很足夠,大家閱讀分析報告時,只要理智地多想幾次,便不會被誤導!

筆者聖誕節時去了日本旅遊,發現當地大部分人均是選用iPhone,不像香港人會用不同品牌的手提電話。我想想,日本著名品牌索尼(SONY)也有推出手提電話,為何愛國的日本人,不採用日本品牌的手機呢?回港後向一位修讀社會學、對日本文化素有研究的朋友請教,原來崇美是一個主因,而CNN多年前曾報道一項研究──Smarter people use iPhones,以美國人及日本人為抽樣對象,研究發現用iPhones的人士比用其他手提電話的,平均教育水平、薪酬、社交能力及因社交能力較強而得到的協助都較優勝。日本人是否深信不疑?曾有文章指出,日本女學生如不用iPhone便會被排擠!

筆者對此感到很納悶,因文章並沒有詳述研究的手法,以及如何量化數據,只是直接公布結果。現今社會,恐怕由中學生至成年人,大都至少有一部手提電話。美國雖是iPhone市場佔有率全球最高的國家,但國內仍有部分貧窮人口、露宿者、長者、失智的朋友,卻未必人人擁有一部手提電話。由於文章已提及數據組成,筆者只是納悶地估計,這份文章似推銷的文稿多於學術性文章。

因果相關要弄清

筆者年幼時家貧,3歲始便陪伴母親去工廠上班,否則便沒人照顧。那時製衣業、玩具業在香港盛行,只要肯努力,不難找到工作。當年內心最大的遺憾,是童年時並無玩伴,亦鮮有到公園遊玩的日子,在幾乎沒有社交生活下成長。16歲前也只有不足10次到尖沙咀,這種社交困乏對筆者成長經歷而言是一份遺憾,同時成長過程中亦沒有友伴可以支持、協助、傾訴!筆者有些同學,都是在這樣的困境下成長,他們大部份選擇了少年輟學,鮮少會升讀大學,而投身的工作可能是一些技術性工種,現時人到中年,隨着部分工種消失,他們亦缺乏能力改變現狀,有的會選擇一些工時極長、薪酬較低的工作,而他們的小朋友也只能重回舊路,在貧窮下成長。

這種跨代貧窮現象並不罕見,但究竟是「因果性」還是「相關性」的呢?從統計學來說,很多數據都有高度關連,例如學歷高、成績好的同學,捱夜的時間較多,但捱夜卻不一定成績好,這便稱為「相關性」。美國上世記一名薄有名氣的炒家威廉·江恩(William Delbert Gann),其著作《如何從商品期貨交易中獲利》一書便指出,如果標的物上升3-5天,便有機會轉勢,否則便會連升6-7天,如果仍不轉勢,便可連續升至9-12天。熟知股票市場運行的讀者,都了解連升3天出現的機率比連升4天高,而又比連升5天高。連升的日數愈長,出現的機率愈低,這只是敘述事實,並無預測性,不過卻足以騙倒80年前,教育尚未普及的美國人。相關性並不等於因果關係,實際上也是我們處理數據時,最常犯的錯誤!

威廉.江恩是二十世紀的金融交易員,以《江恩理論》聞名。(網絡圖片)
威廉.江恩是二十世紀的金融交易員,以《江恩理論》聞名。(網絡圖片)

回說那篇研究iPhone的文章,當中引用美國及日本擁有大學學歷的人口比例,跟iPhone的滲透率呈正相關關係。而南美及東南亞國家,大學學歷的人口比例低,同時iPhone的滲透率都較低。這種的模式,稱為雙變項相關,即兩項變數之間存有相關性,卻不代表兩者之間存有因果關係,也不代表兩者的變化將會引發另一件事發生。

不要被數據愚弄

筆者計劃把子女送去外國讀書,希望在出國前先在外國置業,曾向加拿大的地產經紀查詢樓價。地產經紀建議我買入超市附近的住宅,因樓價上升得較快。筆者發現多倫多有華人超級市場的地區,均是在市中心,這只說明市中心地區樓價升值較快,而不能說明超級市場可帶動樓價上升更快。另一方面,超級市場均在公路邊,參考溫哥華及多倫多的樓價,公路旁的物業即使離超級市場稍遠,樓價本身已較高。筆者完全看不到樓價跟超級市場位置有必然性關係。

這卻反映了另一個問題,樓價跟超級市場位置存有相關性,那會否仍有參數遺漏了?例如近醫院會怎樣?名校區的樓價會否更高?早年傳媒喜以人民幣下跌,北水會流入避免貶值為理由,炒起港股。事實上從數據證明,兩者是負相關性的。反而人民幣升值,北水入市可用更少錢買更多,結果是人民幣升值跟恆指上升呈同步。這種錯誤,不單在一般散戶出現,連一些花費鉅款建立研究部的財經報章亦免不了犯錯,為讀者帶來低級錯誤的分析。究其原因,便是當時有不少分析文章以此為理論分析,大家都因循苟且,互相參考,未曾認真由基礎數據開始研究。天下文章一大抄,可憐天下散戶心。

遺漏參數的蛛絲馬跡

近年常聽到很多研究報告引述數據分析,例如:美國十年期國債債息升至3.5%,便會出現股災;美國加息多一次,香港便要跟隨加息;甚至近日由胡國威先生用金管局的數據,計算出港人樓價負擔比率跟香港政府宣稱的大不同等,讀者不妨上網搜尋原文。筆者太太喜愛每早喝一杯咖啡,但懷孕時便戒除了,因不少報告指出,懷孕喝咖啡對胎兒有不良影響!在寧可信其有,不可信其無下,那時便吃魚、吃葉酸,每天早晚飲牛奶。但美國女經濟學家歐絲特並不一樣,她嗜愛咖啡也愛紅酒,同時也是一個擅長處理數據的經濟學家。上網搜尋了數百篇醫學研究後,她發現喝咖啡而流產的比率遠高於不喝咖啡的女士,那為何她在懷孕期間仍每天喝兩三杯咖啡,甚至每天飲一次紅酒呢?

從那些研究中,她找到遺漏參數,不喝咖啡及喝咖啡而流產的女士有一共通點,就是收入較低,有機會營養不良,而且集中從事勞動工作。從事勞動工作而流產的相關性,較喝咖啡而流產的相關性高近百倍。而喝咖啡而流產的女士,往往因工作需要提神,她們多從事工時長,工作時間不穩定的輪更工作。

有時甚至有誤導性相關,歐絲特發表的文章中,曾引用了美國報章一篇報道,愛吃超級三文治的人更享受性愛,這間香港也有經營的三文治連鎖品牌,看了文章不知會怎樣想。文章中指出愛吃超級三文治的人,高達32%每月有6次性愛,而不吃的人只有27%有相同頻率。聰明的讀者,應會立即想到,兩者究竟有什麼關係?股市中有不少類似的迷思,例如超級碗效應,又或迷你裙效應。女士的裙愈短,股市愈上升。近年溫室效應嚴重,大家的衣着都清爽了不少,那溫室效應才是股市上升的真正推手嗎?閱讀數據時,大家必須保持理智。香港的基礎教育,對數學能力的基礎培訓已很足夠,大家閱讀分析報告時,只要理智地多想幾次,便不會被誤導!

劉曙輝