大數據:誘惑與操守

私隱的原則,不允許我們去重新找出數據的個別來源(重新定碼),因為那違反私隱原則。

連續幾周討論TSA(或曰BCA)不是為了堅持什麼、反對什麼,而是其中牽涉的大問題,也是有關教育發展的大方向,是教育專業的大是大非,不容含糊。大概涉及四大類問題:一、對於TSA的討論,是政治勢力的攻守戰嗎?是支持與反對的博弈嗎?二、TSA的概念,是為了解香港總體的學生學習狀態?還是要監控個別學校甚至個別學生的學習狀況?三、考試、測評,是學生學習的關鍵要素嗎?學生個人的發展,就是他們語、數的學習成就嗎?即使是語、數,TSA的監控就是改進的良方嗎?四、EDB一再強調,必須堅持全人口的測評,而不能採取抽樣研究;而且認為因為2015年的風波,已經失去了整年的數據。本文談這第四點。

許多人對此大惑不解,既然說是研究,又說是沒有風險,為什麼不能抽樣?有些辦學團體、也有些校長歡迎TSA非抽樣、全人口的測評;也就是說拿到每一所學校、每一個學生的測評數據。這種看法,與恢復「升中試」,再加設一個「小三試」、「中三試」沒有多少分別。

全港訊息 各校自為

TSA(原來就叫做BCA),是經過抽樣研究,得出全港的總體成績──包括全港平均與高低分布;而各校可以在網上取得工具,測評自己的學生,與全港總體成績作出比較,知道自己學生的相對程度。主動權在學校手裏、也在辦學團體手裏。相信大多數學校都會想知道自己學生處於什麼水平;而每所學校的取態可以很不一樣。這樣,TSA就可以幫了學校的忙,也幫了辦學團體的忙,這是政府應該做的。

每所學校會有自己的辦學政策,對於TSA成績給予怎麼樣的重視,對於TSA成績採取什麼措施,都會很不一樣。比如說,有些學校,學生程度素來頗高,TSA的參考價值就比較低,學校也不會花太多的精力去研究TSA。又比如說,有些學校,學生學業程度素來頗低,學校覺得在此階段,增進學生對生活與生命的信心,遠比提高學業成績更重要,等等。

這與教育局根據TSA全面測評的結果,或敲門、或提醒、或暗示要求學校改進,是完全不同的兩回事。在香港的教育制度裏面,政府扮演什麼角色,政府把學校看成什麼,結果會很不一樣。把學校看成是純粹的下屬機構,學校就會成為政府的工具,教師成為聽命的步兵。

相反,假如學校被尊重為自主的專業機構,有自己的方針、自己的策略,教師就是有頭腦的將軍,政府的功能就是成為支持學校的平台。後者,就是香港素來賴以成功的「校本模式」,在國際上享有盛譽,也是在國際場合中香港政府的代表自豪地向人家介紹的。

那麼,為什麼在TSA這個問題上,卻忽然會堅持全人口測評。唯一的解釋,是政府中人沒有深思熟慮,就中了「大數據」的誘惑。也就是說,政府很有意思要掌握學校和學生的全部數據,掌握得愈多愈好。

難免要回到PISA(國際學生成就研究)與TIMSS(國際數學及科學趨勢研究)的討論。PISA一直由香港中文大學的何瑞珠教授主持。最近一次是2015年,去年底剛好公布結果。筆者曾為2015年的諮詢委員會主席(因為原來的主席盧乃桂教授離港)。聽過教育局要求何教授交出學生和學校的「身份認碼」(identifier),也就是要知道每一份數據來自哪一名學生、哪一間學校。在會議上,筆者就提出,這是不可思議的,因為不可能要求研究者把數據的來源交給第三者,這是任何研究的基本操守。之後的討論,筆者沒有直接參與,只知道2018年的測試,教育局不再委託何教授,而是公開招投,條件是要交出「身份認碼」。

之前,教育局也曾經四處游說,試探其他學術機構能否接受交出「身份認碼」的條件,其他機構都感到為難。結果是同是中文大學的侯傑泰教授獲得主持權,而侯授則認為交出「身份認碼」並無不妥。

同時,諮詢委員會從此直接由教育局主持,這等於是一場「政變」。在沒有任何政治色彩的事件上,做出如此原則性的變動,到底是為了什麼?

國際慣例 數據保密

PISA是抽樣的研究,3年一輪,每次的學生都會不一樣,拿了「身份認碼」有什麼用?筆者曾經問過有關人士,為什麼如此緊張要取得「身份認碼」?答案是可以作「追蹤研究」;其中的關鍵就是可以與TSA的結果連接。於是恍然大悟!原來教育局的打算,是以TSA作為教育「大數據」的基數,然後其他的學生成績就可以以個人為單位,作追蹤和比較。

侯傑泰教授曾經說過,政府掌握數據的「身份認碼」,是其他國家的慣常做法。我們的同事用了一封非常詳盡的信,詢問了參加PISA與TIMSS國際比較研究的國家;結果,在接近40個國家之中,幾乎所有都表示教育部無權取得數據的「認碼」。典型的答案是「只有主持PISA與TIMSS的團隊可以看到學校與學生的認碼,沒有其他人,包括教育部可以看到」(來自一個南歐國家)。例外的是阿爾巴尼阿、馬來西亞與泰國,馬、泰說教育部有權取得全部數據,不過至今從未發生過。

讀者也許最有興趣的是新加坡和上海。新加坡的PISA和TIMSS研究,由教育部一個團隊主持,但是學校與學生的認碼資料,不准流出這個團隊以外。

上海PISA主持人的回覆(徵得同意在此引用):「我們上海始終對學校和社會保密,所有看到測試成績的人,從部長、市長到工作人員都簽保密協議,政府也從來不問每一所學校和學生的具體情況。我們不想再排名了,也不想通過PISA測試來刺激學校和學生。我們的中小學生和學校老師校長已經太辛苦了。我們的關鍵是要減輕學生學業負擔,讓他們有時間和空間學習和體驗不考試的『人生經歷』、『社會實踐』、『個人愛好』、『個性潛能』和『創新能力』。」這位負責人還馬上補上一封信稱:「因為編碼很複雜,非工作人員僅僅知道A/B/C/D學校和學生,並不了解是哪所學校、哪個學生。再說,本來這是一項『低厲害相關』的測評,如果產生排名,就會衍生出許多錯誤的參加動機和做法,那也會致使PISA測評本身的價值下降。」

數據面前 忘乎私隱

人家在想什麼?我們的政府在想什麼?作為政府,應該對於「大數據」的有關操守有充分的認識。曾經有教育局的同事,激動地、委屈地認為,「政府花了這麼多的錢,為什麼不可以擁有數據?」看來,這位同事也許沒有接觸過有關「大數據」的操守原則,或者也許根本就沒有想到這會與「大數據」有關。聯合國數個機構,都曾經為「大數據」的收集與運用立下許多「原則」,大部分與私隱有關。其中一條:「我們不會明知地、有意地嘗試把去碼(de-identified)的數據重新定碼(re-identify),我們也會盡可能的努力,防止不合法的、不合理的重新定碼。」(United Nations Global Pulse: Privacy and Data Protection Principles)。

PISA、TIMSS收集了個別學生和學校的大量數據,都是用來分析香港的總體情況,是屬於「去碼」的數據,因為來自哪所學校、哪名學生,無關宏旨。私隱的原則,不允許我們去重新找出數據的個別來源(重新定碼),因為那違反私隱原則。教育局有這樣的說法:「相信我們,我們不會亂用數據。」顯然是捉錯用神。私隱原則就是原則,不管你是好意還是壞意。

原刊於《信報》,獲作者授發表。

程介明