從考評專業看歷史試題──國際考試機構設「禁區」以保證公平性

公平的題目只考核該試題所針對的能力,而考生的得分不應受他們的性別、經濟狀況、宗教信仰等等所影響。我們要避免對某種考生人群敏感的、甚至導致情緒障礙的話題,更不應該出現對某種考生人群不必要的冒犯等情況。

2020年香港文憑試歷史科「1900-45年間,日本為中國帶來的利多於弊」的問題,教育局、考評局、及公眾已從歷史、課程、題目利弊是否有討論空間等角度討論,在此不贅。本文試從公開考試專業的角度,解釋公眾所關心的一些相關議題。

考試題目設禁區,那麼還有學術自由嗎?

為了考試的公平性(是考試「效度」的一個基本要求),考試機構都遵從守則,以免出現不公平的題目。就本文所關心的問題,簡單而言,公平的題目只考核該試題所針對的能力,而考生的得分不應受他們的性別、經濟狀況、宗教信仰等等(以下簡稱考生背景)所影響(受損或獲益)。我們要避免對某種考生人群敏感的、甚至導致情緒障礙的話題,更不應該出現對某種考生人群不必要的冒犯等情況。例如,美國考試機構建議不應問及性取向、墮胎、安樂死、槍支管制、達爾文進化論、疫苗功能等。

道理很簡單,如果題目的回答及得分受考生背景所影響(變得更易或更難),不同背景人群的答題難度就可能不同。因為會受到其信仰、價值觀等背景因素的影響,一些人更易得分,一些人更難得分。考生應當有機會根據所給或其他的資料,選擇支持哪一個論點,這樣才是公平的。如果某種背景的考生被局限只能從其中某觀點回答(如,考生因為其宗教,只可用某些合符宗教的論點去回答),題目就不公平,這是測評領域熟知需要避免的問題。

例如,在美國槍支管制已極富爭議性,如果試題令學生支持或反對槍支管制的態度,影響他們的作答,使得他們更易或更難獲取高分(如,支持管制槍支,更易答,容易獲最高分),這就是不公平(如,反對管制槍支的考生,難獲取較高分數,所以對他不公平)。此外,某些考生對放寬槍支管制感到憤怒,也令他們作答可能會受到不利影響。同理,問及墮胎,考生是否有宗教背景,可能令相應的答題難度不同,引起不公平。此外,一些有相關不幸經歷的考生(如曾經墮胎的考生面對有關墮胎的題目時),更可能當場落淚不能繼續作答。

對醫護學生,教授及考核避孕、墮胎,無可避免。在美國如果要問及911,也必須考慮是否該科必須考核與觸及的話題。就算有必要觸及,也不應該從是否同意「911利多於弊」這角度發問。同樣道理,在曾經受日本侵略和屠殺的地方,問「1900-45年日本為中國帶來的利多於弊」的角度亦不洽當。況且,這個並不是香港學校在教授1900-45年中日歷史中重要且不能避免的角度。一些教授們在學術年會、公眾在媒介上,甚至教師小心地在課堂上的討論題目(如,槍支管制、避孕),不一定可以隨便地變成中六學生公開考試試題。這與學術自由扯不上任何關係。

在美國考試沒有問題的試題,可能會在亞洲或中東有侮辱性,甚至令國家之間引起紛爭,不能採用。一些跨國、跨地域的考試,都會小心作全面檢查,甚至進行小型研究,對可能引起問題的材料作公平性審查。

對有爭議的題目,不同立場的考生會有不同的答案,不同立場的評卷員也自不然有不同的喜好。雖然有評分準則,但評卷員主觀喜好會影響判斷,考評局常用已經設立改卷監察機制為理由,令公眾誤以為評卷素質(信、效度等)優良且不斷改善。考評局應面對現實,不能誤將評卷員作為沒有偏愛的機械人。而且,評卷前在社會上己有爭論的題目,某些本來沒有立場的評卷人也會受到爭論的影響。

言之成理,不是都可以計分嗎?

對這些受學生信念、價值觀、宗教等因素影響的問題,只要答案言之成理,難道我們不可以給予分數?這不是比取消該題更好嗎?

試想想,對進化論、疫苗(注射疫苗是否利多於弊)等問題,兩個持不同意見的生物學家,他會認為對方的理由「言之成理」嗎?給分予對方的理由,他會認為公平嗎?

有人也在想,我們不是天天都在評改正反意見的考卷嗎?這有什麼不同?若果正反意見都是環繞題目內或其他相關學科的資料作比較,這是可以的。但我們現在面對的題目,影響不同信念、價值觀、宗教等背景的學生的回答,因此不能對他們用同一套評分標準(可能更難或更易獲取分數),這已經是不公平。

我們抽身想想,我們要美國學生在經濟科公開考試回答,要解決現在的經濟及暴亂問題,政府購買並每家每戶送贈槍械,對促進經濟及保護自己是利多於弊。明顯地,學生對擁有槍械的態度(而不是經濟學科能力),影響他們的回答。其中有一方更難或更易得分。當考生的背景影響題目難度和得分,便會被視為不公平。

測驗必須符合效度(validity)的要求,簡單來說,試題真的在區分考核目標的能力。在上述經濟科題目,反對擁有槍支的考生,只能被局限於符合他信念的經濟措施中作選擇。這題目已失去效度──再不單單依據學生經濟學科能力高低去區分。

對於這次歷史科引起爭論的題目,爭論雙方不是不同學術觀點或者學術流派的學者,而是一種個人信念、取向、價值觀等導致回答理據並不相同所引起的紛爭,這就不是學術自由的問題。好的公開考試題目,不應出現這類會導致不公平的爭論。從公眾的討論很易看到,不同態度、信念、價值觀等的人,以不同理由去談利弊。有人認為利弊顯而易見,沒有討論餘地,無需考慮其他理由。但另一些人卻認為利弊各有充分理由。既然考生的信念、價值觀等,影響他們的答案及可能得分,這不符合公平性原則,自然也只能取消該題。

簡單而言,學生不應該因他在該科能力以外的背景,影響他的回答及得分,否則就是不公平的。

從考評專業看歷史試題二之一

本系列文章:

從考評專業看歷史試題──不公平試題,無奈必須取消

侯傑泰