教育也需要“診斷報告”

診斷英語怎麼說

近年來，隨著教育評價理念的不斷更新和測試技術的快速發展，國際上諸多大規模教育測試把關注的重心放到了測試結果上。就像到醫院體檢後會得到一份詳細的“診斷報告”一樣，參加大規模教育測試的學生也會得到相應的結果報告——用來分析自己水平高低或能力強弱及其背後的成因，從而實現精確診斷和快速改進的目的。

結果報告成為大規模教育測試的關鍵環節

從心理學的角度來看，大規模測試就是透過一系列外部刺激來收集被試的行為反應，並進一步推斷其潛在特質水平的過程。之所以稱這種特質是“潛在的”，是因為它無法和物理測量中的身高、體重那樣被直接觀測和度量。不同的測試，其測量的潛在特質是不一樣的，它可以是能力、成就、個性傾向、人格態度、價值觀等，也可以是教育領域中的學業水平、學術成就。當我們用一定數量的試題來收集學生的作答反應，並把不同考生的水平用數量化的方式描繪出來時，這就是考試。由於測量目標、功能等方面的差異，不同測試在處理考生作答時採用的統計分析方法很不一樣，這導致測試最後提供的結果報告也各不相同。有些結果報告非常簡單，就給出一個分數或等級，有些則經過極其複雜的分數轉換來給出詳細的描述。

對廣大被試或考生來講，參加考試最重要的就是得到一個體現自己真實水平的結果。在實踐領域，測試結果常常被用於各種重要決策，如高校選拔、升學鑑定、優劣評判等。這不得不讓研究者和從業者高度重視結果報告的科學性、公平性。“如果忽視了測試的結果報告，那之前的所有努力都將白費”，這已經成為國際測試行業的共識。目前，國際上最權威的行業標準——《教育與心理測試標準》就多次提到了結果報告的重要性，甚至對一些具體的技術指標做出了明確規定：如測試機構應該負責提供關於測試結果的正確解釋；結果報告的資訊應該包括內容範圍、測試結果的含義、精確性、結果使用等；結果報告要給出每個分數或等級的測量誤差，並且提供與結果解釋有關的資訊。教育是大規模測試應用最為廣泛的領域。每年全世界都有數以億計的考生參加各種考試。受《教育與心理測試標準》等國際行業標準的影響，當前大規模教育測試在結果報告上呈現出了以下幾個新趨勢。

趨勢一：結果報告經過相應的分數轉換

無論什麼樣大規模測試，最後都要呈現一個數字化或等級化的結果來對測試群體的水平進行區分。在教育考試中，這個結果一般體現為分數或等級。出於科學性和公平性的考慮，目前國際上知名的考試如ＳＡＴ、ＡＣＴ、ＴＯＥＦＬ、ＩＥＬＴＳ以及大規模測試專案如ＰＩＳＡ、ＴＩＭＳＳ，其結果都是經過複雜的統計處理而得出的，這個過程通常都涉及必要的分數轉換。以ＴＯＥＦＬ為例，作為一個面向全球的考試，它需要滿足來自不同國家和地區的考生，在不同時間參加不同版本試卷測試的需求。而在申請大學時，ＴＯＥＦＬ的分數又必須是準確一致和高度穩定（成績兩年內有效）。這必然要求考試設計者採用相應的考試技術，以確保各次考試分數儘可能不受試題難度的影響。如果某次ＴＯＥＦＬ考試的試題過難或過易，那對參加該次考試的考生就非常不公，高校在選拔學生時也會無法評估考生的真實水平。備受關注的ＰＩＳＡ，其測試使用的試卷並不是全球都完全一樣，而是有多種試題組合並形成不同版本的試卷。ＰＩＳＡ在全球幾十個國家和地區測試時就面臨與ＴＯＥＦＬ一樣的問題。分數轉換是對考試結果進行技術處理後的一個必要環節，它使得測試結果更加科學公平和更容易解釋。因而，轉換後的分數，因其操作過程的模式化和結果的穩定性，常被認為是一種具有相應標準的分數。

趨勢二：結果報告具有診斷和改進功能

對於一個大規模測試來說，分數或等級是結果報告的主要呈現形式。但如果僅僅侷限於這樣一些數字，那顯然是不夠的。隨著測評技術的發展，診斷性的結果報告在實踐中產生了深遠影響。與傳統單一的“分數條”相比，診斷性結果報告的內容更加豐富、細緻，對測試者的能力、水平的剖析也更加精準。例如，在ＰＩＳＡ公佈的測試結果中，我們不僅可以看到各國或地區在各個素養上的總分，還可以進一步瞭解在某個素養的次級維度上的表現以及在某個維度上的不同水平，這使得測試結果具有相應的診斷功能，也更有利於參測的國家或地區深入分析成績的歸因並採取有針對性的改進措施。在教育考試領域，ＳＡＴ、ＡＣＴ的結果報告在內容上不僅更加豐富，而且還按需提供給多個利益相關者，其中包括大學、中學、政府甚至媒體和公眾。其中，ＳＡＴ提供給學生的結果報告包括總分、分項成績、分測驗分數、跨學科分數、子維度分數以及相對應的百分位數。在面向其他物件的結果報告中，ＳＡＴ提供了更為詳細的結果，包括在國家或者州參照群體中的位置、在各類問題上表現、作答情況、原始分數等等。ＡＣＴ的結果報告同樣豐富而且涉及範圍更廣，除了各種分數、百分位數、水平等級等基本的統計結果之外，還包括學生的高中、大學、職業、專業選擇和生涯規劃的資訊。這些結果綜合了考生的背景、學習狀況、學科能力、個性傾向、興趣愛好等等，基於此對學生做出的評價顯然更加全面和深入，也有利於學生提升自我認知水平，有利於高校提高人才選拔成效，有利於中學改進日常教學和管理工作。

趨勢三：在真實情景中對結果報告進行描述和解讀

從統計測量的角度來進行分數解釋豐富了結果報告的內容，完善了測試的功能，但僅僅圍繞這些統計數字來分析仍舊是有侷限的。舉個簡單的例子，只要有一把尺子，我們就很容易測量出一個成年男性的身高，比如170ｃｍ，這是一個客觀測量值，但這樣的身高究竟意味著什麼，則在很大程度上取決於測量目的。如果說為了選拔國家籃球隊的運動員，這個身高恐怕遠遠不夠。但在日常生活中，對這樣的身高也不能輕易得出個頭矮的結論。測評領域的專家早就認識到：一系列統計分析後的結果可以用來判定優劣和區分測試者，可無論這些結果多麼豐富，還是無法解釋其背後深層次的含義。近年來，國際測試行業開始結合測量目標本身來嘗試新的結果解釋方式。通俗地講，就是在原來描述測試結果“是什麼”和“怎麼樣”的基礎上，進一步描述得到這些結果的測試者“能做什麼”。例如，上面提到的ＡＣＴ，它給考生的結果報告除了多個分數的統計值外，還有與這些分數相對應的行為描述，並且進一步預測學生在大學不同專業上獲得成功的機率。同樣，ＴＯＥＦＬ考試的結果報告也有對取得該分數考生所對應能力的描述，包括水平分析、分數說明和學習建議。ＴＯＥＦＬ閱讀部分的測試結果甚至納入藍思分級閱讀框架體系中。這個框架體系是用來評估英語閱讀能力和閱讀材料難度的一套標準，在國際上擁有較高的權威性和廣泛影響力。ＴＯＥＦＬ的閱讀分數和它對接之後，有利於考生看到分數所代表的真實閱讀能力，並據此來選擇與自身水平相適應的閱讀材料，從而達到精準匹配的目的。

最後需要強調的是，國際上這些具有廣泛影響的大規模教育測試，之所以需要引入複雜的統計技術來對測試結果進行分數轉換，除了考試實施的客觀需求和在科學與公平上的不懈追求外，一個很重要的原因是由其特殊的結果使用方式決定的。大規模教育測試一般都伴隨著重要決策，但在很多國家，這些測試結果僅僅是影響決策的一個重要因素，而不是唯一因素。如ＳＡＴ、ＡＣＴ和ＴＯＥＦＬ等用於升學錄取的考試，其考試結果僅僅是高校人才選拔中的眾多指標之一。考生在申請這些高校時，除了考試成績之外，一般還需要準備多方面的材料，甚至還會參加面試。大規模測試是一個並不複雜的技術活，但測試結果的使用方式背後則有著深刻的文化、制度、社會、心理等方面的成因。不管怎樣，讓測試結果更加科學、公平和精準，讓測試結果更好地發揮診斷和改進功能，是國際測試領域一個長期努力的方向。

（本文為全國教育科學規劃2022年度教育部重點課題《新高考結果評價改進的創新應用研究》〔編號：ＤＦＡ220435〕的階段性成果）

《光明日報》（ 2022年12月22日14版）

作者：劉軒（南京工業大學副教授，教育學博士）

教育也需要“診斷報告”——大規模教育測試結果報告的若干趨勢

農林漁牧網

教育也需要“診斷報告”

相關文章