![]()
圖片來源:AI生成
記者 張夢然
“AI考官”能評判學(xué)術(shù)背后的思想重量嗎?一項(xiàng)大規(guī)模研究,將當(dāng)前最先進(jìn)的生成式AI推上了學(xué)術(shù)評判的席位。
英國劍橋大學(xué)領(lǐng)銜的研究團(tuán)隊(duì)讓Claude、ChatGPT等前沿模型,為來自英國三所大學(xué)考試和考核中的761篇本科論文逐一打分。結(jié)果顯示,AI給出的評分與專家評審授予的學(xué)位等級僅僅有約半數(shù)相符。更為嚴(yán)峻的是,這些系統(tǒng)在識別優(yōu)秀的學(xué)術(shù)成果和薄弱的作業(yè)時(shí)屢屢失準(zhǔn),暴露出其對語言形式過度敏感、對學(xué)術(shù)實(shí)質(zhì)把握不足的缺陷。
這份新近發(fā)布的報(bào)告警示,盡管AI可以在一些閱卷流程中充當(dāng)輔助工具,但若將其推向前臺獨(dú)立裁斷,不僅可能抹殺學(xué)生的個(gè)性才華,更將動搖高等教育賴以維系的信任根基。
評分模式“掐頭去尾”
這項(xiàng)名為OpRaise的研究由劍橋大學(xué)心理學(xué)家德博拉·塔爾米博士主持,聯(lián)合曼徹斯特城市大學(xué)、諾丁漢大學(xué)共同完成。研究團(tuán)隊(duì)選取了2022年至2025年間提交的761篇真實(shí)本科論文,涵蓋50個(gè)模塊、87項(xiàng)不同作業(yè),考核形式包括課程作業(yè)、開卷居家考試與監(jiān)考考試。
接受測試的三種前沿大語言模型分別為Anthropic的Claude Opus4.6、OpenAI的GPT-5.4以及谷歌的Gemini 3 Flash。研究團(tuán)隊(duì)系統(tǒng)性地從評分標(biāo)準(zhǔn)具體性、校準(zhǔn)干預(yù)和評分策略三個(gè)維度調(diào)整指令,甚至為模型提供了完整的評分標(biāo)準(zhǔn)與預(yù)期分?jǐn)?shù)分布,并要求其在給分前逐項(xiàng)解釋評判依據(jù)。即便如此,AI的評分準(zhǔn)確率仍徘徊在35%至65%之間。
在三所不同的大學(xué)里,AI都表現(xiàn)出明顯的“中心傾向偏差”。它們傾向于給所有作業(yè)打上安全的中等分?jǐn)?shù),在50至60分的區(qū)間,與人類評分最為接近。一篇被人類專家評為75分(一等學(xué)位水平)的優(yōu)秀論文,AI平均會壓低幾分;而一篇被評定為50分的薄弱作品,AI反而會慷慨地拔高幾分,呈現(xiàn)“掐頭去尾”的評分模式。
更注重形式而非“內(nèi)涵”
人類閱卷,要基于學(xué)術(shù)推理和學(xué)科洞察再作出判斷,但AI的評分本質(zhì)上依賴統(tǒng)計(jì)預(yù)測。此次所有被測模型,無一例外地對語言特征表現(xiàn)出過度敏感:文章篇幅更長、詞匯范圍更廣、句子結(jié)構(gòu)更復(fù)雜,往往就能獲得更高分?jǐn)?shù)。至于論證是否嚴(yán)謹(jǐn)、證據(jù)是否充分、批判性思維是否到位,則并非其關(guān)注核心。換言之,AI更容易被“漂亮的外表”迷惑,很難穿透文字去掂量學(xué)術(shù)思想的重量。
這種形式重于內(nèi)容的傾向,帶來了同質(zhì)化風(fēng)險(xiǎn)。研究團(tuán)隊(duì)在不同時(shí)間用同一篇論文反復(fù)測試,AI每次給出的分?jǐn)?shù)幾乎紋絲不動。表面上看,這似乎是“一致性高”的優(yōu)點(diǎn),實(shí)則暴露了這些AI在共享同一種機(jī)械邏輯:它們并非在“理解”論文,而是在匹配語言模式。
而當(dāng)所有模型都呈現(xiàn)相同的評分模式時(shí),學(xué)生的個(gè)性表達(dá)、獨(dú)特的論證路徑、非常規(guī)但富有創(chuàng)見的思考,反而可能被忽略。這種偏見的后果,就導(dǎo)致上文所說的,AI在最重要的評估決策之處,準(zhǔn)確率最低。
在評語反饋環(huán)節(jié),同樣存在局限。AI生成的評語篇幅通常是人類的3至8倍,團(tuán)隊(duì)于是將AI評語壓縮到與人類評語同等長度后,再交由教職工和學(xué)生辨別作者身份,結(jié)果眾人竟難以區(qū)分。然而一旦揭曉哪段話出自AI之手,參與者對AI評語的認(rèn)可度便明顯下降。這說明,教師與教師之間、教師與學(xué)生之間,那種基于專業(yè)默契和學(xué)科共同體的理解,仍是AI無法取代的。
人類考官無法被替代
面對日益繁重的閱卷壓力,不少高校將AI視為緩解教職工負(fù)擔(dān)的潛在方案。塔爾米博士坦言,大學(xué)正承受著削減工作量、提高效率、滿足學(xué)生期望的多重壓力,一些機(jī)構(gòu)已開始考慮讓AI承擔(dān)評估職責(zé)。機(jī)器或許確實(shí)能分擔(dān)部分勞動密集型的閱卷工作,讓教師騰出更多時(shí)間直接指導(dǎo)學(xué)生。但這份題為《AI大學(xué)評估中的應(yīng)用:評估自動評分的機(jī)遇與風(fēng)險(xiǎn)》的報(bào)告強(qiáng)調(diào),最終成績必須始終由人類裁定,AI至多只能充當(dāng)“第二雙眼睛”,用于錯(cuò)誤檢測、一致性檢查,或是標(biāo)記出AI評分與人工評分差異顯著的作業(yè),提請人類重點(diǎn)復(fù)核。
學(xué)術(shù)評估的意義,遠(yuǎn)不止于技術(shù)層面的打分。塔爾米博士指出,評估是構(gòu)建教育意義的過程,它讓學(xué)生感到被重視,維護(hù)學(xué)術(shù)標(biāo)準(zhǔn),維系師生之間的信任。
曼徹斯特城市大學(xué)的報(bào)告合著者雅埃爾·本恩博士補(bǔ)充道,許多學(xué)生明確表示,若得知作業(yè)由AI打分,會產(chǎn)生強(qiáng)烈的被欺騙感;教職員工也認(rèn)為,過度依賴機(jī)器可能侵蝕到專業(yè)判斷,并“抽走”了高等教育作為核心的人性化。師生之間圍繞評分與反饋形成的默契與期待,本質(zhì)上是一種“社會契約”,它的存續(xù)有賴于人對人的認(rèn)可與回應(yīng)。
這份報(bào)告并沒有否定AI在教育領(lǐng)域的價(jià)值,而是為其劃定了清晰的邊界:AI絕不能取代“考官席”上的那雙受過專業(yè)訓(xùn)練的眼睛。在學(xué)術(shù)質(zhì)量的裁斷場,人類的推理、經(jīng)驗(yàn)與責(zé)任感,至今仍是無法被算法替代的最后防線。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.