學(xué)術(shù)評判中，“AI考官”能被委以重任嗎

2026-06-11 10:23:04　來源: 中國高新

北京舉報(bào)

分享至

圖片來源：AI生成

記者張夢然

　　“AI考官”能評判學(xué)術(shù)背后的思想重量嗎？一項(xiàng)大規(guī)模研究，將當(dāng)前最先進(jìn)的生成式AI推上了學(xué)術(shù)評判的席位。

　　英國劍橋大學(xué)領(lǐng)銜的研究團(tuán)隊(duì)讓Claude、ChatGPT等前沿模型，為來自英國三所大學(xué)考試和考核中的761篇本科論文逐一打分。結(jié)果顯示，AI給出的評分與專家評審授予的學(xué)位等級僅僅有約半數(shù)相符。更為嚴(yán)峻的是，這些系統(tǒng)在識別優(yōu)秀的學(xué)術(shù)成果和薄弱的作業(yè)時(shí)屢屢失準(zhǔn)，暴露出其對語言形式過度敏感、對學(xué)術(shù)實(shí)質(zhì)把握不足的缺陷。

　　這份新近發(fā)布的報(bào)告警示，盡管AI可以在一些閱卷流程中充當(dāng)輔助工具，但若將其推向前臺獨(dú)立裁斷，不僅可能抹殺學(xué)生的個(gè)性才華，更將動搖高等教育賴以維系的信任根基。

　　評分模式“掐頭去尾”

　　這項(xiàng)名為OpRaise的研究由劍橋大學(xué)心理學(xué)家德博拉·塔爾米博士主持，聯(lián)合曼徹斯特城市大學(xué)、諾丁漢大學(xué)共同完成。研究團(tuán)隊(duì)選取了2022年至2025年間提交的761篇真實(shí)本科論文，涵蓋50個(gè)模塊、87項(xiàng)不同作業(yè)，考核形式包括課程作業(yè)、開卷居家考試與監(jiān)考考試。

　　接受測試的三種前沿大語言模型分別為Anthropic的Claude Opus4.6、OpenAI的GPT-5.4以及谷歌的Gemini 3 Flash。研究團(tuán)隊(duì)系統(tǒng)性地從評分標(biāo)準(zhǔn)具體性、校準(zhǔn)干預(yù)和評分策略三個(gè)維度調(diào)整指令，甚至為模型提供了完整的評分標(biāo)準(zhǔn)與預(yù)期分?jǐn)?shù)分布，并要求其在給分前逐項(xiàng)解釋評判依據(jù)。即便如此，AI的評分準(zhǔn)確率仍徘徊在35%至65%之間。

　　在三所不同的大學(xué)里，AI都表現(xiàn)出明顯的“中心傾向偏差”。它們傾向于給所有作業(yè)打上安全的中等分?jǐn)?shù)，在50至60分的區(qū)間，與人類評分最為接近。一篇被人類專家評為75分（一等學(xué)位水平）的優(yōu)秀論文，AI平均會壓低幾分；而一篇被評定為50分的薄弱作品，AI反而會慷慨地拔高幾分，呈現(xiàn)“掐頭去尾”的評分模式。

　　更注重形式而非“內(nèi)涵”

　　人類閱卷，要基于學(xué)術(shù)推理和學(xué)科洞察再作出判斷，但AI的評分本質(zhì)上依賴統(tǒng)計(jì)預(yù)測。此次所有被測模型，無一例外地對語言特征表現(xiàn)出過度敏感：文章篇幅更長、詞匯范圍更廣、句子結(jié)構(gòu)更復(fù)雜，往往就能獲得更高分?jǐn)?shù)。至于論證是否嚴(yán)謹(jǐn)、證據(jù)是否充分、批判性思維是否到位，則并非其關(guān)注核心。換言之，AI更容易被“漂亮的外表”迷惑，很難穿透文字去掂量學(xué)術(shù)思想的重量。

　　這種形式重于內(nèi)容的傾向，帶來了同質(zhì)化風(fēng)險(xiǎn)。研究團(tuán)隊(duì)在不同時(shí)間用同一篇論文反復(fù)測試，AI每次給出的分?jǐn)?shù)幾乎紋絲不動。表面上看，這似乎是“一致性高”的優(yōu)點(diǎn)，實(shí)則暴露了這些AI在共享同一種機(jī)械邏輯：它們并非在“理解”論文，而是在匹配語言模式。

　　而當(dāng)所有模型都呈現(xiàn)相同的評分模式時(shí)，學(xué)生的個(gè)性表達(dá)、獨(dú)特的論證路徑、非常規(guī)但富有創(chuàng)見的思考，反而可能被忽略。這種偏見的后果，就導(dǎo)致上文所說的，AI在最重要的評估決策之處，準(zhǔn)確率最低。

　　在評語反饋環(huán)節(jié)，同樣存在局限。AI生成的評語篇幅通常是人類的3至8倍，團(tuán)隊(duì)于是將AI評語壓縮到與人類評語同等長度后，再交由教職工和學(xué)生辨別作者身份，結(jié)果眾人竟難以區(qū)分。然而一旦揭曉哪段話出自AI之手，參與者對AI評語的認(rèn)可度便明顯下降。這說明，教師與教師之間、教師與學(xué)生之間，那種基于專業(yè)默契和學(xué)科共同體的理解，仍是AI無法取代的。

　　人類考官無法被替代

　　面對日益繁重的閱卷壓力，不少高校將AI視為緩解教職工負(fù)擔(dān)的潛在方案。塔爾米博士坦言，大學(xué)正承受著削減工作量、提高效率、滿足學(xué)生期望的多重壓力，一些機(jī)構(gòu)已開始考慮讓AI承擔(dān)評估職責(zé)。機(jī)器或許確實(shí)能分擔(dān)部分勞動密集型的閱卷工作，讓教師騰出更多時(shí)間直接指導(dǎo)學(xué)生。但這份題為《AI大學(xué)評估中的應(yīng)用：評估自動評分的機(jī)遇與風(fēng)險(xiǎn)》的報(bào)告強(qiáng)調(diào)，最終成績必須始終由人類裁定，AI至多只能充當(dāng)“第二雙眼睛”，用于錯(cuò)誤檢測、一致性檢查，或是標(biāo)記出AI評分與人工評分差異顯著的作業(yè)，提請人類重點(diǎn)復(fù)核。

　　學(xué)術(shù)評估的意義，遠(yuǎn)不止于技術(shù)層面的打分。塔爾米博士指出，評估是構(gòu)建教育意義的過程，它讓學(xué)生感到被重視，維護(hù)學(xué)術(shù)標(biāo)準(zhǔn)，維系師生之間的信任。

　　曼徹斯特城市大學(xué)的報(bào)告合著者雅埃爾·本恩博士補(bǔ)充道，許多學(xué)生明確表示，若得知作業(yè)由AI打分，會產(chǎn)生強(qiáng)烈的被欺騙感；教職員工也認(rèn)為，過度依賴機(jī)器可能侵蝕到專業(yè)判斷，并“抽走”了高等教育作為核心的人性化。師生之間圍繞評分與反饋形成的默契與期待，本質(zhì)上是一種“社會契約”，它的存續(xù)有賴于人對人的認(rèn)可與回應(yīng)。

　　這份報(bào)告并沒有否定AI在教育領(lǐng)域的價(jià)值，而是為其劃定了清晰的邊界：AI絕不能取代“考官席”上的那雙受過專業(yè)訓(xùn)練的眼睛。在學(xué)術(shù)質(zhì)量的裁斷場，人類的推理、經(jīng)驗(yàn)與責(zé)任感，至今仍是無法被算法替代的最后防線。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.