![]()
評測亂象該剎車了/AI圖
手工勞動/挖哥
手工編輯 /角叔
出品/獨角獸觀察
一年一度的高考落幕,全民熱議的考試話題,再度成為網絡流量角逐的“主戰場”。
與往屆不同的是,隨著人工智能大模型普及和成熟,各類AI產品走進大眾視野。當學子們在考場內答題時,考場外,大模型也被“投喂”各個版本的高考試題,一決高下。
用高考試題來檢驗AI解題能力,無可厚非,但一些營銷號缺乏科學的態度、嚴謹的論證方式,導致得出的測評結論脫離客觀事實,經不起推敲。這不僅誤導學生及家長,也擾亂了AI行業良性發展秩序。
01
評測翻車,殘缺題干仍出完整答案
今年高考期間,一篇題為《“選拔牛頓接班人”的最難高考物理題,千問三答全對》的自媒體文章在社交平臺吸引了不少眼球。
該文宣稱憑借2026年廣東高考物理壓軸真題開展AI橫向測評,得出“千問滿分答對,其他兩家AI全程翻車”的結論,憑借強烈的對立感、懸念感收割流量。
![]()
這道題以平行板電容器、絕緣桿、帶電小球、絕緣繩為物理模型,融合電場力、重力、圓周運動、碰撞帶電翻轉等多個核心知識點,整道題目分為三個遞進式小問題,環環相扣,題干信息、圖形描述、物理條件、設問要求缺一不可。
文章在結尾處稱物理最能暴露AI真實水平,因為物理題要求”視覺理解+語義理解,抽象思維+領域知識,推理規劃,計算+驗證能力”等綜合能力,任何一個環節斷裂,后面全部歸零。
如果光從文章展示的答題過程和結果來看,似乎找不出什么毛病。
![]()
但有細心的網友實測還原測評場景后發現,這個所謂“滿分作答”背后暗藏“玄機” —— 如果將這道高考物理大題裁去部分內容,僅保留殘缺題干、隱去核心設問,最后千問模型依舊能輸出完整答案。
這樣一看,文中夸贊的“視覺理解+語義理解”就顯得有些諷刺了。因為如果視覺理解好的話,應該能識別得出“題目不完整、缺少作答要求”。
結合AI行業技術常識不難判斷,該模型很可能是在知識庫中收錄了這道完整高考物理題的題干、解題步驟和標準答案,大概率是在“背誦”答案。
平心而論,AI產品收錄高考等試題答案屬于常規操作,并不能算是“作弊”,造成這個測評最后翻車還是這個測評本身過于片面,缺乏科學的論證。
![]()
有意思的是,《獨角獸觀察》把這篇夸贊千問的測評文章去詢問千問是否科學、客觀?
千問給出的結論是“這不是一篇雙盲、隨機、多維度的科學評測”,并指出這篇文章最大的科學硬傷在于樣本選擇的隨機性缺失:僅憑一道題(雖然是壓軸題)就斷言“一家全對,兩家全錯”,并由此推導出“物理最能暴露AI真實水平”,這在統計學上是不成立的。一道題可能恰好是千問訓練數據中的“強項”,或者其算法恰好契合這道題的邏輯陷阱。
真正的科學評測應該包含不同類型的題目(如簡單的概念題、復雜的計算題、實驗題等)。只測一道“最難”的題,只能說明在極端情況下的表現,不能代表整體物理水平。
此處給千問點贊。
02
邏輯失真,高考評測亂象叢生
一場嚴謹的 AI 能力測評,核心原則是 “客觀、公正、完整、可復現”,測評場景、測試素材、評判標準必須公開透明,測評結論要建立在真實測試數據之上。
此次引發爭議的自媒體測評,從測試設計、過程呈現到結論推導,全程存在多處硬傷,最后的結論完全站不住腳,連被夸贊的千問大模型都 “不好意思接受”。
尤其值得警惕的是,測評選用的是高考真題這類公開試題 —— 這類題目一般是通過考生回憶記錄,在網上流傳,初期版本往往存在大量錯漏情況。專業的評測應該做好題目校對,用AI大模型本身的推理能力進行測試,避免聯網搜索答案。
或出于蹭流量,或出于專業能力不足,或出于信息不對稱,今年高考試題評測翻車情況還不少。
一些評測存在“胡亂打分”現象,對步驟漏洞百出、邏輯混亂的答卷,刻意包裝為“滿分”營銷素材,將明顯的推導錯誤、符號誤用美化成 “解題亮點”,甚至為特定 AI 模型量身打造 “滿分神話”。
![]()
比如像這個被捧為交滿分的AI答卷,原題條件有“當0
還有一些評測也極不嚴謹,測試出“聳人聽聞”的結果——所有大模型沒有一個答對的,后來網友發現原來是測試的題目傳錯了,讓人哭笑不得。
更有評測全程不公開完整答題過程,僅憑幾張截圖、幾句斷章取義的文案就拼湊出幾大AI解題能力榜單,榜單數據來源不明、對比維度缺失,卻在社交平臺瘋狂傳播。
這樣的測評本身就缺乏專業知識,文案華麗、話術夸張,滿是“最強”“天花板”“碾壓同行”等絕對化用語,僅憑主觀感受評價AI性能,完全喪失中立客觀性。
這類亂象以高考熱點為噱頭,將測評異化為營銷工具,既擾亂了公眾對 AI 真實能力的判斷,也消解了測評內容本應具備的參考價值與專業可信度,讓嚴謹的技術對比淪為流量炒作的工具,是時候剎車了。(完)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.