網易首頁 > 網易號 > 正文申請入駐

韓國科學技術院（KAIST）攻克AI"眼瞎心不瞎"難題

2026-06-09 21:45:20　來源: 科技行者

北京舉報

分享至

這項由韓國科學技術院（KAIST）人工智能研究生院與KRAFTON聯合開展的研究，發表于2026年第43屆國際機器學習大會（ICML 2026），論文編號為arXiv:2606.02578，有興趣深入了解的讀者可通過該編號查詢完整論文。

當一個號稱"什么都懂"的AI助手在判卷時，偷偷抄了答卷本身的內容而不是認真看圖——這就是這項研究要解決的核心問題。研究團隊發現，目前最先進的多模態大模型（也就是那些既能看圖又能讀文字的AI）在擔任"評分官"角色時，存在一種系統性的偏差：它們經常對圖像上明顯錯誤的答案大方打高分，只因為那個答案寫得頭頭是道、邏輯通順。研究團隊將這種現象命名為"感知判斷偏差"，并設計了一套完整的診斷和糾偏方案，最終訓練出了一個名為"Perception-Judge"的新型評分模型。

研究背景要從AI領域一個越來越普遍的需求說起。隨著各類AI模型的能力越來越強，如何公正、高效地評價這些模型的好壞，成了一個令整個行業頭疼的問題。傳統上，這件事靠人來做——組織一批專家逐條審閱AI的回答，給出評分。但這種方式費時費錢，而且不同專家的標準也可能參差不齊。于是，研究者們開始嘗試讓AI來評價AI，也就是所謂的"LLM-as-a-Judge"（讓大語言模型充當評委）。這個思路延伸到圖文結合的場景，就有了"MLLM-as-a-Judge"（讓多模態大模型充當評委）。這位AI評委不僅要看懂文字答案，還要理解題目配套的圖片，才能判斷回答是否正確。

然而，研究團隊在深入觀察這類AI評委的表現時，發現了一個令人憂慮的現象。這個現象用一個生活場景來描述最為貼切：假設你是一位數學老師，正在批改一道關于圖表的題。有個學生的答案寫得極其流暢，推理步驟清晰，措辭專業——但他描述圖中數據的那部分，和圖上實際顯示的數字完全對不上。一位盡職的老師應該扣分，但現實中的AI評委卻往往因為被流暢的推理過程迷惑，反而給了高分。這就是"感知判斷偏差"。

一、AI評委"只看文章、不看圖"的兩種失誤方式

要理解這個問題，得先知道AI評委可能在哪里出錯。研究團隊把失誤分成了兩種類型，就像一位批卷老師可能犯的兩類錯誤。

第一類失誤叫做"感知能力不足"。這類情況發生在AI評委自己都沒看懂圖片的時候。比如一道關于魔方的題，圖片上畫的是一個7×7×7的魔方，但AI評委自己就誤以為是3×3×3。這時候，如果有一個答案按照3×3×3計算出54個小方格，AI評委會認為"這個答案和我想的一樣，給滿分"，而實際上正確答案應該是294。這就好比一個近視的老師不戴眼鏡批卷，他根本沒看清題目本身，自然也判斷不了學生的答案對不對。

第二類失誤叫做"回答錨定"，這一類更加隱蔽，也更令人擔憂。在這種情況下，AI評委本身能正確識別圖片，但在評分時，它卻忽略了自己"看到的內容"，轉而被學生答案中的文字描述所左右。比如，關于兩個溶液哪個綠色粒子濃度更高的題，AI評委自己看圖能得出"兩者一樣"的正確結論，但當它面對一個信誓旦旦地說"A溶液濃度更高，因為它含有更多綠色粒子"的答案時，可能反而被這段自信的描述說服，給出高分——盡管這個描述與圖片事實相悖。這類錯誤的本質是：AI評委在評分時，更多依賴文字的"說服力"，而不是圖片的"客觀證據"。

研究團隊用實驗數據量化了這兩種失誤的嚴重程度。他們發現，主流的基礎模型Qwen2.5-VL-7B總體錯誤率高達30.5%，而專門為評分任務訓練過的Flex-Judge-VL-7B也有23.5%的錯誤率。其中，第二類"回答錨定"型失誤的比例甚至不低于第一類，說明問題不僅僅是AI"看不清圖"，更是AI在評分過程中根本沒有認真用自己的視覺判斷來說話。

研究團隊還做了一個精妙的對比實驗。他們準備了兩類"干擾答案"：一類同時在視覺描述和推理邏輯上都犯了錯，另一類只在視覺描述上犯了錯但推理邏輯聽起來仍然合理。實驗結果揭示了一個關鍵規律：當答案在邏輯推理上也有明顯問題時，AI評委能相對準確地識別出這是個差答案；但當答案只是視覺描述錯了、推理過程聽起來仍然頭頭是道時，AI評委的準確率會大幅下滑，跌幅超過10個百分點。換句話說，現有的AI評委只要聽到"理由充分"，就容易忘記去核對圖片本身。

二、構造"視覺陷阱題庫"：給AI評委設計專項訓練數據

發現了問題，研究團隊隨即著手設計解決方案。他們的核心思路是：既然AI評委的毛病是"被文字迷惑、忽視圖片"，那就專門給它準備一批訓練材料，讓它在練習中不斷遭遇這種陷阱，從而學會識破并抵御這種誘惑。

這批訓練材料被命名為"感知擾動判斷數據集"（PPJD，Perceptually Perturbed Judgment Dataset）。構造這個數據集的過程頗有些"制造假鈔來訓練銀行員工識別真鈔"的味道。研究團隊從一個已有的多模態偏好數據集MMPR出發，對其中的正確答案進行系統性"篡改"，制造出兩種不同等級的"殘次品答案"。

整個制造過程分四個步驟展開。首先，從原始數據集中篩選出那些經過核實、絕對正確的答案，這些答案將作為"標準答案"。篩選標準很嚴格：不僅要在原數據集中被標記為"較好答案"，還要與該題目的標準答案完全吻合，確保是絕對意義上的正確，而非只是相對較好。

其次，研究團隊調用強大的AI模型（如GPT系列或Qwen系列）分析每道題的圖片，提取三到六個關鍵的"視覺屬性"——也就是那些只能通過看圖才能獲得的信息，例如圖中有幾個人、某個物體是什么顏色、兩個元素的空間位置關系如何。這些屬性必須是真正來自圖片的信息，而不是文字題目中已經說明的內容。

第三步是制造"感知錯誤版答案"。研究團隊讓AI模型在保持原答案推理框架和語言風格完全不變的前提下，悄悄修改一兩個視覺屬性。比如，把原答案中"三個人"改成"兩個人"，或者把"藍色"改成"紅色"，但推理過程的邏輯結構、遣詞造句依然和原答案幾乎一模一樣。這樣得到的答案，乍一看非常合理、表達流暢，但只要仔細核對圖片，就能發現其中的視覺描述是錯的。每個生成的"感知錯誤版"答案都要經過自動驗證，確保它確實給出了與正確答案不同的最終結論，才會被保留進數據集。

第四步是制造"雙重錯誤版答案"——既有視覺描述錯誤，又有推理邏輯錯誤的版本。這類答案不僅偷換了圖片信息，還基于這些錯誤的圖片描述得出了顯然站不住腳的結論。比如，先錯誤描述圖中的粒子數量，再基于這個錯誤數量做出一系列荒謬推斷。

經過這四個步驟，每道題就得到了三個有明確質量等級的答案：完全正確的"正確版"、只有視覺錯誤的"感知擾動版"、以及既有視覺錯誤又有邏輯錯誤的"雙重擾動版"。三者之間存在清晰的優劣順序，研究團隊將其標記為"正確版優于感知擾動版，感知擾動版優于雙重擾動版"。

最終構建出的訓練數據集包含3000個這樣的三元組，涵蓋通用視覺問答、科學題、數學題、OCR文字識別、圖表理解以及圖像質量評估等六大類別。這個規模聽起來不算很大，但正如后續實驗所證明的，這批經過精心設計的數據，質量遠比數量重要。

三、用"排名比較法"教會AI評委建立全局秩序感

有了訓練數據，下一個問題是：用什么方式訓練？研究團隊選擇了強化學習，具體來說是一種叫做GRPO（Group Relative Policy Optimization，組內相對策略優化）的方法。要理解這個方法，可以把AI評委的訓練過程類比成一場體育裁判的成長歷程。

一般的AI訓練就像給裁判逐場比賽提供一份"標準答案"，告訴他"這場比賽A隊贏了，那場比賽B隊贏了"。但GRPO更像是把一組比賽同時擺到裁判面前，讓他在這一組中憑自己的判斷排出名次，然后告訴他"你排的順序和標準順序差了多少"。這種方式的好處在于，裁判不是在孤立地評判每場比賽，而是在進行橫向比較，這樣更容易建立一套內部一致的評判標準。

研究團隊在GRPO的框架下，設計了兩個層次的獎勵機制，就像給裁判的打分規則設立了兩道門檻。第一道門檻是"格式獎勵"：AI評委輸出的評分必須符合規定格式，有清晰的推理過程（用特定標簽包裹），有明確的答案（用另一個特定標簽包裹），而且分數在合理范圍內。格式不合格的輸出，后續所有獎勵都歸零。這就像告訴裁判：你的判決書格式必須規范，不然判決無效。

第二道門檻是核心所在，叫做"批量排名獎勵"。這個獎勵不評估單個答案打了多少分，而是評估AI評委對三個答案排出的順序是否正確。研究團隊采用了一種叫做"加權Levenshtein距離"的數學工具來衡量排名的準確程度——簡單來說，就是計算AI評委排出的順序和標準順序"差了幾步"，差得越少，獎勵越高。

具體的獎勵分布非常直觀：如果AI評委排出的順序完全正確（正確版第一、感知擾動版第二、雙重擾動版第三），獲得滿分1分；如果只有輕微錯位（比如把雙重擾動版排在了感知擾動版前面），得三分之二；錯得更多則得三分之一；如果完全顛倒（把雙重擾動版排第一）則得0分。

這種設計的妙處在于，它強迫AI評委同時關注兩個維度的區別：既要能區分"視覺描述正確"和"視覺描述錯誤"，又要能進一步區分"只有視覺錯誤"和"視覺與邏輯都錯誤"。如果AI評委只依賴文字推理的流暢程度打分，它就很難正確區分這三個層次——因為"感知擾動版"的推理寫得和正確版一樣流暢，唯一的差別只在視覺描述上。這樣，訓練過程就把"看清圖片、核對視覺信息"變成了獲得高獎勵的必要條件，而非可有可無的加分項。

四、實驗結果：小數據集撬動大改進

研究團隊用多個公認的測評基準檢驗了這套方法的效果。評測維度分為三類：單項打分（給每個答案打1到5分，看是否和人類評分吻合）、兩兩比較（在兩個答案中選出更好的，看是否和人類判斷一致）、以及批量排名（對多個答案排序，看排出的順序和人類順序有多接近）。

訓練后的Perception-Judge-Qwen3-4B與其基礎模型Qwen3-VL-4B-Thinking相比，在兩兩比較上提升了約4個百分點，在批量排名上提升了約11個百分點，在單項打分上更是提升了約12個百分點——后者尤為值得關注，因為訓練時根本沒有用到任何具體的分數標簽，模型完全是通過相對排名學會了打分。這說明，學會辨別答案之間的相對優劣，能夠自然地遷移為對單個答案絕對質量的判斷能力。

與商業閉源模型相比，Perception-Judge在單項打分上的表現已經和GPT-4o相當，在批量排名上甚至超過了大多數閉源模型。而這一切，是用區區3000條訓練樣本實現的，與LLaVA-Critic使用的11.3萬條訓練數據相比，數據效率高出數十倍。

研究團隊還專門針對"感知錯誤識別能力"做了定點測試，驗證訓練效果。在需要區分"正確答案"和"感知擾動版答案"的場景下，基礎模型的準確率在多個數據集上明顯低于區分"正確答案"和"雙重擾動版答案"的場景，而Perception-Judge在這兩個場景下的表現差距大幅縮小，尤其在純粹感知錯誤的識別上提升最為顯著。

消融實驗（也就是逐步去掉某個設計組件，看看各自貢獻了多少）進一步證實了各個設計決策的價值。用PPJD數據集替換普通的MMPR數據集，在所有指標上都有穩定提升，說明專門針對感知錯誤設計的訓練數據確實有效。在獎勵設計上，批量排名獎勵比兩兩比較獎勵更有效——前者通過強制AI評委同時考慮三個答案的全局順序，提供了比后者更豐富的監督信號。此外，研究團隊還驗證了KL系數（控制模型不要偏離原始狀態太遠的參數）的最優值為0.01，過大或過小都會影響最終性能。

研究團隊還將這套訓練方法擴展到了更大規模的模型，包括32B參數的Flex-Judge-VL-32B和8B參數的Qwen3-VL-8B-Thinking。實驗結果顯示，性能改善在更大模型上同樣穩定，說明這套方法具有良好的可擴展性，不是只在特定尺寸的模型上才管用。

五、方法局限與未來空間

研究團隊在論文中也坦誠地指出了目前方法的不足之處。在某些需要極為細粒度視覺識別的場景下，Perception-Judge仍然會犯錯，尤其是當圖片中涉及復雜的三維空間關系，或者需要精確識別細微差別時。比如，當有人拿著一個盤子，題目問他以什么角度端著盤子時，Perception-Judge和其他模型一樣，難以從二維圖片中準確判斷三維姿態，往往給出看起來合理但實際錯誤的高分。這類失誤更多反映的是當前多模態大模型在底層視覺感知能力上的普遍局限，而非訓練方法本身的缺陷。

另一個局限是對商業閉源模型的依賴。在構建PPJD數據集時，研究團隊調用了GPT-5等商業模型來提取視覺屬性和生成擾動答案。這意味著數據集的構建成本受制于商業API的價格，也在一定程度上影響了整個流程的完全可復現性。未來，隨著開源模型能力的持續提升，這個依賴有望逐步減少。

訓練效率也是一個值得關注的問題。與直接監督微調相比，GRPO需要對每個訓練樣本生成多個候選回答，計算量更大。不過，研究團隊認為，考慮到只需要3000條訓練數據就能達到相當競爭力的性能，總體的計算代價仍然是合理的。

此外，在涉及主觀判斷或語境模糊的評分場景下，Perception-Judge偶爾仍會出現不一致的結果。這提示研究團隊，在感知能力之外，如何進一步提升推理的穩健性和對模糊情境的處理能力，是下一步值得探索的方向。

歸根結底，這項研究的本質貢獻在于：它精確定位了多模態AI評委的一個系統性失誤來源，并設計了一套在數據效率和方法設計上都頗具匠心的解決方案。它提醒我們，一個AI助手會不會"看圖"，和它在評判別人"看圖答題"的對錯時會不會真正用上自己的視覺判斷，是兩件截然不同的事。而彌合這兩者之間的鴻溝，正是構建可信賴的AI評估系統不可繞過的一關。

對這個話題感興趣的讀者，不妨思考這樣一個延伸問題：如果AI評委在圖文評分上存在這種偏差，那么在其他需要多模態理解的場景（比如醫學影像輔助診斷、安防監控分析）中，類似的"重文字、輕圖像"偏差是否也會存在？解決這類偏差，最終需要的是更好的訓練數據、更好的訓練方法，還是從根本上改變模型架構？完整論文arXiv:2606.02578提供了更多技術細節，可供深入探索。

Q&A

Q1：什么是感知判斷偏差，為什么AI評委會出現這個問題？

A：感知判斷偏差是指多模態大模型在擔任評分官時，傾向于根據答案文字的邏輯流暢程度打分，而不是認真核對圖片內容與答案描述是否一致。出現這個問題的原因有兩個：一是模型本身看不清圖片（感知能力不足），二是模型即使能看清圖片，在評分時也會被答案中的自信表述所左右，忽略了自己從圖片中獲取的信息（回答錨定）。

Q2：PPJD數據集是怎么構建的，和普通訓練數據有什么不同？

A：PPJD數據集通過對正確答案進行受控的"視覺屬性篡改"來構建，刻意制造出推理流暢但視覺描述錯誤的"陷阱答案"。普通訓練數據只區分好答案和差答案，差答案通常在邏輯上也有明顯問題；而PPJD專門構造了那種"邏輯沒錯、視覺錯了"的微妙錯誤類型，迫使模型學會依靠圖片核實而非依靠文字推理來判斷答案質量。

Q3：Perception-Judge用了多少訓練數據，性能怎么樣？

A：Perception-Judge僅用了3000條訓練樣本，與使用11.3萬條數據的同類模型相比，數據用量大幅減少。性能方面，與基礎模型相比，單項打分相關性提升約12個百分點，批量排名準確率提升約11個百分點，在兩兩比較上也有約4個百分點的提升，整體表現與GPT-4o等商業模型相當，并在批量排名上超過了多數商業模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.