網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

別卷推理了！當前大模型 STEM 短板在視覺感知，代碼才是破局關鍵

2026-05-11 11:53:59　來源: 機器之心Pro

河北舉報

0

分享至

本篇論文已被CVPR2026接收，第一作者官同坤來自上海交通大學人工智能研究院博士生，導師是沈為教授和楊小康教授。

當多模態大語言模型（MLLMs）在面對科學、技術、工程和數學（STEM）領域的視覺推理題時頻頻「翻車」，一個根本性的問題擺在了所有研究者面前：大模型做不出理科題，究竟是因為「腦子笨」（推理能力受限），還是因為「眼神差」（視覺感知缺陷）？

為了回答這個問題，來自上海交通大學和 Qwen 等研究團隊通過將任務分解為兩個階段進行系統性的擴展分析：視覺感知（圖像到描述）和推理（僅基于文本描述解決問題）。他們分別擴展感知和推理能力，同時保持其中一個能力不變。結果表明，擴展感知能力始終比擴展推理能力帶來更大的性能提升。這一經驗證據揭示了一個關鍵見解：在當前階段，感知才是限制大模型 STEM 視覺推理的真正瓶頸所在。

基于這一深刻洞見，該團隊提出了一種全新的范式——CodePercept（代碼驅動的視覺感知），并成功被計算機視覺頂級會議CVPR 2026接收。

開源地址
https://github.com/TongkunGuan/Qwen-CodePercept
論文標題：CodePercept: Code-Grounded Visual STEM Perception for MLLMs
論文鏈接
https://arxiv.org/abs/2603.10757

核心洞見：打破自然語言的

「描述性失語」，用代碼重塑感知

近年來，隨著 RL（強化學習）的爆發，研究者們試圖通過復雜獎勵機制提升大模型在 STEM 領域的跨模態推理能力。但研究團隊將 STEM 視覺推理任務解耦為「感知（圖像到描述）」和「推理（僅基于描述進行解答）」兩個階段后發現：擴展感知能力帶來的性能提升，始終優于擴展推理能力。

既然「感知」是最大短板，那該如何評估并提升它？

痛點一：自然語言描述存在幻覺以及「描述性失語」

直覺上，用強大的閉源大模型生成圖像描述（Caption）進行知識蒸餾是個好辦法。但團隊指出了自然語言在 STEM 領域的致命缺陷——「描述性失語」。復雜的空間幾何關系、精準的數值坐標、多面體中錯綜復雜的輔助線，根本無法僅憑自然語言來準確、完整地刻畫，且極易產生幻覺。

解決方案：面對這一痛點，研究團隊提出將可執行的 Python 代碼作為強大的視覺感知媒介，并從兩個維度進行了范式重構。他們提出代碼作為一種強大的媒介，通過兩項基于代碼的任務顯著增強 MLLM 的視覺感知能力：

1）代碼驅動的描述生成（Code-Grounded Caption Generation）：基于代碼的圖像描述生成，利用可執行代碼作為生成圖像描述的真實標簽，有效消除 AI 生成的描述錯誤（圖像 + Code -> Caption）；

2）STEM 圖像到代碼轉錄（STEM Image-to-Code Translation）：直接訓練模型生成可執行的重建代碼，消除自然語言描述固有的歧義（圖像 -> Code）。

痛點二：現有評估體系無法剝離「感知」與「推理」

現有的基準測試（如 MathVista、MathVerse 和 MathVision）通過最終任務問題解決準確率來評估 MLLM 的能力，這結合了 STEM 領域的感知理解和推理能力。當模型失敗時，我們無法確定失敗是源于感知缺陷還是推理能力不足。雖然最近的研究采用了兩階段評估范式（先進行圖像描述，再進行 LLM 求解）來分離 MLLM 的感知能力，但該指標僅反映了模型理解問題相關信息的能力，而非全面的視覺感知能力。為了彌補這一不足，我們提出了一種確定性且可驗證的范式，該范式要求模型生成能夠忠實再現原始圖像的可執行 Python 代碼。只有通過完整且準確的視覺理解，模型才能成功地、高保真地再現原始圖像。

解決方案：面對這一痛點，研究團隊認為，要求 MLLM 生成用于圖像重建的可執行 Python 代碼，能夠最嚴格地驗證其感知能力。這一原理簡單而強大：只有當模型完全理解視覺信息時，才能實現精確的圖像再現。

基于此原理，他們推出了 STEM2Code-Eval：一個包含 1000 張圖像的手動標注基準測試，旨在檢驗模型生成用于圖像重建的可執行 Python 代碼的能力，從而對視覺感知能力進行確定性和可驗證的評估。

數據基石：百萬級三元組數據集 ICC-1M

為了讓代碼成為感知的有效媒介，研究團隊構建了ICC-1M 數據集，包含 100 萬個高質量的圖像-描述-代碼（Image-Caption-Code）三元組。該數據集通過三大創新流水線合成：

圖像復現（Image Reproduction）：將現有 STEM 圖像精準轉化為可執行的 Python 代碼。

圖像多樣化（Image Diversity）：提取種子圖像的核心 STEM 原理，并在不同的視覺語境中重新實例化，確保生成極其豐富的新穎圖像。

立體幾何合成（Solid Geometry Synthesis）：專門針對當前多模態大模型在立體幾何空間關系上的短板，開發了基于模板的立體幾何代碼生成流水線。

所有數據均需通過嚴苛的三階段統一質量控制（圖像質量、代碼質量、圖碼一致性驗證），確保訓練信號的絕對精準。

訓練雙引擎：兩項「代碼驅動」學習任務

基于 ICC-1M 數據集，CodePercept 提出了兩項開創性的訓練任務，系統性提升感知能力：

1、代碼驅動的描述生成（Code-Grounded Caption Generation）：將可執行代碼視為圖像描述的「絕對真理」，利用代碼分析中的確鑿事實（如坐標、數量）進行重寫，徹底消除了傳統視覺語言模型固有的數字和幾何幻覺。

2、STEM 圖像到代碼轉錄（STEM Image-to-Code Translation）：直接引導大模型生成包含詳細注釋的「解釋性重建代碼」，這不僅消除了自然語言描述的模糊性，還迫使模型深刻理解「觀測特征」與「代碼片段」之間的內在映射法則。

在訓練策略上，團隊采用了兩階段學習法：

1、第一階段：SFT（監督微調，CodePercept-S1）。Code 本質上是一種格式化的 Caption，所以聯合優化 Image2Caption 與 Image2Code 任務，使模型建立強大的感知能力；

2、第二階段：強化學習（CodePercept-R1）。鑒于代碼生成的容錯率極低，團隊引入了 GRPO 強化學習專屬優化代碼生成。模型不僅需要拿到「格式獎勵（語法正確）」，還要通過更嚴苛的「內容執行獎勵」與「圖碼相似度獎勵」，在不斷的自我試錯中實現能力的指數級躍遷。

硬核評測與驚艷結果

傳統評測往往用「解題正確率」來衡量感知，這不僅存在誤差，還容易遺漏未考查的視覺細節。為此，研究團隊推出了STEM2Code-Eval Benchmark。這是一個包含 1000 張經過人工精校圖像的評測基準，它要求模型直接生成 Python 代碼來 100% 還原原始圖像，提供最確定、最可驗證的視覺感知評估底線。

基于 Qwen3-VL 架構的實驗結果令人震撼：

解題端（Captioner-Solver）表現：在同樣的推理求解器下，CodePercept-8B-S1 竟然超越了比其大得多的開源巨頭 Qwen2.5-VL-72B（優勢達 6.2%），甚至逼近了 Claude-Opus 4.1-Thinking 和 GPT5-Thinking 等閉源前沿模型的水平。

視覺重構（STEM2Code-Eval）表現：在純粹考查感知的圖像還原任務中，經過強化學習優化的 CodePercept-8B-R1 斬獲了 63.56 分的佳績（較基座提升 3.92 分），全面碾壓了 Seed 1.6-Vision 和 Qwen3-VL-Plus 等超大參數規模的旗艦模型。

結語

CodePercept 的出現不僅僅是一個新模型的誕生，它更宣告了多模態大模型在解決復雜科學問題時的一條新航線：只有給大模型裝上基于代碼邏輯的「火眼金睛」，真正的復雜推理之門才會被徹底叩開。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

突破模型瓶頸：QDepth-VLA讓機器人擁有更精準的3D空間感知

機器之心Pro 2025-11-26 15:30:26
0 跟貼 0
SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0

「思考用時100秒」成歷史？AI推理太耗時，伯克利整了個大活兒

雷科技 2026-05-10 16:59:53
0 跟貼 0

13年不寫代碼，5天花200美元重建400萬美元產品——YC掌門人是怎么做到的？

華爾街見聞官方 2026-05-11 10:52:07
0 跟貼 0
別再把長文切碎了，HiLight讓AI直接在原文里劃重點

機器之心Pro 2026-05-11 10:39:41
0 跟貼 0

具身智能來時路：谷歌RT1、2，SayCan作者Ted Xiao復盤機器人學習

機器之心Pro 2026-05-11 09:52:22
0 跟貼 0

港科大聯手社區開源StarVLA：一個框架揭秘所有主流VLA

機器之心Pro 2026-05-09 11:30:18
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

寶通科技拿下AniShort海外獨家代理權 AIGC工具與Token出海雙線突破

財聯社 2026-05-11 10:48:04
0 跟貼 0
GPT-5.5智商145背后：大模型競賽，正在進入工程淘汰賽

鈦媒體APP 2026-04-27 19:41:15
0 跟貼 0
公司斥巨資挖來的程序員，老板都不敢惹她，直到有幸看到她的技術

陌陌說時尚 2026-05-09 09:48:18
8 跟貼 8
圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

機器之心Pro 2026-05-11 09:55:21
0 跟貼 0
Codex不只敲代碼！教你幾分鐘全自動搞定視頻

王子健 2026-05-08 23:37:52
5 跟貼 5
程序員面試變天了：AI輔助編程成必考題

賽博蘭博 2026-05-11 12:32:14
0 跟貼 0
大模型工程師的必修課清單

我是一個養蝦人 2026-05-11 11:29:41
0 跟貼 0
一個CEO父親的教育實驗：STEM能救孩子嗎

時光慢郵啊 2026-05-10 06:00:37
0 跟貼 0
不用寫代碼也能做個小游戲？實測Hy3 preview 模型

泡泡網 2026-05-07 20:27:49
0 跟貼 0
安徽：大模型賦能智能預警提升“獲得電力”服務水平

人民資訊 2026-05-11 11:37:31
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
女子指揮男子用斜坡把行李箱滑下去，沒想到男子把自己也一起滑下去了

南陽日報 2026-05-10 18:54:56
208 跟貼 208
數獨背后的數學密碼：圖論如何解謎

字節漫游指南 2026-05-11 10:57:08
0 跟貼 0
2026數字文旅賽道作品展播｜AI圖識文物建筑——福建多模態文物數據活化與公眾傳播應用

金臺資訊 2026-05-08 17:23:54
0 跟貼 0
中國造"麒麟"級潛艇首艇交付巴方專家：不針對第三方

環球網資訊 2026-05-10 13:18:11
4309 跟貼 4309
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
306 跟貼 306
中國男乒3-0橫掃日本完成世乒賽12連冠

央視新聞客戶端 2026-05-11 01:25:02
946 跟貼 946
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
17 跟貼 17
臺"軍購條例"大幅縮水美坐不住了美官員:向大陸屈服

澎湃新聞 2026-05-10 17:54:57
386 跟貼 386
這樣問DeepSeek，能「偷」到數據？

機器之心Pro 2026-05-11 11:40:03
0 跟貼 0
韓國人對華好感度最新數據公布

揚子晚報 2026-05-10 15:52:55
1365 跟貼 1365
山姆成“欠款大戶”？雨花客廳北區法拍公告披露：山姆欠租887萬元

揚子晚報 2026-05-10 20:25:23
575 跟貼 575
�；鸷蟮降装l生了什么？梳理伊朗破局美軍封鎖的戰術邏輯

北山戰史 2026-05-09 20:21:15
1 跟貼 1
戰斗機如何用航炮擊沉潛艇？演示二戰飛機反潛航炮戰術模型

老周說趣 2026-05-10 09:44:15
0 跟貼 0
5.6美國加油機發出7700緊急代碼

空天觀察 2026-05-08 19:37:33
0 跟貼 0
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
299 跟貼 299
浙江一加油站92號汽油6.6元/升被質疑“便宜沒好貨”，回應：優惠力度大

瀟湘晨報 2026-05-10 17:11:17
519 跟貼 519
國家體育總局呼吁不組織不參與運動員慶生

央視新聞客戶端 2026-05-10 15:38:30
788 跟貼 788
斯塔默執政1年多痛失約1500席慘敗誓言不會一走了之

上觀新聞 2026-05-10 21:08:05
89 跟貼 89
標語張貼方式太驚悚，平常場景出現真嚇人，獨特視覺沖擊夠刺激

趣味加工廠 2026-05-08 15:46:18
1 跟貼 1

斯諾克巨星邀請賽：小特不敗奪冠！進賬462萬獎金，吳宜澤險墊底

斯諾克巨星邀請賽：小特不敗奪冠！進賬462萬獎金，吳宜澤險墊底

劉姚堯的文字城堡

2026-05-11 07:57:47

損失難以估量！世界杯若失去中國觀眾，國際足聯將直面3大壓力

損失難以估量！世界杯若失去中國觀眾，國際足聯將直面3大壓力

云舟史策

2026-05-11 07:10:07

武大聲明翻車，是因為它在不該精明的地方太精明

武大聲明翻車，是因為它在不該精明的地方太精明

牛角說

2026-05-11 10:20:34

北京走了一百多w的年輕人

微微熱評

2026-05-11 08:46:02

俄加強對普京的保護措施，歐洲情報機構猜測，可能與紹伊古有關

俄加強對普京的保護措施，歐洲情報機構猜測，可能與紹伊古有關

阿甘天天傳

2026-05-10 23:20:20

2:3！日本女團惜敗國乒，張本美和賽后采訪滿是心有不甘與心碎！

2:3！日本女團惜敗國乒，張本美和賽后采訪滿是心有不甘與心碎！

田先生籃球

2026-05-10 23:07:16

沒有外援就拔刀相向？神權杖硬剛槍桿子，塔利班進入內斗階段！

沒有外援就拔刀相向？神權杖硬剛槍桿子，塔利班進入內斗階段！

寰球經緯所

2026-05-10 10:55:10

女子碩士入學清華后參與智力測驗，僅得25分，回應：無論是學習、工作、創業，我都沒有遇到困難，但我居然智力中下

女子碩士入學清華后參與智力測驗，僅得25分，回應：無論是學習、工作、創業，我都沒有遇到困難，但我居然智力中下

揚子晚報

2026-05-11 07:48:21

中國境內唯一一支外國軍隊，趕了50年趕不走，至今仍駐扎在北京

中國境內唯一一支外國軍隊，趕了50年趕不走，至今仍駐扎在北京

可樂愛微笑

2026-05-07 02:35:38

狀元簽到手卻要賣？奇才交易狀元簽理由曝光，神思路性價比拉滿

狀元簽到手卻要賣？奇才交易狀元簽理由曝光，神思路性價比拉滿

夜白侃球

2026-05-11 11:10:16

林詩棟哭了！撲入王皓懷中+跳上球臺奧運冠軍大喊：完了不能站

林詩棟哭了！撲入王皓懷中+跳上球臺奧運冠軍大喊：完了不能站

念洲

2026-05-11 08:46:13

青島倆兒子非親生：女主照片曝光，第三者勢力大，更多細節被爆料

青島倆兒子非親生：女主照片曝光，第三者勢力大，更多細節被爆料

漢史趣聞

2026-05-11 10:03:11

拉什福德任意球破門，費蘭建功定乾坤，巴薩2-0復仇皇馬勇奪29冠

拉什福德任意球破門，費蘭建功定乾坤，巴薩2-0復仇皇馬勇奪29冠

釘釘陌上花開

2026-05-11 05:10:06

特朗普時隔9年再度訪華；首次訪華兩國曾簽下2535億美元大單，今年2月特朗普還在贊嘆訪華期間中國儀仗隊強大陣容、整齊劃一

特朗普時隔9年再度訪華；首次訪華兩國曾簽下2535億美元大單，今年2月特朗普還在贊嘆訪華期間中國儀仗隊強大陣容、整齊劃一

極目新聞

2026-05-11 10:22:20

i60月銷持續破萬，埃安以大單品開啟上行新周期

i60月銷持續破萬，埃安以大單品開啟上行新周期

《新車新技術》

2026-05-09 18:00:09

出售公民信息千元一條，國家反詐平臺成內鬼搖錢樹

出售公民信息千元一條，國家反詐平臺成內鬼搖錢樹

高恒說

2026-05-10 16:58:40

忍無可忍！馬刺主帥怒批裁判不作為，文班肘擊前被卸胳膊畫面曝光

忍無可忍！馬刺主帥怒批裁判不作為，文班肘擊前被卸胳膊畫面曝光

新殺豬的秀才

2026-05-11 11:47:53

?圍觀也能賠上千億：中東這把火，把印度燒成了最慘的局外人

?圍觀也能賠上千億：中東這把火，把印度燒成了最慘的局外人

局勢帝

2026-05-10 18:00:40

女子因18元奶茶被親姐拉黑，崩潰大哭：離婚帶娃5年，都看不起我

女子因18元奶茶被親姐拉黑，崩潰大哭：離婚帶娃5年，都看不起我

辣媒專欄記錄

2026-05-11 08:21:59

無法共情，理解不了

求實處

2026-05-10 22:34:56

機器之心Pro

專業的人工智能媒體

12965文章數 142648關注度

往期回顧全部

科技要聞

黃仁勛：你們趕上了一代人一次的大機會

頭條要聞

姑娘海底撈吃完飯遭多名男子毆打兩顆門牙被一拳打斷

頭條要聞

姑娘海底撈吃完飯遭多名男子毆打兩顆門牙被一拳打斷

體育要聞

那個曾讓詹姆斯抱頭的兄弟，40歲從大學畢業了

娛樂要聞

謝霆鋒沒想到，王菲靠張藝謀重返巔峰

財經要聞

"手搓汽車"曝光:偽造證件、電池以舊代新

汽車要聞

全球化成國內車企未來勝負手，誰是出海最強"水手"?

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

旅游

手機

公開課

教育要聞

奔赴一場英法教育之旅，遇見更好的未來

數碼要聞

聯想YOGA Air 14 Ultra筆記本官宣5月19日發布

旅游要聞

濟南“泉水游”爆火背后：解碼歷下如何擦亮“泉水長涌”金名片

手機要聞

榮耀600系列開啟全渠道預約幸運星設計實錘了

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版