網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

剛剛，DeepSeek多模態技術范式公布，以視覺原語思考

2026-04-30 19:46:01　來源: 機器之心Pro

河北舉報

0

分享至

機器之心編輯部

雖遲但到，五一長假將至，DeepSeek 給大家公開新技術了。

昨天，DeepSeek 陳小康一個 X 消息，讓大家開始關注 DeepSeek 的多模態。

之后，一些用戶就已經可以在 DeepSeek 網頁端和 App 上體驗其多模態能力。

而就在剛剛，DeepSeek 在 Github 上正式發布了多模態模型，公布了背后的技術報告。

實打實的新鮮出爐！而且是開創性的推理范式。

項目地址：https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
技術報告：https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

下面我們就基于 DeepSeek 這篇技術報告，具體看看 DeepSeek、北京大學、清華大學又創造了怎樣的奇跡。

這篇論文名叫「Thinking with Visual Primitives（以視覺原語思考）」。它提出的問題，幾乎擊中了當前所有多模態大模型的軟肋：這些模型能「看見」，但不一定能「想清楚」。

給一張密集的人群照片，問 GPT-5.4「圖里有多少人」，它很可能數錯。給 Claude Sonnet 4.6 一張復雜電路圖，問「左邊的紅色電容在右邊電感的左側還是右側」，它的回答往往語焉不詳，甚至前后矛盾。這不是模型看不清圖片的問題，而是模型在「思考」時根本抓不住它想談的視覺對象。

DeepSeek 把這個問題命名為「Reference Gap」（指代鴻溝），并給出了一套完整的解法。

背景：「看清」和「想清」是兩件事

要理解這個問題，先想象你在向一個看不見你屏幕的朋友描述一張復雜的棋盤布局。你說「左邊那個棋子要吃掉中間偏右一點那個棋子」，然而對方根本不知道你在說哪兩顆棋子。

這正是現有多模態大模型在推理時的處境。它們用自然語言構建「思維鏈」（CoT），但自然語言天生模糊：「左邊那個大的」、「靠近中央的紅色物體」，這些描述在密集場景里根本無法精確定位。模型的注意力在推理過程中逐漸「漂移」，越說越亂，最后得出錯誤結論。

學術界此前的應對方案，主要是讓模型「看得更清楚」：對圖片進行高分辨率切割、動態分塊，確保模型能感知到細節。這解決的是「感知鴻溝」（Perception Gap）。

但 DeepSeek 的論文指出，感知能力再強，也代替不了精確的「指代能力」?！缚匆姟购汀改苷f清楚在說哪個」，是兩件不同的事。

架構：站在 V4-Flash 肩膀上

這項工作以 DeepSeek 剛發布的 V4-Flash 為語言主干 —— 這是一個 284B 總參數、推理時激活 13B 參數的混合專家模型（MoE）。視覺編碼部分則使用 DeepSeek 自研的 ViT（視覺 Transformer），支持任意分辨率輸入。

值得注意的是，這支團隊的核心貢獻在于提出了一套完整的「訓練哲學」：如何用極少的視覺 token，教會模型在推理過程中精確指代視覺對象。

核心創新一：把坐標變成「思維單元」

這篇論文最核心的思路，用一句話說就是：把點坐標和邊界框（Bounding Box）變成推理的基本單位，像文字一樣穿插在思維鏈里。

傳統做法中，邊界框是輸出的一部分：模型先想清楚，再告訴你「目標在圖片左上角坐標 [100,200,300,400]」。這是事后標注，不是思考工具。

DeepSeek 的做法不同。模型在推理過程中，每當提到一個視覺對象，就同步輸出它的坐標：

「掃描圖片尋找熊，找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬樹，不在地面上，排除。再往左下看，找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在巖石邊緣，符合條件?！?br/>

這就像人類在數東西時會用手指逐一點過去。坐標不再是答案，而是推理過程中消除歧義的「錨點」。模型的邏輯鏈被釘在圖片的物理坐標上，不會漂移。

這套機制有兩種「原語」（Primitives）：邊界框（<|box|>）用于需要定位和尺寸信息的對象；點坐標（<|point|>）用于更抽象的空間指代，比如迷宮探索軌跡或曲線追蹤路徑。

核心創新二：7056 倍的視覺壓縮

另一個令人印象深刻的技術創新，來自架構層面的壓縮。

對于一張 756×756 的圖片，傳統方案需要大量視覺 token 喂給語言模型。DeepSeek 的流程是這樣的：圖片先經過 ViT 處理，生成 2916 個圖像塊 token；再經過 3×3 空間壓縮，合并為 324 個 token 輸入語言模型；最后，內置在 V4-Flash 里的「壓縮稀疏注意力」（Compressed Sparse Attention，CSA）機制，將 KV 緩存進一步壓縮 4 倍，最終只剩 81 個視覺 KV 條目。

從原始像素到最終緩存條目，整體壓縮比為 7056 倍。

這意味著，對于一張 800×800 的圖片，這個模型只需要約 90 個 KV 緩存條目，而 Claude Sonnet 4.6 需要約 870 個，Gemini-3-Flash 需要約 1100 個。論文的論點是：精確的空間指代能力，可以在一定程度上彌補視覺 token 不足的問題。模型不需要「看更多」，而需要「指更準」。

核心創新三：冷啟動數據的精心設計

技術創新的第三個維度，在于訓練數據的構建方式。

團隊首先爬取了近 10 萬個與目標檢測相關的數據集，經過兩輪嚴格篩選（語義審核和幾何質量審核），最終保留約 3.17 萬個高質量數據源，生成超過 4000 萬條訓練樣本。

在「思考與視覺原語」的專項冷啟動數據上，團隊設計了四類任務。

第一類是計數，分粗粒度（「圖里有多少人」）和細粒度（「穿藍色衣服的人有幾個」）兩種。對于粗粒度計數，模型學習「批量鎖定」—— 一次性框出所有候選對象再數；對于細粒度計數，則學習逐一掃描、逐一核對屬性。兩種策略對應不同認知負荷，分別訓練。

第二類是空間推理和視覺問答，大量利用 GQA 數據集（自然場景）和 CLEVR 工具鏈（可控合成場景）生成多跳推理樣本，迫使模型在每一步推理時都用邊界框鎖定涉及的對象。

第三類是迷宮導航，共生成 46 萬條樣本。團隊用 DFS（深度優先搜索）、Prim 和 Kruskal 算法生成矩形、圓形、六邊形三種拓撲結構的迷宮，并專門設計了「表面可解但實際無解」的迷宮來訓練模型的魯棒性。模型需要用點坐標記錄每一步探索軌跡，回溯時也要用坐標標記已排除路徑。

第四類是路徑追蹤，共 12.5 萬條樣本。給定一張多條貝塞爾曲線相互交叉的圖，要求模型追蹤指定起點的曲線到達終點。關鍵挑戰在于「交叉歧義消解」：兩條線交叉時，模型必須判斷哪一條才是目標曲線的延續，而不是用顏色取巧 —— 專門設計了所有曲線顏色相同的測試版本。

訓練流程：「先分家，再合體」

后訓練階段，團隊采用「先專家化，后統一」的策略。

第一步，用邊界框數據和點坐標數據分別訓練兩個專家模型（FTwG 和 FTwP），避免兩種模態在數據量較少時互相干擾。

第二步，對兩個專家模型各自進行強化學習（RL），使用 GRPO 算法。獎勵設計非常精細：格式獎勵（輸出格式是否正確）、質量獎勵（LLM 評判思考內容和答案是否一致）、精度獎勵（任務特定）三路并行。計數任務使用平滑指數衰減獎勵而非二值對錯，迷宮任務的獎勵分解為五個子項（因果探索進度、探索完整性、穿墻懲罰、路徑有效性、答案正確性），都是為了給模型提供密集而信息豐富的學習信號。

第三步，用兩個專家模型的 rollout 數據進行統一的強化微調（Unified RFT），再從預訓練模型重新初始化開始訓練，得到統一模型 F。

第四步，用 On-Policy Distillation（在線策略蒸餾）彌合統一模型與專家模型之間的性能差距 —— 讓學生模型自己生成軌跡，然后最小化其輸出分布與專家分布之間的 KL 散度。

實驗結果：在「最難的那類題」上超越 GPT-5.4

論文在 11 個基準測試上進行了評測，與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型對比（所有 frontier 模型均通過 API 評測，使用統一提示詞）。

結果概要如下：

在計數任務上，該模型在 Pixmo-Count（精確匹配）上得分 89.2%，超過 Gemini-3-Flash 的 88.2%，大幅領先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在細粒度計數上（DS_Finegrained_Counting），以 88.7% 超過 Qwen3-VL 的 87.2%，位居第一。
在空間推理的多個基準上，整體表現與頭部模型持平或略有超越，在 MIHBench（85.3%）和 SpatialMQA（69.4%）上均排名第一。
最具代表性的差距出現在拓撲推理任務上。在迷宮導航（DS_Maze_Navigation）上，該模型得分 66.9%，而 GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%—— 所有 frontier 模型都只能答對一半，而這個模型提升了約 17 個百分點。在路徑追蹤（DS_Path_Tracing）上，該模型 56.7% vs. GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%，差距同樣懸殊。

論文誠實地指出：「所有 frontier 模型在拓撲推理任務上均表現欠佳，說明多模態大模型的推理能力仍有相當大的提升空間?！?/p>

下面展示了幾個定性示例：

局限與未來

論文沒有回避幾個已知的局限性。

當前模型需要明確的「觸發詞」才會啟用視覺原語機制 —— 它還不能自主判斷什么時候該「用手指」。
受輸入分辨率限制，在極細粒度的視覺場景中，視覺原語的位置偶爾會不夠精準。團隊認為與現有高分辨率感知方案的結合是自然的下一步。
用點坐標解決復雜拓撲推理問題，目前的跨場景泛化能力仍然有限。

結語：一種新的「思考姿勢」

這篇論文的意義，不只是在幾個榜單上拿了第一。

它提出的問題 ——「推理過程中語言指代的歧義性是多模態模型的根本瓶頸之一」—— 在此之前并不是學界的主流敘事。

主流的努力方向是更大的模型、更高的分辨率、更多的訓練數據。這篇論文給出了另一條路：不是讓模型「看更多」，而是讓模型「指更準」，用坐標代替語言描述，用空間錨點穩定邏輯鏈。

從這個角度看，「Thinking with Visual Primitives」更像是在給多模態推理增添一種「思考姿勢」—— 一種人類在處理復雜視覺任務時本能就會使用、但 AI 此前一直缺失的姿勢：用手指點著想。

更多詳情請參閱原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型“降智”真相，找到了

智東西 2026-04-30 14:41:59
0 跟貼 0
阿里QoderWake上崗：有身份、有記憶、有紅線，先給它一版“職業行為指南“

智東西 2026-04-30 14:41:58
0 跟貼 0

不只是DeepSeek V4，還有個萬億級大模型，訓推全程國產芯片

機器之心Pro 2026-04-30 16:02:50
1 跟貼 1

暴力美學的視覺盛宴

瘋癲影視 2026-04-28 15:47:43
1 跟貼 1
四川小伙做的導彈車模型，準備開出去測試，結果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
12 跟貼 12

認領神秘登頂模型：生數拿出工業級Demo，跨本體跑通復雜長程任務

量子位 2026-04-30 10:12:03
0 跟貼 0

哈薩比斯出的難題，GPT之父接上了：用一個知識停在1930年的模型

機器之心Pro 2026-04-30 13:20:52
0 跟貼 0
TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0

大模型外掛三維物體知識庫來了，大幅增強機器人長程自主操作能力

DeepTech深科技 2026-04-30 14:08:45
0 跟貼 0
女人曲線魅力無法擋，對我而言成軟肋，深陷其中難自拔

劇說侃影 2026-04-28 09:58:10
1 跟貼 1
網紅分手羅生門：當私域沖突被算法放大

熱搜摘要官 2026-04-30 15:00:59
0 跟貼 0
中國科學院推出“磐石100”系列，八大學科大模型，引入波譜場三大新模態

智東西 2026-04-30 12:39:35
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15202 跟貼 15202
無感于心，默契響應

風度mensuno 2026-04-30 18:45:40
0 跟貼 0
GPT-5系列咋都愛說「哥布林」？原因找到了

機器之心Pro 2026-04-30 19:51:20
0 跟貼 0
專訪他山科技付宜暉：全棧自研領跑人形機器人觸覺傳感器產業

通信世界 2026-04-30 20:35:29
0 跟貼 0
Salesforce數據崗面試：7道題測什么

固件更新中 2026-04-30 08:58:50
0 跟貼 0
小鵬汽車推出IRON人形機器人周邊手辦，279元

IT之家 2026-04-30 16:17:14
1 跟貼 1
采用文遠知行L4方案，埃安N60的智駕是噱頭還是降維打擊

經濟觀察報 2026-04-30 18:47:52
1 跟貼 1
自閉癥診療排隊半年變四天：AI干了一件事

摸魚算法 2026-04-29 21:57:17
0 跟貼 0
第37屆金曲獎時間地點公布！　絕美主視覺曝光

ETtoday星光云 2026-04-30 11:20:15
0 跟貼 0
早報：中國軍號：日本出兵都是作死；DeepSeek上線識圖模式；減肥吃全麥面包的人天塌了

岸標財經 2026-04-30 07:42:17
1 跟貼 1
明顯是視覺誤差，總以為自己能跑過去，我都替司機感覺到冤枉！

宇宙搞笑生活 2026-04-30 13:55:15
5 跟貼 5
看似驚險爬山，其實全是視覺效果！

銀河探索隊 2026-04-30 07:38:34
1 跟貼 1
國防部回應外界推測中國對日將有大動作

北京青年報 2026-04-30 16:41:25
2610 跟貼 2610
美軍新一代班用機槍，XM250輕機槍，重塑美軍火力壓制邏輯！

環球武器 2026-04-30 09:30:56
0 跟貼 0
諾獎得主實驗室走出的中國團隊，正用世界模型重構生命分子設計

機器之心Pro 2026-04-29 11:41:34
9 跟貼 9
62歲天津大爺，“chua一下”就火了

中國新聞周刊 2026-04-30 11:20:55
787 跟貼 787
男子在山里航拍，發現多人為摘洋槐花砍槐樹，幾十棵粗樹被鋸斷

星視頻 2026-04-30 13:26:30
34 跟貼 34
堅持的本質：一個被誤讀的動作

晚風也遺憾 2026-04-30 00:34:19
0 跟貼 0
愛芯元智的雙輪驅動：車載放量，邊緣爆發

雷峰網 2026-04-30 18:52:04
0 跟貼 0
羅納爾多的接球邏輯，獨屬于外星人的無解調整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
“福特”號航母將于近日撤離中東返回美國，“梅森”號導彈驅逐艦加入“布什”號航母打擊群執行任務

魯中晨報 2026-04-30 07:11:04
263 跟貼 263
韓國人吹噓本國地圖像猛虎，評論區翻車笑死人：感覺更像大青蟲！

肆無忌憚的哭 2026-04-27 04:47:43
1 跟貼 1
通研院團隊打造SceneVerse++「最大規?！拐鎸?D場景數據

機器之心Pro 2026-04-30 16:19:08
0 跟貼 0
邏輯鬼才劉能裝傻充愣第一名

秦嶺扒娛 2026-04-27 18:20:16
1 跟貼 1
衛冕冠軍趙心童10比13不敵墨菲止步八強，“克魯斯堡魔咒”仍在延續，吳宜澤闖進四強，成為中國軍團獨苗

魯中晨報 2026-04-30 09:07:20
713 跟貼 713
哈啰“臻有錢”平臺被指利率踩紅線、隱形收費多

紅星新聞 2026-04-30 14:27:43
87 跟貼 87
一夫一妻制保護了窮男的利益，邏輯上是否有缺陷

像風走了八萬里不問歸期 2026-04-29 03:13:26
0 跟貼 0
洛陽白馬寺發布鄭重聲明：不少游客因通過非官方第三方渠道購買非法倒賣的預約門票，導致無法正常入寺，切勿輕信

極目新聞 2026-04-29 18:10:47
903 跟貼 903

上將被暗殺，原因是妻子太漂亮，后代是家喻戶曉的明星

上將被暗殺，原因是妻子太漂亮，后代是家喻戶曉的明星

年代回憶

2026-04-30 20:48:08

美專家無奈承認：我們沒打贏伊朗，但是中國、俄羅斯、朝鮮都贏了

美專家無奈承認：我們沒打贏伊朗，但是中國、俄羅斯、朝鮮都贏了

音樂時光的娛樂

2026-04-30 18:57:26

西班牙的抗爭與結果：唐羅主義大洗牌，西班牙在南美只剩一口湯！

西班牙的抗爭與結果：唐羅主義大洗牌，西班牙在南美只剩一口湯！

寰球經緯所

2026-04-30 16:32:53

五一前后，這5種蔬菜盡量不要買，菜販子：我從來都不吃

五一前后，這5種蔬菜盡量不要買，菜販子：我從來都不吃

江江食研社

2026-04-29 20:15:11

行程結束，澳外長離開北京，臨走前對華作出承諾，中方伸出援手

行程結束，澳外長離開北京，臨走前對華作出承諾，中方伸出援手

娛樂小可愛蛙

2026-04-30 20:12:44

白百何帶大兒子剪頭發，18歲元寶換發型變帥氣美男，繼承媽媽顏值

白百何帶大兒子剪頭發，18歲元寶換發型變帥氣美男，繼承媽媽顏值

好賢觀史記

2026-04-30 13:56:56

72年毛主席會見葉劍英，提及鄧小平回京，葉劍英：我只有一個要求

72年毛主席會見葉劍英，提及鄧小平回京，葉劍英：我只有一個要求

大運河時空

2026-03-24 17:45:03

國務院任免國家工作人員

新華社

2026-04-30 10:24:13

62歲天津大爺，“chua一下”就火了

62歲天津大爺，“chua一下”就火了

中國新聞周刊

2026-04-30 11:20:55

許家印拿錢開路：5千萬簽女明星送幾十瓶茅臺沒他搞不定的人？

許家印拿錢開路：5千萬簽女明星送幾十瓶茅臺沒他搞不定的人？

念洲

2026-04-29 14:46:42

價格打下來了！壟斷激光雷達命脈的核心芯片，被江蘇破解

價格打下來了！壟斷激光雷達命脈的核心芯片，被江蘇破解

瑛派兒老黃

2026-04-30 17:41:49

80億歐元歸零！ASML與中國的十年大單，徹底終結

80億歐元歸零！ASML與中國的十年大單，徹底終結

創造精彩劇情

2026-04-29 23:00:13

40歲曼聯傳奇宣布退役！23年生涯迎大結局，盼帶隊重返英超

40歲曼聯傳奇宣布退役！23年生涯迎大結局，盼帶隊重返英超

仰臥撐FTUer

2026-04-30 21:00:01

倫敦世乒賽徹底炸鍋！11-0零封慘案上演，63歲倪夏蓮暖心讓分？

倫敦世乒賽徹底炸鍋！11-0零封慘案上演，63歲倪夏蓮暖心讓分？

林子說事

2026-04-30 07:31:55

李麗珍和吳鎮宇在香港觀光巴士上的合影。

李麗珍和吳鎮宇在香港觀光巴士上的合影。

東方不敗然多多

2026-04-30 10:37:09

CBA傳奇外援哈德森：遼寧隊史功勛，晚年卻慘遭老東家舍棄

CBA傳奇外援哈德森：遼寧隊史功勛，晚年卻慘遭老東家舍棄

米果說識

2026-04-29 16:51:50

再沒錢，都不建議在網上買這6類 “便宜貨”，看完就知道后怕了！

再沒錢，都不建議在網上買這6類 “便宜貨”，看完就知道后怕了！

室內設計師有料兒

2026-04-30 10:18:59

“富人才不會把女兒養這么胖”，家長曬女兒喝60元礦泉水，被群嘲

“富人才不會把女兒養這么胖”，家長曬女兒喝60元礦泉水，被群嘲

番外行

2026-04-22 14:51:19

躺平網紅受境外勢力資助？孫玉良：少年強則國強，少年躺平則國亡

躺平網紅受境外勢力資助？孫玉良：少年強則國強，少年躺平則國亡

孫玉良

2026-04-29 10:43:37

鄭麗文官宣，即將訪美！大陸的回應絕了，國民黨高層是該清醒了

鄭麗文官宣，即將訪美！大陸的回應絕了，國民黨高層是該清醒了

共工之錨

2026-04-30 00:09:03

機器之心Pro

專業的人工智能媒體

12898文章數 142640關注度

往期回顧全部

科技要聞

9000億美元估值，Anthropic即將反超OpenAI

頭條要聞

被問"中方是否向伊朗提供了無人機" 國防部回應

頭條要聞

被問"中方是否向伊朗提供了無人機" 國防部回應

體育要聞

季后賽場均5.4分，他憑啥在騎士打首發？

娛樂要聞

孫楊博士學歷有問題？官方含糊其辭

財經要聞

易會滿被“雙開”！

汽車要聞

專訪捷途汪如生：捷途雙線作戰全球化全面落地

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

時尚

家居

軍事航空

干細胞治燒燙傷能用了么？

教育要聞

高考議論文萬萬不可有廳局風

她，在水里把剪紙燒了？

家居要聞

靈動實用生活藝術場

寂然無界簡潔風格
江景風格流動的秩序
自然肌理溫潤美學

軍事要聞

意大利議會批準：捐贈航母給印度尼西亞

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版