網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek“開眼”背后的技術，公開了！

2026-04-30 22:35:23　來源: 智東西

北京舉報

0

分享至

智東西
作者陳駿達
編輯心緣

智東西4月30日報道，今天，DeepSeek發布多模態技術報告《用視覺原語思考（Thinking with Visaul Primitives）》，詳細闡釋了昨日灰度上線的DeepSeek識圖模式背后的技術細節（DeepSeek終于能看圖了！我第一時間用它算命）。

DeepSeek識圖模式所使用的是一個284B參數、13B激活多模態推理模型，其正式名稱尚未對外發布，基座模型是DeepSeek-V4-Flash。DeepSeek稱，這一模型的權重將整合進DeepSeek的基礎模型，并在未來發布。

當前，傳統的思維鏈仍然停留在語言領域，但視覺推理所需要的信息更多。DeepSeek的新一代多模態推理模型的核心升級就在于，它把純粹的語言推理鏈條，升級成了一種“語言邏輯+空間坐標”交織的雙軌思維。

當模型對著一張圖進行推理時，它是會像人一樣，直接輸出一個具體的框或者點，在圖中精準地“指”出它當下正在想的那個東西。

DeepSeek多模態團隊負責人陳小康分享了一張動圖，形象地闡釋了這一運作機制。圖中，DeepSeek多模態模型可以在思維鏈中使用框進行定位，并在后續的推理步驟中持續引用這些被框定的視覺錨點，基于空間坐標進行下一步判斷，極大提升了視覺推理的準確性。

▲DeepSeek多模態模型推理過程

在一系列高難度視覺QA任務中，這一模型的表現超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。

較高的token效率也是這一模型的亮點。與當前主流的多模態大模型將一張圖片轉化為成百上千個視覺token不同，DeepSeek這套架構通過視覺壓縮策略，將高分辨率圖像從原始像素開始，經過ViT特征提取、空間壓縮以及稀疏注意力機制的多級處理，最終在KV緩存中僅保留約90個視覺條目，實現超7000倍的壓縮。

這意味著模型在進行復雜空間推理時，無需在海量視覺信息中反復檢索，思考過程的每一步都較為“輕量”。

項目地址：

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

技術報告：

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

一、自然語言存在“指代鴻溝”，視覺標記介入有望破解

這篇論文中，DeepSeek多模態團隊提出了對現有多模態大模型缺陷的洞察。過去，當業界談論提升視覺模型的推理能力時，幾乎所有的努力都集中在“感知鴻溝”上，也就是讓模型“看得更清楚”：通過更高分辨率的圖像切分、更精細的動態分塊，確保模型不會遺漏圖中的細節。

但DeepSeek多模態團隊認為，即便把這一切做到極致，模型依然會在復雜的視覺推理任務中崩潰。

自然語言在描述連續視覺空間時，天然存在一種“指代鴻溝”：當你說“左邊那個東西”時，在擁擠的場景中，這個“東西”到底指哪一個，模型無法精確鎖定。

于是，模型的思維鏈條看似環環相扣，實則每一步都存在偏離的風險，一旦涉及到密集計數、多步空間推理或者拓撲導航這種需要逐步推理的任務，邏輯就會因為指代不清而逐漸崩塌。

基于這個判斷，DeepSeek多模態團隊嘗試讓模型在思考時“邊想邊指”，也就是讓模型用點坐標和邊界框來“指”，把這些人類的視覺原語，變成模型思維鏈條上的最小認知單元。

架構層面，這一多模態模型通過DeepSeek-ViT負責將圖像轉換為視覺特征，下圖右下方的文本分詞器負責處理用戶的語言指令，兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合，最后由去分詞器輸出包含自然語言與視覺原語（如坐標框、區域標記）的聯合響應。這種設計使模型兼顧文本理解能力和原生視覺定位能力。

二、篩選超4000萬個高質量樣本，對四類任務針對性優化

要把點和框變成模型思維的一部分，首先要解決的問題，就是如何讓模型真正“學會指”。模型需要把“指”這個動作內化成一種思維習慣。

為此，DeepSeek多模態團隊構建了一條貫穿預訓練、冷啟動和強化學習的訓練流水線。

在預訓練階段，他們從互聯網上爬取了97984個與目標檢測相關的數據源，設計了自動化的語義和幾何質量審查機制，過濾掉亂碼標簽、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低質量標注，最終篩選出31701個高質量數據源，總計超過4000萬個的精準樣本，先讓模型掌握基本定位能力。

接下來是冷啟動數據構建。DeepSeek多模態團隊針對計數、空間推理、迷宮導航和路徑追蹤這四類最能體現視覺原語價值的任務，合成了一套帶有精確思考軌跡監督的數據。

以計數任務為例，模型被明確教導，在思考時要先批量框選所有候選對象，然后再對這些錨定好的框進行逐一校驗和累加。

▲計數任務的一條冷啟動數據

在迷宮任務中，模型的每一步探索都必須輸出一個點坐標來標記當前所在，一旦失誤撞墻，整個后續探索在因果上就自動失效，模型必須學會回溯。

這種把視覺原語操作直接整合進思維鏈的做法，讓模型在冷啟動階段就建立起“指向-推理”的強耦合。

三、采用稠密獎勵機制，視覺編碼壓縮比超7000倍

有了冷啟動模型之后，DeepSeek多模態團隊通過一套“訓練專家再融合”的后訓練策略，將模型的能力進一步精細化。其中的創新點在于強化學習階段的獎勵模型。

以迷宮任務為例，獎勵分解為探索進度、撞墻懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個單元格、沒有非法穿越墻壁，都會獲得正向信號，而一旦發生撞墻，即便最終的答案為“可解”，也會被嚴格扣分。

這種稠密的獎勵機制，讓模型必須認真對待每一個視覺原語操作，無法靠猜答案實現獎勵破解。

為了同時掌握框定位和點指向這兩種視覺原語，該團隊還分別訓練了兩個專家模型，最后通過在線策略蒸餾將它們融合成一個統一模型，讓學生模型在自己生成的思維軌跡上，學習兩位專家老師的輸出分布。這種設計有效避免了兩種異構原語在訓練中的相互干擾。

值得一提的是，這項工作的技術路線建立在一個高效的視覺編碼架構之上。

首先，Vision Transformer以14×14的塊大小將圖像切分成視覺token；然后，在ViT輸出端進行3×3的空間壓縮，將每9個相鄰token沿通道維度合并為1個；最后，利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制，將KV緩存中的視覺條目再壓縮4倍。

以一張756×756分辨率的圖像為例，它原本會產生2916個patch token，經過三級壓縮后最終僅保留81個視覺KV條目，整體壓縮比高達7056倍。

這種token效率意味著，模型在展開復雜的空間推理時擁有了一份“提煉好的索引”，可以拿著索引直接進行思考，從工程上就減弱了無關像素對推理鏈路的干擾。

結語：多模態智能的“系統二”進化

DeepSeek多模態團隊也在報告中提到了當前技術的邊界。模型在復雜拓撲推理任務上的跨場景泛化能力尚未完善，且思考中視覺基元的激活目前仍依賴顯式的觸發詞，尚未實現完全的自發調用。

但他們也認為，這套框架為多模態社區展示了通往系統二級別的多模態智能的路徑。這一路徑沒有一味地堆高圖像分辨率，而在構建了更精準從參照指標。

用空間坐標錨定抽象思維，讓模型像人類一樣“邊指邊想”，這本身就是一個值得繼續深挖的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，DeepSeek多模態技術范式公布，以視覺原語思考

機器之心Pro 2026-04-30 19:46:01
0 跟貼 0
大模型“降智”真相，找到了

智東西 2026-04-30 14:41:59
0 跟貼 0

阿里QoderWake上崗：有身份、有記憶、有紅線，先給它一版“職業行為指南“

智東西 2026-04-30 14:41:58
0 跟貼 0

僅靠推理不具備法律效力

浪嫂剪輯 2026-04-30 16:43:05
1 跟貼 1
四川小伙做的導彈車模型，準備開出去測試，結果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
12 跟貼 12

暴力美學的視覺盛宴

瘋癲影視 2026-04-28 15:47:43
1 跟貼 1

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15252 跟貼 15252
童年列車：王楚欽的成長軌跡，遇見最好的他們

愛的圓周率不循環w 2026-04-30 11:16:00
1 跟貼 1

連信數字/連心云黃杏：語言之外，為什么“看懂人心”才是AI的終極考題？

智東西 2026-04-29 10:32:11
0 跟貼 0
不只是DeepSeek V4，還有個萬億級大模型，訓推全程國產芯片

機器之心Pro 2026-04-30 16:02:50
6 跟貼 6
國防部回應外界推測中國對日將有大動作

北京青年報 2026-04-30 16:41:25
3807 跟貼 3807
明顯是視覺誤差，總以為自己能跑過去，我都替司機感覺到冤枉！

宇宙搞笑生活 2026-04-30 13:55:15
11 跟貼 11
男子在山里航拍，發現多人為摘洋槐花砍槐樹，幾十棵粗樹被鋸斷

星視頻 2026-04-30 13:26:30
95 跟貼 95
10萬引普林斯頓劉壯最新訪談：架構沒那么重要，數據才是王道

量子位 2026-04-29 12:17:01
2 跟貼 2
一夫一妻制保護了窮男的利益，邏輯上是否有缺陷

像風走了八萬里不問歸期 2026-04-29 03:13:26
0 跟貼 0
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
羅納爾多的接球邏輯，獨屬于外星人的無解調整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1
專訪他山科技付宜暉：全棧自研領跑人形機器人觸覺傳感器產業

通信世界 2026-04-30 20:35:29
0 跟貼 0
中國科學院推出“磐石100”系列，八大學科大模型，引入波譜場三大新模態

智東西 2026-04-30 12:39:35
0 跟貼 0
物業費收不齊，虧損止不?。阂荒瓿?00個物業撤場，困局何解？

新京報 2026-04-30 09:46:07
509 跟貼 509
“福特”號航母將于近日撤離中東返回美國，“梅森”號導彈驅逐艦加入“布什”號航母打擊群執行任務

魯中晨報 2026-04-30 07:11:04
284 跟貼 284
62歲天津大爺，“chua一下”就火了

中國新聞周刊 2026-04-30 11:20:55
814 跟貼 814
DeepSeek推薦：適合五一假期做的51件小事

洞見 2026-04-30 22:10:41
11 跟貼 11
無感于心，默契響應

風度mensuno 2026-04-30 18:45:40
0 跟貼 0
海關總署：即日起允許符合要求的西班牙開心果和無花果干進口

證券時報 2026-04-30 14:40:08
57 跟貼 57
漢字有缺點？諾貝爾獎得主羅素指出：漢字存在三大缺陷

心中的麥田 2026-04-30 21:36:37
0 跟貼 0
邏輯鬼才劉能裝傻充愣第一名

秦嶺扒娛 2026-04-27 18:20:16
1 跟貼 1
看似驚險爬山，其實全是視覺效果！

銀河探索隊 2026-04-30 07:38:34
1 跟貼 1
【汽車人】鴻蒙擴張、小藝進化，歡迎來到“智能體”世界

汽車人傳媒 2026-04-30 21:22:51
0 跟貼 0
洛陽白馬寺發布鄭重聲明：不少游客因通過非官方第三方渠道購買非法倒賣的預約門票，導致無法正常入寺，切勿輕信

極目新聞 2026-04-29 18:10:47
903 跟貼 903
衛冕冠軍趙心童10比13不敵墨菲止步八強，“克魯斯堡魔咒”仍在延續，吳宜澤闖進四強，成為中國軍團獨苗

魯中晨報 2026-04-30 09:07:20
713 跟貼 713
陳列再好看，為什么就是不成交？

陳列共和 2026-04-30 22:09:56
0 跟貼 0
哈啰“臻有錢”平臺被指利率踩紅線、隱形收費多

紅星新聞 2026-04-30 14:27:43
150 跟貼 150
一個人成長最快的底層邏輯：自我重構！

搞笑枇杷 2026-04-29 02:03:41
0 跟貼 0
美軍新一代班用機槍，XM250輕機槍，重塑美軍火力壓制邏輯！

環球武器 2026-04-30 09:30:56
0 跟貼 0
諾獎得主實驗室走出的中國團隊，正用世界模型重構生命分子設計

機器之心Pro 2026-04-29 11:41:34
5 跟貼 5
Generalist之后，羅劍嵐團隊推出LWD，也要變革具身智能訓練范式

機器之心Pro 2026-04-30 13:18:05
0 跟貼 0
通研院團隊打造SceneVerse++「最大規模」真實3D場景數據

機器之心Pro 2026-04-30 16:19:08
0 跟貼 0
TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0
大模型外掛三維物體知識庫來了，大幅增強機器人長程自主操作能力

DeepTech深科技 2026-04-30 14:08:45
0 跟貼 0

越扒越有！19歲男子失聯后續，父親發聲，手機在山上發現被格式化

越扒越有！19歲男子失聯后續，父親發聲，手機在山上發現被格式化

大魚簡科

2026-04-30 19:34:18

血型決定壽命？A型、B型、O型、AB型，哪種血型更易患癌？

血型決定壽命？A型、B型、O型、AB型，哪種血型更易患癌？

芹姐說生活

2026-04-30 23:20:56

中國古代為何死不放手東北，卻不要緯度更低的朝鮮半島？

中國古代為何死不放手東北，卻不要緯度更低的朝鮮半島？

孤云朗境

2026-04-12 00:02:13

中央5臺直播乒乓時間表：4月30日CCTV5+轉播國乒！今日中國德比戰

中央5臺直播乒乓時間表：4月30日CCTV5+轉播國乒！今日中國德比戰

阿晞體育

2026-04-30 09:51:12

天文學家宣稱找到了銀河系的邊界：4萬光年外，恒星就此停止誕生

天文學家宣稱找到了銀河系的邊界：4萬光年外，恒星就此停止誕生

三農老歷

2026-04-30 19:22:23

粉底將軍與豪門已婚少婦糾纏的瓜

粉底將軍與豪門已婚少婦糾纏的瓜

十錘星人

2026-04-22 23:11:02

美軍現役中將表示，中國實力不是接近美國，而是已經和美國對等

美軍現役中將表示，中國實力不是接近美國，而是已經和美國對等

丁丁鯉史紀

2026-04-30 17:52:19

我60歲才懂老年人的兩性關系：感情再深，也得守住這3條保命底線

我60歲才懂老年人的兩性關系：感情再深，也得守住這3條保命底線

卡西莫多的故事

2026-03-26 10:34:15

江青被捕后，上級詢問賀子珍有何需求，她闡述出藏了30多年的心愿

江青被捕后，上級詢問賀子珍有何需求，她闡述出藏了30多年的心愿

談古論今歷史有道

2026-04-25 16:30:03

穿著短褲闖倫敦，無視國乒前輩！19歲松島輝空，你的狂妄能撐多久

穿著短褲闖倫敦，無視國乒前輩！19歲松島輝空，你的狂妄能撐多久

曹老師評球

2026-04-30 15:09:42

美女有兩個軟球，走哪都帶著

飛娛日記

2026-04-20 09:56:01

季后賽單場狂砍50+有多難？現役僅這12位“狠人”做到過！

季后賽單場狂砍50+有多難？現役僅這12位“狠人”做到過！

仰臥撐FTUer

2026-04-30 08:03:03

孟若羽不是麻豆，沒拍過小電影，也沒靠脫衣賺錢

孟若羽不是麻豆，沒拍過小電影，也沒靠脫衣賺錢

動物奇奇怪怪

2026-04-23 06:50:37

馬杜羅被擒特朗普沾沾自喜，殊不知釀成大禍，美國或成最大輸家

馬杜羅被擒特朗普沾沾自喜，殊不知釀成大禍，美國或成最大輸家

軒逸阿II

2026-04-23 23:51:45

埃澤點球被取消塔帥很生氣名宿：阿森納被搶劫了！

埃澤點球被取消塔帥很生氣名宿：阿森納被搶劫了！

體壇周報

2026-04-30 09:58:53

吳金貴懷舊元老賽場態度引熱議，背后故事令人深思

吳金貴懷舊元老賽場態度引熱議，背后故事令人深思

林子說事

2026-04-30 16:50:18

回加拿大生活的大山，60歲須發皆白很滄桑，重慶妻子仍風韻猶存

回加拿大生活的大山，60歲須發皆白很滄桑，重慶妻子仍風韻猶存

胡一舸南游y

2026-04-04 15:41:43

國際油價29日大幅上漲

新華社

2026-04-30 04:03:02

成本上漲消費品巨頭聯合利華決定提價

成本上漲消費品巨頭聯合利華決定提價

財聯社

2026-04-30 21:30:03

59年，25歲小伙發現生母遺物上有字跡，偶然得知：生父竟是副總理

59年，25歲小伙發現生母遺物上有字跡，偶然得知：生父竟是副總理

涼州辭

2026-04-24 09:30:03

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11741文章數 117059關注度

往期回顧全部

科技要聞

9000億美元估值，Anthropic即將反超OpenAI

頭條要聞

英國國王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

頭條要聞

英國國王給特朗普送了口鐘還貼臉開大"有需要盡管敲"

體育要聞

季后賽場均5.4分，他憑啥在騎士打首發？

娛樂要聞

孫楊博士學歷有問題？官方含糊其辭

財經要聞

易會滿被“雙開”！

汽車要聞

專訪捷途汪如生：捷途雙線作戰全球化全面落地

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

教育

數碼

親子

房產

《星球大戰》新作國區售價公開！確認有D加密

教育要聞

事關高中教輔，市教委最新要求來了

數碼要聞

KTC推出“M27P6S”顯示器，2999元

親子要聞

4月30日，國際不打小孩日，今天請緊急收住巴掌，放過家里的小孩，也放過崩潰的自己

房產要聞

熬了6年，漲了2億，三亞核心區這塊地再次上架

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版