網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek“開眼”背后的技術，公開了！

2026-04-30 22:35:23　來源: 智東西

北京舉報

0

分享至

智東西
作者陳駿達
編輯心緣

智東西4月30日報道，今天，DeepSeek發布多模態技術報告《用視覺原語思考（Thinking with Visaul Primitives）》，詳細闡釋了昨日灰度上線的DeepSeek識圖模式背后的技術細節（DeepSeek終于能看圖了！我第一時間用它算命）。

DeepSeek識圖模式所使用的是一個284B參數、13B激活多模態推理模型，其正式名稱尚未對外發布，基座模型是DeepSeek-V4-Flash。DeepSeek稱，這一模型的權重將整合進DeepSeek的基礎模型，并在未來發布。

當前，傳統的思維鏈仍然停留在語言領域，但視覺推理所需要的信息更多。DeepSeek的新一代多模態推理模型的核心升級就在于，它把純粹的語言推理鏈條，升級成了一種“語言邏輯+空間坐標”交織的雙軌思維。

當模型對著一張圖進行推理時，它是會像人一樣，直接輸出一個具體的框或者點，在圖中精準地“指”出它當下正在想的那個東西。

DeepSeek多模態團隊負責人陳小康分享了一張動圖，形象地闡釋了這一運作機制。圖中，DeepSeek多模態模型可以在思維鏈中使用框進行定位，并在后續的推理步驟中持續引用這些被框定的視覺錨點，基于空間坐標進行下一步判斷，極大提升了視覺推理的準確性。

▲DeepSeek多模態模型推理過程

在一系列高難度視覺QA任務中，這一模型的表現超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。

較高的token效率也是這一模型的亮點。與當前主流的多模態大模型將一張圖片轉化為成百上千個視覺token不同，DeepSeek這套架構通過視覺壓縮策略，將高分辨率圖像從原始像素開始，經過ViT特征提取、空間壓縮以及稀疏注意力機制的多級處理，最終在KV緩存中僅保留約90個視覺條目，實現超7000倍的壓縮。

這意味著模型在進行復雜空間推理時，無需在海量視覺信息中反復檢索，思考過程的每一步都較為“輕量”。

項目地址：

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

技術報告：

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

一、自然語言存在“指代鴻溝”，視覺標記介入有望破解

這篇論文中，DeepSeek多模態團隊提出了對現有多模態大模型缺陷的洞察。過去，當業界談論提升視覺模型的推理能力時，幾乎所有的努力都集中在“感知鴻溝”上，也就是讓模型“看得更清楚”：通過更高分辨率的圖像切分、更精細的動態分塊，確保模型不會遺漏圖中的細節。

但DeepSeek多模態團隊認為，即便把這一切做到極致，模型依然會在復雜的視覺推理任務中崩潰。

自然語言在描述連續視覺空間時，天然存在一種“指代鴻溝”：當你說“左邊那個東西”時，在擁擠的場景中，這個“東西”到底指哪一個，模型無法精確鎖定。

于是，模型的思維鏈條看似環環相扣，實則每一步都存在偏離的風險，一旦涉及到密集計數、多步空間推理或者拓撲導航這種需要逐步推理的任務，邏輯就會因為指代不清而逐漸崩塌。

基于這個判斷，DeepSeek多模態團隊嘗試讓模型在思考時“邊想邊指”，也就是讓模型用點坐標和邊界框來“指”，把這些人類的視覺原語，變成模型思維鏈條上的最小認知單元。

架構層面，這一多模態模型通過DeepSeek-ViT負責將圖像轉換為視覺特征，下圖右下方的文本分詞器負責處理用戶的語言指令，兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合，最后由去分詞器輸出包含自然語言與視覺原語（如坐標框、區域標記）的聯合響應。這種設計使模型兼顧文本理解能力和原生視覺定位能力。

二、篩選超4000萬個高質量樣本，對四類任務針對性優化

要把點和框變成模型思維的一部分，首先要解決的問題，就是如何讓模型真正“學會指”。模型需要把“指”這個動作內化成一種思維習慣。

為此，DeepSeek多模態團隊構建了一條貫穿預訓練、冷啟動和強化學習的訓練流水線。

在預訓練階段，他們從互聯網上爬取了97984個與目標檢測相關的數據源，設計了自動化的語義和幾何質量審查機制，過濾掉亂碼標簽、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低質量標注，最終篩選出31701個高質量數據源，總計超過4000萬個的精準樣本，先讓模型掌握基本定位能力。

接下來是冷啟動數據構建。DeepSeek多模態團隊針對計數、空間推理、迷宮導航和路徑追蹤這四類最能體現視覺原語價值的任務，合成了一套帶有精確思考軌跡監督的數據。

以計數任務為例，模型被明確教導，在思考時要先批量框選所有候選對象，然后再對這些錨定好的框進行逐一校驗和累加。

▲計數任務的一條冷啟動數據

在迷宮任務中，模型的每一步探索都必須輸出一個點坐標來標記當前所在，一旦失誤撞墻，整個后續探索在因果上就自動失效，模型必須學會回溯。

這種把視覺原語操作直接整合進思維鏈的做法，讓模型在冷啟動階段就建立起“指向-推理”的強耦合。

三、采用稠密獎勵機制，視覺編碼壓縮比超7000倍

有了冷啟動模型之后，DeepSeek多模態團隊通過一套“訓練專家再融合”的后訓練策略，將模型的能力進一步精細化。其中的創新點在于強化學習階段的獎勵模型。

以迷宮任務為例，獎勵分解為探索進度、撞墻懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個單元格、沒有非法穿越墻壁，都會獲得正向信號，而一旦發生撞墻，即便最終的答案為“可解”，也會被嚴格扣分。

這種稠密的獎勵機制，讓模型必須認真對待每一個視覺原語操作，無法靠猜答案實現獎勵破解。

為了同時掌握框定位和點指向這兩種視覺原語，該團隊還分別訓練了兩個專家模型，最后通過在線策略蒸餾將它們融合成一個統一模型，讓學生模型在自己生成的思維軌跡上，學習兩位專家老師的輸出分布。這種設計有效避免了兩種異構原語在訓練中的相互干擾。

值得一提的是，這項工作的技術路線建立在一個高效的視覺編碼架構之上。

首先，Vision Transformer以14×14的塊大小將圖像切分成視覺token；然后，在ViT輸出端進行3×3的空間壓縮，將每9個相鄰token沿通道維度合并為1個；最后，利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制，將KV緩存中的視覺條目再壓縮4倍。

以一張756×756分辨率的圖像為例，它原本會產生2916個patch token，經過三級壓縮后最終僅保留81個視覺KV條目，整體壓縮比高達7056倍。

這種token效率意味著，模型在展開復雜的空間推理時擁有了一份“提煉好的索引”，可以拿著索引直接進行思考，從工程上就減弱了無關像素對推理鏈路的干擾。

結語：多模態智能的“系統二”進化

DeepSeek多模態團隊也在報告中提到了當前技術的邊界。模型在復雜拓撲推理任務上的跨場景泛化能力尚未完善，且思考中視覺基元的激活目前仍依賴顯式的觸發詞，尚未實現完全的自發調用。

但他們也認為，這套框架為多模態社區展示了通往系統二級別的多模態智能的路徑。這一路徑沒有一味地堆高圖像分辨率，而在構建了更精準從參照指標。

用空間坐標錨定抽象思維，讓模型像人類一樣“邊指邊想”，這本身就是一個值得繼續深挖的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，DeepSeek多模態技術范式公布，以視覺原語思考

機器之心Pro 2026-04-30 19:46:01
1 跟貼 1
大模型“降智”真相，找到了

智東西 2026-04-30 14:41:59
0 跟貼 0

阿里QoderWake上崗：有身份、有記憶、有紅線，先給它一版“職業行為指南“

智東西 2026-04-30 14:41:58
0 跟貼 0

僅靠推理不具備法律效力

浪嫂剪輯 2026-04-30 16:43:05
2 跟貼 2
四川小伙做的導彈車模型，準備開出去測試，結果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
12 跟貼 12

暴力美學的視覺盛宴

瘋癲影視 2026-04-28 15:47:43
1 跟貼 1

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15250 跟貼 15250
童年列車：王楚欽的成長軌跡，遇見最好的他們

愛的圓周率不循環w 2026-04-30 11:16:00
1 跟貼 1

美軍新一代班用機槍，XM250輕機槍，重塑美軍火力壓制邏輯！

環球武器 2026-04-30 09:30:56
0 跟貼 0
浙江男子花860萬買了套排屋，收房時傻眼，院子里有一個“凸起”，業主：跟老家的廁所一樣，開放商：不利因素已公示

極目新聞 2026-04-30 10:33:16
8579 跟貼 8579
π0.7的泛化能力有多強？零樣本純靠口述就能用空氣炸鍋

DeepTech深科技 2026-04-17 21:34:56
0 跟貼 0
中國船員滯留霍爾木茲60天：獎發到位大部分愿繼續干

瀟湘晨報 2026-04-30 16:26:46
15197 跟貼 15197
不只是DeepSeek V4，還有個萬億級大模型，訓推全程國產芯片

機器之心Pro 2026-04-30 16:02:50
6 跟貼 6
國防部回應外界推測中國對日將有大動作

北京青年報 2026-04-30 16:41:25
5464 跟貼 5464
10萬引普林斯頓劉壯最新訪談：架構沒那么重要，數據才是王道

量子位 2026-04-29 12:17:01
3 跟貼 3
深度解讀Deepseek-V4：注意力壓縮 /1M 上下文/ MoE架構

盧菁老師 2026-04-27 02:14:19
0 跟貼 0
明顯是視覺誤差，總以為自己能跑過去，我都替司機感覺到冤枉！

宇宙搞笑生活 2026-04-30 13:55:15
18 跟貼 18
GPU神話松動，AI真正的戰場變了

虎嗅APP 2026-05-01 01:19:11
2 跟貼 2
陽臺外貼滿“吵”！深圳一小區居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市報 2026-04-30 15:18:54
516 跟貼 516
堵！堵！堵！蘇B大軍出動了！

江南晚報 2026-04-30 18:58:38
66 跟貼 66
物業費收不齊，虧損止不住：一年超200個物業撤場，困局何解？

新京報 2026-04-30 09:46:07
974 跟貼 974
DeepSeek推薦：適合五一假期做的51件小事

洞見 2026-04-30 22:10:41
11 跟貼 11
看似驚險爬山，其實全是視覺效果！

銀河探索隊 2026-04-30 07:38:34
1 跟貼 1
邏輯鬼才劉能裝傻充愣第一名

秦嶺扒娛 2026-04-27 18:20:16
1 跟貼 1
2025年農民工月均收入5075元，比上年增加114元

新京報 2026-04-30 15:06:03
3943 跟貼 3943
一篇哲學文章如何變成404現場

晚風也遺憾 2026-05-01 00:21:19
0 跟貼 0
五款游戲真能提升智商？我試了一個月

時光慢郵啊 2026-05-01 00:34:35
0 跟貼 0
【汽車人】鴻蒙擴張、小藝進化，歡迎來到“智能體”世界

汽車人傳媒 2026-04-30 21:22:51
0 跟貼 0
海關總署：即日起允許符合要求的西班牙開心果和無花果干進口

證券時報 2026-04-30 14:40:08
316 跟貼 316
漢字有缺點？諾貝爾獎得主羅素指出：漢字存在三大缺陷

心中的麥田 2026-04-30 21:36:37
28 跟貼 28
老黃秘密武器曝光：AI一夜設計芯片，頂人類頂級工程師10個月！

新智元 2026-05-01 09:02:13
0 跟貼 0
窮人不配被看見？這部前傳劇組的服裝難題

熱搜摘要官 2026-05-01 03:34:13
0 跟貼 0
2026年Met Gala把穿衣變成策展

熱搜摘要官 2026-05-01 05:38:46
0 跟貼 0
當3A大廠卷畫質時，這家索尼工作室為何說"真實感沒意思"？

灰度測試中 2026-05-01 03:14:04
0 跟貼 0
授人以魚不如授人以漁，富豪引導流浪漢重回人生軌跡

夏夏看影視 2026-04-30 14:27:03
1 跟貼 1
孫楊博士入學資格受質疑上體研招辦：正調查跟進

大風新聞 2026-05-01 07:42:24
1862 跟貼 1862
TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

機器之心Pro 2026-03-30 11:08:49
0 跟貼 0
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2066 跟貼 2066
鐵液做模型

劉姐愛拉呱 2026-04-30 11:43:18
1 跟貼 1
買新車車燈現“大小眼”，消費者欲退5000元定金，4S店：車燈符合出廠標準；記者介入，4s店退回定金

大風新聞 2026-04-30 22:08:08
80 跟貼 80

中國軍號“點名”李幼斌，釋放三個強烈信號，5年前的話他沒說錯

中國軍號“點名”李幼斌，釋放三個強烈信號，5年前的話他沒說錯

君笙的拂兮

2026-05-01 01:15:53

一場0-1！利好熱刺保級：維拉歐聯杯爆冷聯賽或留力，西漢姆難了

一場0-1！利好熱刺保級：維拉歐聯杯爆冷聯賽或留力，西漢姆難了

體育知多少

2026-05-01 07:04:03

百萬男網紅被曝是海王！同時交往6人，見面就開房，睡覺不愛戴套

百萬男網紅被曝是海王！同時交往6人，見面就開房，睡覺不愛戴套

葉公子

2026-04-29 14:25:13

美航母將撤退，局勢徹底逆轉！為了向中國供油，伊朗打算再拼一把

美航母將撤退，局勢徹底逆轉！為了向中國供油，伊朗打算再拼一把

究竟誰主沉浮

2026-04-30 22:34:50

白人女性與黑人女性的體味差異，網友真實分享引發熱議

白人女性與黑人女性的體味差異，網友真實分享引發熱議

特約前排觀眾

2025-12-22 00:20:06

8天漂流、17具遺體、僅7人獲救，誰為這場緩慢死亡負責？

8天漂流、17具遺體、僅7人獲救，誰為這場緩慢死亡負責？

半身Naked

2026-04-30 19:27:50

1200噸戰略物資被賤賣，中國出現大內鬼，難怪美國一點都不怕

1200噸戰略物資被賤賣，中國出現大內鬼，難怪美國一點都不怕

深度解析熱點

2026-04-30 11:32:22

西方害怕中國治沙？《自然》新評揭開真相：他們怕的并非沙漠消失

西方害怕中國治沙？《自然》新評揭開真相：他們怕的并非沙漠消失

生活的哲學

2026-04-29 06:41:35

鄧超景德鎮被偶遇，黑外套逛茶園，和村民合影比剪刀手太圈粉！

鄧超景德鎮被偶遇，黑外套逛茶園，和村民合影比剪刀手太圈粉！

鄉野小珥

2026-05-01 09:12:30

森林狼再傷一個！多森姆因右小腿傷勢缺席今日G6

森林狼再傷一個！多森姆因右小腿傷勢缺席今日G6

體壇周報

2026-05-01 08:59:10

孫楊博士入學資格遭質疑，上海體育大學：正調查跟進

孫楊博士入學資格遭質疑，上海體育大學：正調查跟進

懂球帝

2026-04-30 20:49:16

CBA最新消息！楊鳴或執教北控男籃，廣東宏遠續約薩姆納

CBA最新消息！楊鳴或執教北控男籃，廣東宏遠續約薩姆納

體壇瞎白話

2026-05-01 07:39:27

上海地鐵互毆最新后續！處罰結果公示于眾，拘留僅僅只是開始

上海地鐵互毆最新后續！處罰結果公示于眾，拘留僅僅只是開始

閱微札記

2026-04-30 19:36:10

看世界杯難了！FIFA想訛天價轉播費，央視這次變硬氣，國足立大功

看世界杯難了！FIFA想訛天價轉播費，央視這次變硬氣，國足立大功

體育大學僧

2026-05-01 08:10:01

深蹲，被嚴重低估了！研究提示：每天堅持5分鐘，能預防6種疾病

深蹲，被嚴重低估了！研究提示：每天堅持5分鐘，能預防6種疾病

增肌減脂

2026-04-30 19:15:09

“NZ沒有死刑，他很幸運！”新西蘭官方重磅裁決！他直播殺害51人，妄圖“推翻認罪”！受害者家屬憤怒發聲！

“NZ沒有死刑，他很幸運！”新西蘭官方重磅裁決！他直播殺害51人，妄圖“推翻認罪”！受害者家屬憤怒發聲！

新西蘭天維網

2026-04-30 13:03:29

三花智控（002050）2026年一季報簡析：營收凈利潤同比雙雙增長，盈利能力上升

三花智控（002050）2026年一季報簡析：營收凈利潤同比雙雙增長，盈利能力上升

證券之星

2026-05-01 07:12:34

澳洲萊納斯一季度稀土出口激增七成，產能爆發或將沖擊我出口優勢

澳洲萊納斯一季度稀土出口激增七成，產能爆發或將沖擊我出口優勢

火星宏觀

2026-04-30 11:33:11

特變電工（600089）2026年一季報簡析：營收凈利潤同比雙雙增長，盈利能力上升

特變電工（600089）2026年一季報簡析：營收凈利潤同比雙雙增長，盈利能力上升

證券之星

2026-05-01 06:46:14

廖凡：25年不拼爹的星二代，妻子是周星馳黃金搭檔

廖凡：25年不拼爹的星二代，妻子是周星馳黃金搭檔

笑飲孤鴻非

2026-05-01 05:36:41

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11741文章數 117059關注度

往期回顧全部

科技要聞

蘋果上季在華收入繼續大增 iPhone收入新高

頭條要聞

牛彈琴：特朗普還是沒抵住誘惑誘惑中果然有陷阱

頭條要聞

牛彈琴：特朗普還是沒抵住誘惑誘惑中果然有陷阱

體育要聞

季后賽場均5.4分，他憑啥在騎士打首發？

娛樂要聞

孫楊博士學歷有問題？官方含糊其辭

財經要聞

GPU神話松動，AI真正的戰場變了

汽車要聞

專訪捷途汪如生：捷途雙線作戰全球化全面落地

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

數碼

房產

藝術

公開課

家居要聞

靈動實用生活藝術場

寂然無界簡潔風格
江景風格流動的秩序
自然肌理溫潤美學

數碼要聞

華碩準備“ROG新NUC”，預計升級CPU與GPU

房產要聞

熬了6年，漲了2億，三亞核心區這塊地再次上架

藝術要聞

石景，無可比擬！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版