超長預警,這篇文章總字數9000+,預計閱讀時長20分鐘。如果你覺得太長讀不下去的話,不用喊元寶了,這是最核心的四條總結:
1、DeepSeek今天(4月30日)發了多模態論文 Thinking with Visual Primitives,離 V4 論文整 6 天。核心是「視覺原語」:讓模型一邊推理一邊輸出坐標,把「點」和「邊界框」當作思考的最小單元,相當于讓 AI 一邊想一邊「用手指著圖說話」
2、DeepSeek是七大 coding agent 玩家里最后一個把視覺接入主力產品的旗艦(OpenAI、Anthropic、Qwen、Kimi、GLM 都比它早),但補課方式反共識:主流派在堆圖像分辨率,DeepSeek 在堆指代精度
3、效率夸張到離譜。一張 800×800 圖,Claude-Sonnet-4.6 要 ~870 個 KV cache 條目,Gemini-3-Flash 要 ~1100 個,DeepSeek 這個新模型只要 ~90 個。整體壓縮比 7056 倍,平均分還小幅領先所有 frontier 模型
4、最猛的成績不在常規 VQA。在拓撲推理(迷宮導航 / 路徑追蹤)上 DeepSeek 領先 frontier 模型 16 到 26 個百分點。論文原話:「所有 frontier 模型在拓撲推理任務上均表現欠佳」。一句話禮貌地踩了所有人
說起來,趕在五一長假之前丟個重磅論文,這風格還真挺特么DeepSeek的,熟悉的味道又回來了。以及,這次內容真的太長了,建議你可以先收藏了,假期里無聊的時候慢慢讀,我這五一期間盡量...盡量不卷了,不給各位增加閱讀負擔。
![]()
6天前的預言兌現了
時間線是這樣的。
4月24日,DeepSeek發了V4論文,58頁。我那篇解讀里寫過一段判斷:
OCR 2 的視覺因果流也沒進 V4,但多模態被明確寫進 V5 的方向(原文:incorporating multimodal capabilities)。所以下一代 DeepSeek 大概率會是這樣的輪廓:原生多模態(OCR 2 這一脈的延伸)、引入某種可擴展的查找式記憶、進一步降低延遲、更長的 long-horizon multi-round agentic 能力。
寫這段話的時候我以為離 V5 還遠。結果 4 月 29 日 DeepSeek App 開始灰度內測識圖模式,4 月 30 日,也就是今天,論文 Thinking with Visual Primitives 公開。中間隔了 6 天。
「論文先鋪路,模型后亮相」,這是我在 V4 解讀里總結過的 DeepSeek 節奏。這次只不過把節奏感壓縮到了 6 天。
按照他們一貫的風格,多模態版的 V4 大概率會以「升級版 V4-Flash」或「V5 的預熱」形式出現,我猜不會太晚。
為什么 coding agent 必須有視覺
先說一個被忽略的事實:視覺理解對 coding agent 來說,已經是「必須」而非「錦上添花」。
這個判斷不是我拍腦袋來的。我把七大主流 coding 玩家的視覺能力時間線拉了一下:
OpenAI:2023 年 9 月 GPT-4V 公開。今年 4 月 24 日 GPT-5.5 做成原生多模態單架構,文本圖片視頻音頻一起處理
Google:Gemini 從 2023 年 12 月初代發布起就主打 natively multimodal,DeepMind 出身讓他們從一開始就在走訓練世界模型的節奏(Veo、Genie 這些都是這條線上的),論文里對標的 Gemini-3-Flash 也是這一脈
Anthropic:2024 年 3 月 Claude 3 全系帶視覺,10 月推出 Computer Use,是第一個能直接看屏幕操作電腦的前沿模型。今年的 Opus 4.7 把圖片內部分辨率從 1568px 拉到 2576px,文檔里說就是為了讀 dense 截圖和復雜圖表
Qwen:2025 年 9 月 Qwen3-VL-235B 旗艦開源
Kimi:2026 年 1 月 K2.5 原生多模態,主打截圖直接生成前端代碼這類場景
智譜 GLM:2026 年 4 月初發 GLM-5V-Turbo,自己定義為原生多模態 Coding 基座模型
DeepSeek:今天,2026 年 4 月 30 日
DeepSeek 是七家里最后一個把視覺接入主力對話產品的旗艦。比 GLM-5V-Turbo 晚 28 天,比 Kimi K2.5 晚 3 個月,比 Anthropic 晚兩年,比 Gemini 晚兩年半。
為什么所有家都在做?因為 coding agent 的工作場景里,純文本已經不夠用了。
我自己寫代碼的時候經常會發生這種事:截一張前端頁面給 AI,讓它判斷哪里布局崩了;截一張報錯給 AI,讓它告訴我是不是網絡問題;甚至有時候我讓它讀一張設計稿,直接把組件代碼寫出來。這些任務用文字描述根本說不清。「左邊那個按鈕的右邊有個圖標,圖標右邊那個文字框」,描述完圖早畫好了。
Anthropic 自己在 Agent SDK 文檔里有一句話挺直白:「When using an agent to complete visual tasks, like UI generation or testing, visual feedback (in the form of screenshots or renders) can be helpful.」
視覺是 agent 的眼睛。沒有眼睛的 agent,做的事情從根上就有限。
所以問題不是「DeepSeek 該不該做多模態」,而是「DeepSeek 憑什么這么晚才做」。
我的看法是:他們一直在等一個更好的方法。
主流派在解決「看得清」,DeepSeek 在解決「指得準」
要理解這次論文真正的創新,得先看清楚學術界這兩年在解決什么問題。
主流路徑很清晰:讓模型「看得更清楚」。
具體做法是高分辨率切割、動態分塊。一張圖你想讓模型看清細節?切成更多 patch 給它,分辨率拉到 4K、8K。代價是圖像 token 暴漲,KV cache 跟著暴漲,推理成本水漲船高。Anthropic 給 Opus 4.7 升分辨率到 2576px 就是這條路。
學術界給這種現象起了個名字叫 Perception Gap(感知鴻溝)。意思是模型推理失敗是因為沒看清,把分辨率拉高就好了。
DeepSeek 這篇論文要懟的,就是這個共識。
他們的論點是:感知再強,指代不準也白搭。這件事被叫做 Reference Gap(指代鴻溝)。
聽著有點抽象,我用一個具體場景講清楚。
假設你看一張球隊合影,60 個人三排站著。我讓你數:「穿條紋隊服、坐前排、不戴帽子的有幾個?」
人是怎么解的?你會用手指著圖,一個一個數過去。指到第三個的時候你心里默數 3,指到第七個心里默數 7。手指的位置就是你「思考的位置」,數字是邊數邊在腦子里加的。
如果不讓你用手指呢?你必須在腦子里維持一個「我數到哪了」的列表,還要不停記住「這個穿條紋的、坐前排的、沒戴帽子的、左數第三個的那個」是哪一個。三個人之后你就亂了。
![]()
這就是模型在做密集計數時遇到的事。
主流路徑讓模型「看得見」每個人長什么樣。這是感知。但模型推理的時候只能用「左數第三個穿紅衣服的」這種語言來指代,含糊、容易混淆,多步推理之后就崩了。
DeepSeek 論文 abstract 里直接點破了這件事:「The inherent ambiguity of natural language often fails to provide precise, unambiguous pointers to complex spatial layouts, leading to logical collapse in tasks requiring rigorous grounding.」(自然語言固有的模糊性,常常沒法對復雜空間布局給出精確無歧義的指代,導致需要嚴格定位的任務里直接邏輯坍塌。)
看見 ≠ 看清楚 ≠ 說清楚指哪個。 這是三件不同的事,主流路徑只解決了前面兩件。
![]()
視覺原語:讓模型一邊推理一邊「用手指」
DeepSeek 的解法叫 Thinking with Visual Primitives——用視覺原語思考。
這個名字一開始我沒看懂。讀完論文之后,我覺得最好的翻譯是:讓模型像人一樣,一邊思考一邊用手指著圖說話。
具體怎么做?模型在生成思考過程的時候,不只輸出文字,還會輸出坐標。坐標有兩種格式。
一種叫 bounding box(邊界框),寫法是這樣:
<|ref|>狗<|/ref|><|box|>[[120,340,580,890]]<|/box|>
意思是「這只狗,在圖上左上角到右下角這個矩形區域里」。坐標都被歸一化到 0-999 的整數。
另一種叫 point(點),寫法更簡單:
<|point|>[[357,369],[260,372]]<|/point|>
意思是「這個點和那個點」。
這兩種為什么都要有?論文給的解釋挺有意思。
邊界框適合精確定位具體物體,比如一只狗的位置、一輛車的位置,定位準、信息量大、訓練時容易有 ground truth。
點適合抽象指代,比如一條運動軌跡、一段路徑、一個交叉口的方向選擇。這些東西用框框不出來。
舉個例子,讓模型解一個迷宮,「下一步往左走」用框是表達不了的。但用點就很自然:「我現在在 (357, 369),下一步要走到 (260, 372)」。
更關鍵的是:這些坐標不是輸出在最終答案里的,而是夾在思考過程里的。
我把論文里的一個例子搬過來。
任務:「這張圖里有幾個寶可夢?」
模型的思考過程長這樣(簡化版):
我看到桌上展示了各種各樣的玩具,讓我先識別一下寶可夢角色:<|ref|>寶可夢<|/ref|><|box|>[[215,483,368,711], [330,180,422,348], [581,403,674,588]...]<|/box|>。我看到左邊的皮卡丘,后排的杰尼龜…… 然后我要排除其他動漫角色:左邊的哆啦A夢、中間的路飛、前排的索隆,還有戴紅帽子的那個 One Piece 角色,中間穿白衣的角色……都不是寶可夢。 數一下我剛才標記的不同寶可夢角色,共 6 個。 答案:圖里有 6 個寶可夢。
![]()
注意這個推理過程里坐標是邊推理邊出現的。它不是先把所有東西都看完再思考,而是「指一個想一下,再指一個再想一下」。指就是想,想就是指。
這就是 DeepSeek 這篇論文的范式轉移。
之前學界也有一些工作把 grounding(視覺定位)加進 chain-of-thought,比如 Visual CoT、CogCom、GRIT、VLM-R3、Argus、VGR。但這些工作的 grounding 主要是事后驗證:模型先想完,再用框來確認「我剛才說的那個東西確實在這里」。
DeepSeek 是把 grounding 當成思考本身的一部分。論文里兩個關鍵術語點破了這個區別——先前工作把 grounding 當作 post-hoc verification(事后驗證機制),DeepSeek 讓視覺原語成為 intrinsic medium of thought(思考的內在媒介)。
「思考的媒介」 vs 「驗證的證據」。一個是思維語言,一個是腳注。這是兩碼事。
不堆 token 數,堆指代精度
到這里你大概明白「視覺原語是什么」了。但你可能會問:這個新范式效果好不好?
直接說結論:這次最讓我興奮的是 Figure 1。它對比了幾個主流模型處理 800×800 圖片時的兩個數字,一個是 KV cache 條目數量(越少越省錢),一個是在 7 個 benchmark 上的平均分。
數據是這樣:
模型
KV cache 條目
平均分
Gemini-3-Flash
~1100
76.5%
Claude-Sonnet-4.6
~870
65.3%
GPT-5.4
~740
71.1%
Qwen3-VL-235B-A22B
~660
68.1%
Gemma-4-31B
~289
69.7%
DeepSeek(本文)
~90
77.2%
![]()
讓我把這件事用人話講一下。
一張 800×800 的截圖喂給 Gemini-3-Flash,它的 KV cache 里要塞 1100 個條目。喂給 Claude-Sonnet-4.6 要 870 個。喂給 DeepSeek 這個新模型,只要 90 個。
KV cache 是模型推理時最貴的東西之一。條目少一個量級,意味著同樣的硬件可以同時處理近 10 倍的請求,或者把圖片分辨率拉得更高。
主流路徑在堆 token 數(高分辨率切割),DeepSeek 在堆指代精度。 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 token,做出了小幅領先的平均分。
這才是這篇論文最反共識的一點。
需要誠實說一件事:上表里 Claude 和 Gemini 的 KV 條目數是 DeepSeek 自己估算的,不是 Anthropic 或 Google 官方公布的數字。我去查了 Anthropic 文檔,他們給出的圖像 token 計算公式是 width × height / 750,800×800 大約是 853 個 token,和論文里的 870 接近,但 token 數不等于 KV cache 條目。所以這個對比圖意思是有的,但具體數字別拿去較真。
另外,論文里 DeepSeek 對比的是 GPT-5.4 而不是 4 月 24 日新發的 GPT-5.5。原因可能是論文寫的時候 GPT-5.5 還沒出,或者 API 評測周期沒趕上。
怎么壓到這么少的
是怎么壓到這么少 token 的?這就要講 DeepSeek 的視覺編碼方案。
整個壓縮鏈路有三步。
第一步,ViT 切塊。DeepSeek 自己訓了一個叫 DeepSeek-ViT 的視覺編碼器,14×14 像素一個 patch。一張 756×756 的圖,切出來 2916 個 patch token。這一步和別人差不多。
第二步,3×3 空間壓縮。在 ViT 出口處,把每 9 個相鄰的 patch token 沿通道維度壓縮成 1 個。2916 個直接壓成 324 個。這一步是大頭。
第三步,Compressed Sparse Attention 再壓縮。這是 V4-Flash 自帶的機制,把視覺 token 進 LLM 之后存到 KV cache 里時,每 4 個再壓成 1 個 KV 條目。324 個變成 81 個。
總壓縮比是多少?571,536 像素到 81 個 KV 條目,整體壓縮比 7056 倍。
![]()
讀到這里你可能會想:這么暴力地壓,效果不會拉跨嗎?
正常情況會的。但這次不會,因為有視覺原語撐著。
我打個比方。
主流路徑是這樣的:把一本 800 頁的書原原本本扛在身上,需要查什么就翻。代價是書重得要死,背著累。
DeepSeek 的路徑是另一種:書我可以扔,但我記得每個重要內容在第幾頁第幾行。要查某段,我直接告訴你「第 372 頁第二行」。書不在身邊,但我能精確指代。
坐標就是「第 372 頁第二行」。這是一種比把整本書帶在身上輕得多的方式。
![]()
最大的差距在拓撲推理:領先 17 個百分點
但是,平均分 77.2 vs 76.5,聽起來還是好像沒那么夸張。其實最有意思的不在平均分里,在 Table 1 里。
我把這張表拆開看。
計數任務(counting):和 Gemini-3-Flash 互有勝負,DeepSeek 在 Pixmo-Count 和 Finegrained-Counting 上各贏一點,Gemini 在 CountQA 上領先。整體打平。
空間推理 + 通用 VQA(spatial reasoning + general VQA):6 個 benchmark,DeepSeek 在 4 個上排第一,Gemini-3-Flash 在 2 個上排第一。也基本打平。
拓撲推理(topological reasoning)。這兩個 benchmark 上的差距才叫夸張:
DS_Maze_Navigation(迷宮導航):DeepSeek 66.9%,Gemini-3-Flash 49.4%,GPT-5.4 50.6%,Claude-Sonnet-4.6 48.9%。DeepSeek 領先第二名 16.3 個百分點。
DS_Path_Tracing(路徑追蹤):DeepSeek 56.7%,GPT-5.4 46.5%,Gemini-3-Flash 41.4%,Claude-Sonnet-4.6 30.6%。DeepSeek 領先第二名 10.2 個百分點。
這兩個任務長什么樣?
迷宮導航就是字面意義上的迷宮,給你一個起點和一個終點,問能不能走到,能走到的話畫出路徑。路徑追蹤是給你一堆纏繞的曲線,每條曲線一端是圖標 A,另一端是圖標 B,問「皇冠圖標」連到的是哪個圖標?
這兩個任務為什么 frontier 模型集體翻車?因為它們要求模型長時間維持一個空間狀態。走迷宮每一步都要記得「我現在在哪、剛才走了哪、還有哪些岔路沒探」。路徑追蹤要求模型在十幾個交點處每次都做對的方向判斷。
純文本 CoT 干這個事就是會崩。模型描述「現在我在左下角」,下一步又描述「現在我在中間偏左」。「中間偏左」相對什么?說不清楚。多走幾步就亂了。
DeepSeek 用坐標解決這個問題。每一步都是 (x, y),沒有歧義。論文里有個迷宮的例子,模型走了 18 步,每一步都是清清楚楚的坐標。這就是「點是思考的最小單元」的含義。
![]()
更狠的一句話來自論文自己:
Notably, all frontier models exhibit suboptimal performance on topological reasoning tasks, suggesting that substantial room for improvement remains in the reasoning capabilities of multimodal large language models. (所有 frontier 模型在拓撲推理任務上都表現欠佳,說明多模態大模型的推理能力還有相當大的提升空間。)
人話版:你們這幫閉源旗艦,在我們這個 benchmark 上都不行。這是 DeepSeek 一貫的姿態,在論文里禮貌地踩一腳,懟得讓人想反駁又反駁不動。
訓練管線是 5 階段,不是 3 階段
文章寫到這里,我得說一下最讓我意外的一個細節。
這套訓練管線展開看,有整整 5 階段:
Pretraining(預訓練)
Specialized SFT(專家化監督微調)
Specialized RL(專家化強化學習)
Unified RFT(統一強化微調)
On-Policy Distillation(同策略蒸餾)
![]()
最后一階段的 OPD 蒸餾,是整篇論文工程含金量最高的一筆。
我們一步步說。
Pretraining 階段做的事情:讓模型學會「輸出視覺原語」這個基礎能力。怎么訓?爬數據。
DeepSeek 從 HuggingFace 這種平臺爬了 97984 個標注了 object detection 或 grounding 的數據集,然后做了兩步過濾:
第一步語義審核:剔除帶亂碼代碼(「0」「1」這種沒意義的標簽)、私人實體(「我室友」「ID_Card_1」)、模糊縮寫(「OK」「NG」)。剩下 43141 個數據集
第二步幾何質量審核:剔除漏標超過 50% 的、嚴重截斷的、超大框(占圖像 >90% 面積)的。剩下 31701 個數據集
最后做類別平衡采樣(每類最多 1000 張圖),得到約 4000 萬高質量訓練樣本。預訓練消耗的總 token 數是「trillions of multimodal tokens」(數萬億)。
這一步之后,模型已經能輸出視覺原語,但不知道怎么把它們用進推理里。所以要進入下一階段。
Specialized SFT 階段做的事情:教模型怎么把視覺原語當作思考媒介。
這里有個很巧妙的設計:不是訓一個模型,而是訓兩個。
一個專門訓 thinking with grounding(用框思考),另一個專門訓 thinking with pointing(用點思考)。論文里給它們起了名字:F_TwG 和 F_TwP。兩個分開訓。
為什么不合在一起?論文給的解釋是「這種分離能在專項數據量不大時避免模式沖突」。我猜實際原因是:用框和用點的思維方式有差異,混在一起訓會互相干擾。
Specialized RL 階段做的事情:用強化學習把這兩個專家進一步打磨。
用的算法是 GRPO(V4 論文用的同款)。但獎勵設計非常精細,是三層疊的:
Format RM:檢查輸出格式對不對(是否符合 <|ref|>...<|/ref|><|box|>...<|/box|> 這套語法),還會檢查有沒有重復輸出同一個框(防止模型陷入死循環)
Quality RM:用一個 LLM 當評委,從 5 個維度打分,包括思考過程冗不冗余、思考和最終答案是否一致、有沒有自相矛盾、引用的物體是否真有意義、有沒有 reward hacking(模型作弊騙獎勵)
Accuracy RM:任務特定的精度獎勵
舉個 Accuracy RM 的例子。計數任務的獎勵函數是這樣的:
R(?, y) = α · exp(?β · |??y| / (|y|+1))
α=0.7, β=3。意思是預測值偏離真值越遠,獎勵指數衰減。沒用 0/1 二值獎勵是個聰明設計:猜錯 1 個還有部分獎勵,猜錯很多才扣到底。這給模型留了平滑的學習信號。
迷宮任務的獎勵更復雜,分成 5 項加權:因果探索進度 + 探索完整性 + 穿墻懲罰 + 路徑有效性 + 答案正確性。每一項都是密集信號,讓模型每走對一步都拿到獎勵。
RL 數據篩選也很講究。模型對每個樣本生成 N 次 rollout,然后分類:
Easy(N 次都對)→ 不用學
Normal(部分對部分錯)→ 只用這部分訓練
Hard(N 次都錯)→ 學不會,跳過
只保留 Normal-Level 數據訓練,確保模型每次都能學到東西。這一步之后得到兩個真·專家模型:E_TwG 和 E_TwP。
Unified RFT 階段做的事情:把兩個專家合體成一個統一模型。
這一步是用兩個專家模型生成 rollout,然后做 SFT。得到統一模型 F。
On-Policy Distillation 階段做的事情:閉合差距。
這一步是我沒想到的。論文坦誠地寫:RFT 后的統一模型 F 相比 cold-start 的 F_TwG / F_TwP 已經有了大幅提升,但和專家模型 E_TwG / E_TwP 比起來「a noticeable performance gap remains」(仍然存在明顯的差距)。
也就是說,合體之后的模型在每個專項上不如各自的專家。所以最后還要做一道蒸餾。讓統一模型 F 同時學習兩個專家的輸出分布,損失函數是 KL 散度的加權和。
這是一招挺漂亮的工程閉環:先專家化、再合體、合體差了再用蒸餾閉合差距。每一步都不偷懶。
數據是真砸
講完訓練管線,再講一下冷啟動數據的體量。這塊是論文里我覺得最讓人警醒的部分。
冷啟動數據分四個維度:
計數:約 10000 樣本
空間推理 + 通用 VQA:約 9000 樣本
迷宮導航:460000 樣本
路徑追蹤:125000 樣本
注意后兩個的數量。46 萬個迷宮 + 12.5 萬條路徑追蹤,這個體量在「拓撲推理」這種小眾任務上是過分的。
為什么這么砸?因為這是 DeepSeek 想證明的事:視覺原語在拓撲推理上有獨特優勢。要把這件事證清楚,就要在這種任務上做到壓倒性領先,讓數據說話。
更讓我服氣的是數據怎么做的。我舉兩個細節。
迷宮:用 DFS、Prim、Kruskal 三種算法生成可解迷宮,三種拓撲(矩形、同心圓、六邊形蜂窩)都做。然后專門做了一批「貌似可解但實際不可解」的對抗迷宮。先生成可解迷宮,故意在中間堵幾堵厚墻,讓它看起來還能走、實際上走不通。這種對抗樣本是用來教模型「不要光看就敢答,要真探索過」。
路徑追蹤:交錯的貝塞爾曲線。每條曲線連一個起點圖標到一個終點圖標。專門做了一批「全部曲線同色」的版本。如果模型靠顏色作弊(順著顏色找),同色版會讓它失敗。強迫模型靠曲率連續性來判斷,每個交點上模型必須做出「這條線彎到左邊還是右邊」的幾何判斷。
兩個細節加起來你會發現:DeepSeek 不是在做能 work 的 demo,是在堵所有可能的捷徑。Anti-cheat 設計到這種程度,是想讓模型真的學到拓撲推理能力,而不是學到「圖像識別小聰明」。
一個隱藏的彩蛋
論文有一段我讀了三遍才確認沒看錯:
Although our post-training data about visual primitives does not include any Chinese corpus, the model is capable of thinking and responding in Chinese, benefiting from the multilingual capabilities inherited from the base model. (雖然關于視覺原語的后訓練數據里沒有任何中文語料,但模型依然能用中文思考和回答,這是從基座模型繼承下來的多語言能力。)
也就是說,DeepSeek 訓這個視覺原語模型時完全沒用中文數據,但模型能流暢地用中文做視覺推理。
論文里的 Figure 8 給了三個中文示例:
看金門大橋的圖,問「這附近有 NBA 球隊嗎」,模型識別出舊金山,然后回答「金州勇士主場就在這里」
看一臺咖啡機的圖,問「如何制作拿鐵」,模型用框圈出蒸汽棒、拿鐵按鈕、咖啡豆袋,按步驟生成中文操作指南
看一張古鎮照片,問「這是哪兒」,模型分析木結構和卵石街道,回答「應該是中國云南的古鎮(如麗江、沙溪)」
![]()
沒訓中文數據但能中文推理。這件事說明視覺原語這個能力是和語言無關的。坐標就是坐標,(360, 180) 在哪國語言里都是同一個像素位置。基座模型的多語言能力直接接管了語言部分,視覺原語接管了空間推理部分。
這是個很漂亮的解耦。
局限:這模型還做不了什么
論文挺誠實地寫了三條局限,我覺得每條都值得說一下。
第一,需要觸發詞才會啟用視覺原語。也就是說模型現在不能自主判斷「這道題需不需要用手指」。論文里所有示例的輸入都有一個 [Trigger_Placeholder],你必須告訴它「這次需要用視覺原語」,它才會啟用。
這是個挺現實的限制。理想狀態下模型應該自己判斷:復雜數數、空間推理、走迷宮這種任務自動啟用視覺原語;問「這是什么品種的狗」這種簡單 VQA 用普通模式。現在還做不到。
第二,極細粒度場景下視覺原語精度不夠。坐標畢竟是 0-999 整數,對一張 800×800 圖來說每個坐標單位代表 0.8 像素。如果你要 pixel-level 的精確定位,比如「第 X 像素那一根頭發絲」,這個精度不夠。論文說「未來可能要把視覺原語和高分辨率感知方案結合」,也就是該堆分辨率的時候還是要堆。
第三,用 point 解決拓撲推理還有跨場景泛化問題。在論文設計的迷宮和路徑追蹤上很猛,但換一個全新的拓撲場景能不能泛化,論文自己也沒把握。
這三個局限都很真實,沒有一條是「我們改改就好」。這是研究的邊界,不是工程的不足。
我對這件事的判斷
寫到最后,我說幾個我覺得有意思的判斷。
第一,DeepSeek 這次發的是論文 + 灰度,不是模型權重。GitHub 上沒有 model file,README 里說這套能力會隨下一代基座模型一起發布,不單獨開源權重。
![]()
這是個很 DeepSeek 的做派。技術先發表,模型不急著開源。論文先鋪路,權重后亮相。和當年 mHC、Engram、OCR 2 一樣的節奏。
第二,下一代 DeepSeek 大概率原生多模態。我在 V4 解讀里預測的「OCR 2 這一脈的延伸」,從這次論文的 reference 看,確實在延伸。但延伸的方向不是 OCR 2 的「視覺因果流」,而是更基礎的「視覺原語作為思考媒介」。前者是工程優化,后者是范式轉移。
第三,coding agent 視覺的標準被重定義了。之前大家比的是「我的視覺模型能看 4K 圖」「我的視覺模型 token 多便宜」。這次 DeepSeek 把比賽維度換了:比的是「我的視覺模型能不能在思考的時候用手指著圖說話」。
我覺得這個新維度站得住,原因是:coding agent 真正卡住人的不是看不清細節,是描述不清楚指哪個。一個有視覺原語能力的 agent,處理「這個按鈕的下面那個組件」這種任務會比純視覺理解的 agent 好得多。
第四,最后說一句。DeepSeek 是六大旗艦里最后一個把視覺接入主力產品的,但他們這次是以最貴的方式補課。不是「我也做了一個差不多的視覺模型」,而是「我做了一個全新范式的視覺模型,順便把基礎能力一起補上了」。
這種姿態是 DeepSeek 一直以來的姿態。mHC 不是優化殘差連接的參數,是給它加一道只準收縮不準放大的數學護欄;OCR 2 不是改文本編碼方式,是把長文本直接壓成視覺信號讓模型讀圖。這次也一樣,別人在堆圖像分辨率,他們在堆指代精度。
反共識不是為了反而反,是相信主流路徑里那個被忽略的盲點比表面共識更值錢。 這是我從讀了這么多 DeepSeek 論文里學到的最重要的一件事。
V5 什么時候發?我還是不好猜。但 DeepSeek 的節奏已經很清楚:論文先鋪路,模型后亮相。這次鋪的路是視覺原語,下一個亮相的,應該就是它。
One more thing
如果你讀到這里還能保持注意力,那我想再講一件事,是這次讀論文時一個讓我安靜了好久的瞬間。
論文里有一個例子:模型看一張圖,左邊是一塊切開的水果,紋路斑駁,看起來像一只貓的臉;右邊是一只真正的貓,眼神悲傷。問題是:「為什么這張圖很搞笑?」
模型的思考過程是這樣的:
先用框定位左邊那塊水果(fruit chunk)
然后在水果上找出深色斑點(dark spot),位置精確到坐標
標注水果上圓形的黑點(circular black spot),這是模擬了貓的瞳孔
標注水果底部深色紋理(dark textured nose),這是模擬了貓的鼻子
然后切換到右邊那只真貓,標注白色的臉(cat's white face)、綠色的眼睛(green eyes)、粉色的小鼻子(small pink nose)
最后總結:「右邊那只貓絕望悲傷的表情,被左邊水果上隨機的紋路完美復刻了。這種相似性正是搞笑的來源。」
![]()
我盯著這段思考過程看了很久。
模型在「理解幽默」這件事上,用手指著圖,把每一個相似點都標了出來。它指的不是結論,是構成結論的證據。它先看到水果上的「黑點」和真貓的「眼睛」位置對應,再看到水果紋路和真貓鼻子的對應,然后才得出「相似」的結論。
它在做的事情,和你看到這張圖時大腦在做的事情,幾乎是同一回事。你也不是看一眼就笑出來,你也是先注意到「這塊水果中間的黑點像眼睛」,然后才覺得搞笑。
這是我覺得視覺原語最讓我有觸動的地方。它不只是工程上更高效,它更接近人類認知本身的樣子。
「用手指著思考」,本來就是人類做事的方式。我們數數會用手指、走迷宮會用手指、解釋路線會用手指、描述設計稿也會用手指。手指是思維的延伸,不是思維之外的輔助。
DeepSeek 這次做的,是把這件事變成了模型能做到的事。
至于這件事最終能跑多遠,我不敢說。但起碼它指了一個之前被忽略的方向:視覺模型不只要看得清,還要能用手指著說話。
V5 見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.