出品 | 網易智能
作者 | 小爪
編輯 | 王鳳枝
最近,DeepSeek上了識圖模式。
網上最出圈的吐槽是:它看誰都像梁文鋒。
![]()
這個說法不是憑空來的。觀察者網直接用了《DeepSeek上線識圖模式,看誰都像梁文鋒》這個標題;IT之家、澎湃新聞、紅星資本局也都做過實測,核心發現差不多:DeepSeek有時認不出深度求索創始人梁文鋒,有時又會把其他人誤認為梁文鋒。
認錯老板當然很有傳播性。
但名人識別和日常看圖,是兩種不同的能力。
我更關心的是后者:如果不拿名人照片測,而是把普通用戶真的會發給AI的截圖、賬單、海報、日程、路線圖發給它,DeepSeek識圖模式效果如何?
于是我也做了一個小測試。
測試很簡單:8張本地合成圖,模擬普通用戶最常見的看圖請求,包括數圖形、核賬單、看圖表、判斷按鈕狀態、讀優惠小字、查日程沖突、算路線、讀中英文方向牌。
這些圖是我自己做的,不是真實用戶截圖。自己作圖的好處是可控:每張只測一個小任務;代價是不能代表所有真實場景,也無法排除排版影響。比如數圖形用的是常見顏色和形狀,收據是普通三行賬單,路線圖是四個點和四條邊,不是刻意做成復雜視覺謎題。
這不是嚴肅評測,也不是模型排行。它只回答一個問題:當用戶把這些圖片丟給DeepSeek識圖模式時,哪些地方最容易出錯。
先說邊界和方法
這次測的是chat.deepseek.com的官網產品入口。測試時間是6月22日中午,頁面顯示Instant,DeepThink沒有開啟。
正式測試時,每張圖單獨開新對話,只跑一次,不連續追問。第一張數圖形在正式測試前曾經單獨試過一次,所以文中會把兩次結果都寫出來,用來說明同一張簡單圖的回答不穩定;其他7張以正式測試結果為準。
這也意味著,下面不是正確率統計。8張圖太少,不足以推斷整體水平,只能說明:這些錯誤不是用戶想象出來的,而是在這個產品入口里真實出現過。
需要說明的是,這次只測了DeepSeek官網一個產品入口,沒拿GPT、Claude、Gemini做同圖對比。這些錯誤不一定是DeepSeek獨有的,可能是當前多模態模型都會遇到的問題。 本文討論的是用戶在這個入口里的真實體驗,不是給模型排座次。
第一類錯誤:圖就在眼前,但數量和顏色全錯
數圖形的那張最簡單。
上面只有三類圖形:紅色圓形、藍色方形、綠色三角形。正確答案是紅圓7個、藍方5個、綠三角3個。
![]()
DeepSeek在一次單獨測試里答成了紅圓3個、藍方3個、綠三角0個。
![]()
正式測試時,我重新開新對話跑同一張圖,它答得更離譜:紅色圓形0個、藍色方形0個、綠色三角形0個,還說圖中所有圖形都像黑色圓點。
![]()
這不是復雜推理,也不是小字OCR。它錯在最基礎的顏色、形狀和數量識別。
這個例子適合提醒用戶:不要把"AI能看圖"理解成"AI一定能準確數清圖里東西"。 尤其是庫存、票據、表格截圖、標注圖這種需要逐項計數的圖片,最好讓AI先分組讀,再人工復核。
第二類錯誤:結論像對,但數字已經錯了
圖表測試用的是一張截斷坐標軸柱狀圖。
![]()
A是92,B是96,Y軸從90開始,不是從0開始。所以B看起來高很多,但實際只比A高4點。
DeepSeek的判斷方向接近。它知道"不能只看視覺高度",也判斷B不算高很多。
但它把92和96讀成了9290和9690,把差值算成400。
![]()
![]()
我的猜測是,它可能把柱頂標注和坐標軸上的90拼到了一起:92貼近從90開始的Y軸,視覺上被讀成9290;96也被讀成9690。這個猜測不一定對,但這類"把相鄰數字拼接在一起"的錯誤,在看圖讀數時很要命。
這在我的計數里算"部分答對":方向判斷接近,但關鍵數字錯誤。
這就是識圖AI很容易讓人放松警惕的地方:它說出來的道理是對的,但底層數字已經錯了。
如果用戶只看最后一句"B不算高很多",可能會覺得它答得不錯。但如果這是一張銷售圖、財報圖、投放圖、股價圖,數字被放大100倍就不是小問題。
圖表類圖片最需要防的不是"完全看不懂",而是"方向判斷像對,關鍵數字錯了"。
第三類錯誤:讀到了局部,但漏掉關鍵邊
路線圖也很典型。
![]()
圖里有兩條從A到D的路線:
A-B-D:12 + 18 = 30分鐘。
A-C-D:10 + 15 = 25分鐘。
更快的是A-C-D。
DeepSeek讀到了A-B是12分鐘、B-D是18分鐘,也看到了A-C這條邊,但把A-C的10分鐘錯讀成15分鐘,同時漏掉了C-D這條邊,于是說A-C-D無法計算。
![]()
它不是完全看不懂圖,而是只讀到了部分結構。
這類錯誤在真實使用里很危險。因為用戶問路線、流程、組織圖、架構圖、審批鏈路時,AI只要漏掉一個節點或一條邊,最終建議就會變形。
看圖不是OCR完文字就結束。對路線圖、流程圖來說,真正關鍵的是把點、線、方向和權重連起來。
第四類錯誤:讀到文字,但沒按箭頭回答
最后一張是中英混排方向牌。
![]()
圖上寫著:
EXIT向左。
入口向右。
Meeting Room向上。
DeepSeek讀到了"出口、入口、會議室"這些文字,但沒有按箭頭回答。 它把圖片理解成空間布局,說入口在下方、出口在上方,會議室在中間或右側。
![]()
混合語言不是唯一的難點。問題是,AI需要把文字和箭頭綁在一起。
用戶問的是"分別往哪個方向",不是"這些詞在畫面上大概在哪里"。 如果AI把文字位置當成方向,答案就會錯。
但它不是每條都錯
這次8張圖里,DeepSeek有4張基本答對,4張出了明顯錯誤。 其中,柱狀圖那張屬于"方向判斷接近,但關鍵數字錯誤"。
樣本太小,這個比例不能當成模型正確率。但它能提醒我們:錯誤不是每次都發生,也不是只在極端場景發生。
那次答對的幾條,也值得一塊看看。
核賬單:收據合計它算對了,38 + 24 + 56 = 118元,打印總計128元不正確。
![]()
![]()
讀優惠小字:會員海報小字它抓到了,首月后每月29.9元,而且會自動續費。
![]()
![]()
查日程沖突:日程圖它發現了14:00-15:00的時間沖突。
![]()
![]()
判斷按鈕狀態:UI截圖它也判斷出"提交發布"按鈕是灰色未激活狀態,當前不能直接發布。
![]()
![]()
這反而讓結論更有產品意義。
問題不是DeepSeek官網識圖"完全不能用"。在賬單加總、小字條款、日程沖突、按鈕狀態這些場景里,它能幫用戶先看一眼。
真正的問題是:它的可靠性不是均勻的。
有些場景看起來更復雜,它能答對;有些場景看起來很簡單,它反而會錯得很自信。
普通用戶真正該小心什么
這組小測試想說的,不是某個模型答錯了一次。是識圖AI出錯的那幾種固定姿勢。
第一,它可能OCR對了,但計算錯了。
第二,它可能結論方向對了,但數字讀錯了。
第三,它可能讀到局部信息,但漏掉決定結論的關鍵邊。
第四,它可能識別出文字,卻沒有理解箭頭、按鈕狀態、空間關系和用戶真正問的問題。
如果再壓縮一下,底層其實是兩個問題:一是感知層面,看到的顏色、數量、數字就不對;二是關系層面,看到了局部信息,卻沒有理解它們之間的連接。
所以,把截圖交給AI時,最好不要只問一句"這張圖說了什么"。
更好的問法是:
請逐項讀取圖片內容;
請列出計算過程;
請指出你不確定的地方;
請告訴我哪些信息需要人工確認。
這些是通用的AI看圖使用建議。我沒有逐條驗證它們能否修復DeepSeek官網識圖模式里的每一種錯誤,但它們至少能逼AI暴露計算過程和不確定處。
尤其是涉及錢、時間、發布、付款、確認按鈕、自動續費、圖表漲跌幅和路線選擇時,AI的回答只能當第一眼,不能當最終判斷。
AI看圖最危險的地方,不是它看不見。而是它看見了一部分,然后讓你以為它全看懂了。
