網易首頁 > 網易號 > 正文 申請入駐

DeepSeek終于「開眼」!首發深度實測:12張圖看清它的識圖極限

0
分享至

在DeepSeek一記V4重拳徹底引爆科技圈的五天后,DeepSeek內部負責多模態的研究員陳小康在X上發布了這么一條帖子,并且附上了文字:

Now, we see you.



(圖源:雷科技)

沒錯,就是字面意思。

當所有人還在為V4的價格和編碼能力而驚嘆時,DeepSeek突然開測識圖模式,全網熱議了一整年的多模態能力總算是落地了。

這更新速度,真心讓人覺得梁文鋒是不是為了不被網友做成不務正業的梗圖,連夜把開發團隊鎖在了機房里。

需要注意的是,這次測試并非全量測試,而是小范圍的灰度測試,只有部分用戶能在DeepSeek官方App或網頁版里看到,此時輸入欄上方除了原有的快速模式、專家模式外,還會新增識圖模式按鈕,并標注“圖片理解功能內測中”。



(圖源:雷科技)

不巧的是,筆者的同事們全部都沒能被灰度測試到,被DeepSeek官方抽到的人數居然高達0人!

幸運的是,筆者居然還真就成了那萬中無一的天選之人。

既然這么巧合,小雷不給大家測試一番,多少有點過意不去。這次我精心選擇了12張圖片,讓大家好好看看DeepSeek到底能看到什么?

理解能力強,知識庫待更新

話不多說,我們直接從畫面描述開始測試。

之所以將這個放在第一位,是因為這是視覺理解在實際場景中應用最多的一項功能。

以我們日常生活為例,在路邊看到一株叫不出名字的奇葩植物,或者想找找某款穿搭的同款鏈接,甚至是在異國他鄉對著滿屏外文菜單發愁時,大家現在的第一反應多半是拍張照丟給AI問一句:“這是啥?”

這種“所見即所問”的交互,本質上就是在考驗模型的視覺理解功底。

而這次我準備了三張圖用作測試,分別是一張Coser圖像、我在博物館里的見聞以及一張信息量繁雜的活動現場圖片。



(圖源:雷科技)

提示詞:請詳細描述一下這張圖,字數控制在250字以內。

對于第一張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

沒錯,DeepSeek不但完整描述了整個畫面細節,而且還認出了圖片里的角色,甚至還把拍攝這種圖片中的背景、打光等元素等如實還原出來,用這套文字去文生圖模型里直接就能還原一張高度類似的圖片。

要知道,這個效果可是沒開思考模式的。

對于第二張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

不打開思考模式的情況下,這次回答就是很單純的畫面描述,沒有對于物品的解析,但是描述本身還是挺到位的,而且最后還是能看出來這款物品富有濃郁的中東或中亞藝術風情,很可能是一件珍貴的宮廷或宗教禮儀用具。

那么,要是我打開思考模式呢?

這下開始解析了,首先是對物品進行拆解,定義它是什么、有什么特征、所處的環境怎么樣。



(圖源:雷科技)

然后就開始下定義了,它認為是清代痕都斯坦風格。



(圖源:雷科技)

那么清代痕都斯坦風格是啥呢?根據Wiki解釋,這是18世紀清朝乾隆時期引入的中亞伊斯蘭風格玉器,主要源自北印度莫臥兒王國

剛好,我去看的就是莫臥兒王國展,還真給它找出來了。



(圖源:雷科技)

對于第三張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

除了畫面描述、文字信息讀取,這次它還果斷判斷這是屬于中國建博會·廣州的活動現場圖片,只能說圖片理解這塊確實沒毛病嗷。

當然了,上面這些內容都是看圖說話,那么更新一點的信息識別如何呢?

這次我準備了近些年的三張圖片,提示詞:圖片里的東西是什么?并說出你的依據,字數控制在200個字以內。



(圖源:雷科技)

對于第一張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

嗯...至少能從圖片里看出寶可夢的信息,但是《Pokopia》這款游戲還是太新了,明顯不在DeepSeek的知識庫里。

對于第二張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

這次倒是判斷得很準確,這確實是一張從3dm扒下來的FM24戰術圖。

對于第三張圖片,DeepSeek的回答是這樣的:



(圖源:雷科技)

不難看出,它確實缺乏了最新的產品信息,但居然能通過副屏來判斷成小米11 Ultra,只能說DeepSeek識圖在邏輯這塊真的拿捏了。

邏輯問題,同樣搞不定

接下來,我們來試試元素識別。

這部分,說人話就是考驗AI的眼力見了,里面有些題目,哪怕是真人來了也不一定能做出來。

誒,順便看看DeepSeek會不會也是個色盲。

這類圖片在網上那叫一個多啊,我干脆直接上谷歌搜羅了這些圖來測試用,大家也別客氣。



(圖源:雷科技)

先測第一個,提示詞:請直接告訴我這張圖中有幾只老虎。

讓人想不到的是,這個問題居然能讓DeepSeek開始自我博弈起來,不斷地否認自己上一次數出來的結果,最后更是在兩次數出6只老虎的情況下,堅定地回答了7只出來。



(圖源:雷科技)

問題在于,這圖里有10只老虎,這就讓人很尷尬了。

再測第二個,提示詞:這張圖中隱藏著一組數字,請你直接告訴我其中有幾個數字,它們分別是什么。



(圖源:雷科技)

咋說呢,這個圖之前就難倒過所有AI, DeepSeek同樣沒有能識別出來。

第三張圖也是如此,可以說,這一類基于反色、碎塊化的圖片,依然是視覺理解的一生之敵。



(圖源:雷科技)

最后是三道圖形邏輯題,之前DeepSeek-V4在做邏輯題的時候表現就一般,不知道應對圖形邏輯題的效果如何。

據說這三道都是行測例題,我們讓DeepSeek來解答一下。



(圖源:雷科技)

第一道,思考了整整三分鐘。



(圖源:雷科技)

答案是錯的,正確答案是D。這圖的邏輯其實還挺好懂的,就是前面兩格單白/單黑的地方,第三格是白的,前面兩格雙白/雙黑的地方,第三格就是黑的。

第二道題自然也是不負眾望,錯!

沒想到,在我已經失去希望的情況下,經過六分鐘深度思考后,這第三道題,居然是讓DeepSeek給答對了!



(圖源:雷科技)

我反復試了兩遍,只能說這道題它確實能推理出來,雖說是采用算數的形式,但確實實現了零的突破。

只能說,行測備考你用這個,這輩子也是有了。

總結:識圖只是前菜,多模態大招還在路上

完整測試下來,小雷我對DeepSeek這次的識圖能力算摸透了。

只能說DeepSeek基礎識圖的準確率其實還是比較高的,然后它的推理思路本身也算有條不紊,但是目前知識庫里保存的信息還不夠多,而且面對難度較高的極限測試,基本上就沒有能做對的時候。

但是,這次起碼不會出現思考半天吧啦吧啦沒完沒了的情況。



(圖源:DeepSeek)

在我看來,這次識圖更像是過渡期的開胃菜,這個識圖模式,更接近一個掛載在DeepSeek-V4主干上的視覺理解模塊,而并非DeepSeek-V4本身的多模態能力。

但至少,它證明DeepSeek團隊在視覺理解上已經跑通了,這明顯是在為接下來的原生多模態大招鋪路??梢灶A見的是,補上這塊短板后,整個國產模型的格局必然會再次發生改變。

至于沒拿到資格的也別急,就DeepSeek目前這個效果,豆包和千問其實夠用了。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
繞開馬六甲!王毅前腳剛走,泰國火速拍板,砸1萬億為中國開新路

繞開馬六甲!王毅前腳剛走,泰國火速拍板,砸1萬億為中國開新路

誰將笑到最后
2026-04-30 03:44:44
1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

1983年,陳云親自批示:立即槍斃廣東縣委書記王仲,原因為何?

莫地方
2026-04-20 09:30:18
A股:傳來2個消息,節后,股市行情或將這樣走了

A股:傳來2個消息,節后,股市行情或將這樣走了

財經大拿
2026-04-30 11:46:59
跟兒子“換血”的硅谷富豪,成為世界首位返老還童的人,如今怎樣

跟兒子“換血”的硅谷富豪,成為世界首位返老還童的人,如今怎樣

談史論天地
2026-04-28 06:34:30
美的集團(000333.SZ):2026年一季報凈利潤為126.75億元

美的集團(000333.SZ):2026年一季報凈利潤為126.75億元

界面新聞
2026-04-30 10:10:42
廣東宏遠拒絕被淘汰!杜鋒調整陣容,奎因觸底反彈,央視直播

廣東宏遠拒絕被淘汰!杜鋒調整陣容,奎因觸底反彈,央視直播

體壇瞎白話
2026-04-30 09:29:56
“失去”了阿聯酋的阿拉伯世界,會變成怎樣?

“失去”了阿聯酋的阿拉伯世界,會變成怎樣?

曉栗
2026-04-28 06:02:42
多人被雙開,佛山紀委監委通報

多人被雙開,佛山紀委監委通報

南方都市報
2026-04-30 09:38:36
張軍成為首位被調查的奧運冠軍,難逃牢獄之災,金牌不是護身符

張軍成為首位被調查的奧運冠軍,難逃牢獄之災,金牌不是護身符

米修體育
2026-04-29 17:56:53
“吃相”難看的星二代現狀:張思樂回中戲任教,張可盈已無人問津

“吃相”難看的星二代現狀:張思樂回中戲任教,張可盈已無人問津

老吳教育課堂
2026-04-29 17:35:05
一代快運巨頭退市,徹底賣身京東:傳奇落幕背后,物流行業變天了

一代快運巨頭退市,徹底賣身京東:傳奇落幕背后,物流行業變天了

閱微札記
2026-04-09 17:12:57
海牙國際刑事法院就杜特爾特案作出終審裁定,莎拉出訪多國

海牙國際刑事法院就杜特爾特案作出終審裁定,莎拉出訪多國

百科密碼
2026-04-29 16:43:50
武漢鄂A老牌放號,有人從光谷打車40公里來選!

武漢鄂A老牌放號,有人從光谷打車40公里來選!

音樂時光的娛樂
2026-04-30 07:07:18
賣到2萬的iPhone折疊屏長這樣!曝光配置搶先看

賣到2萬的iPhone折疊屏長這樣!曝光配置搶先看

中關村在線
2026-04-29 06:34:07
江蘇一社區慰問的“困難老人”住大房子、家里擺五糧液引質疑,社區回應:確實不困難,是為給高齡老人過生日

江蘇一社區慰問的“困難老人”住大房子、家里擺五糧液引質疑,社區回應:確實不困難,是為給高齡老人過生日

大象新聞
2026-04-29 14:48:05
大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

大師靠“美國崩潰論”卷走百億,跑路美國后,痛罵中國人

談史論天地
2026-04-25 11:00:08
澎湖,拿下!臺海歸一,這塊“不沉的航母”已進入倒計時!

澎湖,拿下!臺海歸一,這塊“不沉的航母”已進入倒計時!

華山穹劍
2026-04-29 20:53:04
千萬企退人員多年合理訴求遲遲未落地!真實現狀深度解析

千萬企退人員多年合理訴求遲遲未落地!真實現狀深度解析

匹夫來搞笑
2026-04-25 15:26:44
保密觀:某縣司法局工作人員劉某,假期值班時收到4份涉密電報,將報頭及文件全文拍照,上傳至微信群請示領導,造成涉密信息失控

保密觀:某縣司法局工作人員劉某,假期值班時收到4份涉密電報,將報頭及文件全文拍照,上傳至微信群請示領導,造成涉密信息失控

極目新聞
2026-04-30 07:35:23
泰國外長坦言:作為美國盟友,沒有得到任何幫助,只能向中俄求助

泰國外長坦言:作為美國盟友,沒有得到任何幫助,只能向中俄求助

空景孤擾人心
2026-04-30 10:12:16
2026-04-30 12:23:00
雷科技 incentive-icons
雷科技
專注AI硬科技
36990文章數 812052關注度
往期回顧 全部

科技要聞

四巨頭財報齊發:AI已經不只是風口

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

頭條要聞

"上海最通透爸爸"去世 女兒:他退休20多年這輩子不虧

體育要聞

騎士天王山:哈登、莫布里和……施羅德?

娛樂要聞

孫楊媽媽被曝!過往言行被扒大開眼界

財經要聞

安世之亂,聞泰帝國近黃昏?

汽車要聞

上汽一季報出爐 在低增長周期里守住基本盤

態度原創

藝術
游戲
數碼
教育
軍事航空

藝術要聞

安東·愛德華·基爾德魯普:19世紀丹麥風景畫家

八尺大人不夠看!超巨型美女新游《百尺大人》上線

數碼要聞

專訪追覓環境電器:以技術立本,吸塵器為核,打造全球高端生活電器新標桿

教育要聞

偏科,是應該“補短”,還是該“揚長”?

軍事要聞

美國參議院否決限制特朗普對古巴動武的決議

無障礙瀏覽 進入關懷版