![]()
大家注意到了嗎,DeepSeek悄悄上線了「識圖模式」,可以支持圖片理解了。
![]()
在DeepSeek的web或者app界面里,原有的「快速模式」和「專家模式」右側,出現(xiàn)了一個全新「視圖模式」。
以前,DeepSeek對于圖片,只有OCR能力,也就是說只能識別并提取圖片里額文字,而不具備完整的視覺能力,無法理解圖片內容。
現(xiàn)在,DeepSeek告別了睜眼瞎歷史。
我先測試了一下「老鼠夾子」圖片的識別,網(wǎng)上流傳著一個笑話:豆包會把老鼠夾子識別成卡丁車玩具。
DeepSeek這次沒有翻車,而且實測中反應速度極快,幾乎是零延遲輸出。(當然,我也試了豆包,豆包也不翻車,不過豆包會自動啟用搜索功能,以保證更精準、更具備時效的回答,而DS的視圖是不帶聯(lián)網(wǎng)搜索的,所以反應更快。)
![]()
不要小看這個識圖功能,DeepSeek可以不支持多模態(tài),不去卷生圖、生視頻的賽道,但是原生視覺理解功能非常有必要。(以前鵝廠元寶有個買點,就是作為DeepSeek的識圖外掛。)
這一點,對智能體和Coding場景也非常有價值↓
智能體看屏幕、看界面、看現(xiàn)實環(huán)境,都可以用DS的原生識圖能力了
丟一張UI截圖,直接生成前端代碼,看產(chǎn)品原型,直接給修改建議。當然,你也終于可以用DeepSeek來玩數(shù)獨和找不同了。
剛剛我把Anthropic的官網(wǎng)首頁丟給DeepSeek,瞬間幫我復刻出前端代碼,相當絲滑。
![]()
不過,目前這個識圖能力,只是灰度測試,并沒有面向所有人開放,能不能有,要看運氣。
怎么樣,現(xiàn)在打開你的DeepSeek,看看你被官方偏愛了嗎?
識圖的一小步,卻是DeepSeek邁向多模態(tài)的一大步
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.