網易首頁 > 網易號 > 正文 申請入駐

智譜放大招!實測GLM-4.6V,它也太會“看圖做事”了

0
分享至

這篇文章,由AI一鍵直出??

今天,智譜發布并開源了GLM-4.6V多模態模型,一個是向云端服務的106B基礎版,一個是面向本地部署的9B輕量版。

模型下載:

https://huggingface.co/collections/zai-org/glm-46v

API調用平臺:

https://www.bigmodel.cn

MCP調用入口:

https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

開頭這篇文章,便是由GLM-4.6V-106B直接生成。

可以看到,GLM-4.6V除了在視覺理解上能夠“看懂”多模態內容外,還具備工具調用能力(Function Call)能夠直接做“執行”。

官方說,這是一個原生具備多模態工具調用能力的模型。比如,可以處理圖文混排、識圖購物、導購以及各種Agent場景的復雜視覺任務。

省流:感知→理解→執行,都在一個推理鏈里完成,無需外部工程化。


一手實測

我知道,這么說,你可能還是沒懂。下面,我們來看點實際的。

打開Z.ai,選擇模型“GLM-4.6V”,根據任務需要選擇合適的工具,開啟“深度思考”,進行體驗。


這里,簡單分享幾點技巧:

  • ①建議所有場景都開啟深度思考,除非是明確的簡單行為,比如OCR識別。

  • ②不需要把所有工具都勾選,建議根據自己的任務情況來選擇。比如coding任務,它不太需要圖像處理、圖像搜索和購物搜索,那就把4個工具都關掉。

  • 如果不知道自己需要什么樣的工具,可以點下方的膠囊入口


  • 這里內置了6個場景:識圖搜圖、圖文掃描、文檔解讀、視頻理解、商品比價和數理解題。

1)復刻網頁

我們先來復刻一個網頁,比如復刻抖音電腦版。

請給我這個網頁截圖的HTML Code,如果網頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。


這是成品,跟抖音網頁版幾乎一模一樣。


復刻小紅書。


提示詞:復刻這個網頁。如果網頁包含圖片素材,請聯網搜索與內容適配的圖片進行替代,不要使用占位圖。

復刻OpenAI News。


提示詞:請給我這個網頁截圖的HTML Code,如果網頁包含圖片素材,一定要給我圖片,不要用Placeholder替代。

個人體驗來看,GLM-4.6V的前端能力離Gemini 3 Pro還差了那么一點。但話又說回來,又有誰的前端能力能比得過Gemini 3呢?

不同的是,GLM-4.6V的前端復刻支持多輪視覺交互修改,可以在生成的網頁截圖上框選區域進行修改,比如“把這個按鈕向左移一點,顏色改為橘紅色”。

案例來自官方視頻

2)文檔解讀+寫作

之前,很多模型一直解決不了的圖文同時輸出能力,GLM-4.6V這次做到了。

比如,我們拿一份Transformer論文給它,然后輸入提示詞:

根據附件論文,寫一篇圖文并茂的微信公眾號文章來介紹這篇論文,語言要通俗易懂、生動有趣,盡量讓小學生也能聽懂。使用圖文并茂的markdown格式輸出。

然后,就得到了一篇圖文并茂的公眾號文章。

(可上下滑動,查看全圖)

所有配圖都來自論文中的真實架構圖和圖表,不是生圖,也不是聯網找圖。而是模型自己定位內容所在的頁面和區域,然后調用工具進行截圖和嵌入,輸出圖文并茂的文章。

從對信息的理解,到工具的調用,到內容的生成,均由GLM-4.6V在同一推理鏈路內完成。

在我見過的VLM模型中,GLM-4.6V應該是第一個做到的,非常牛逼。

它的場景非常豐富,特別是對于我這樣還在堅持圖文創作的博主來說,非常受用。

比如,我們可以讓它對比論文。

提示詞:根據這兩篇論文的圖表,對比一下Transformer 和 ViT 模型的差異,并思考和闡述下一步改進 ViT 模型的思路。

(可上下滑動,查看全圖)

又比如,讓它直接搜索《瘋狂動物城2》,生成一篇圖文并茂的影評文章。

(可上下滑動,查看全圖)

3)商品比價

最近,為了更快的vibe working,特地買了一個麥克風接電腦上,可以更快的口噴文章、口噴代碼需求。


正好,讓GLM-4.6V幫我比下價,查下大家的評價。

(可上下滑動,查看全圖)

這信息找的,還挺準的。感覺,我以后都不用逛購物平臺了,直接問它就行。

4)識別疑難雜字

豆瓣上有個小組,叫「史上寫字最爛小組」,里面的字個個奇葩,但又個個真實。

畢竟,這世上能寫出好看、齊整字的人,本就鳳毛麟角。相反,那些寫出爛字、疑難雜字的人,才是更普遍的大多數。

比如,這位爺爺在ICU留下的字,就直接把我干沉默了。


沉默的原因在于,一是我也猜不出這是什么字,二是問了GLM-4.6V也不行,遺憾未能幫到這位朋友。

但這些字,對于GLM-4.6V來說,就小菜一碟了。

比如這個,如果我沒有背過“君不見”這幾個字,我還真不知道他在說什么。


發給GLM-4.6V,一下子把全文寫出來了。


看到這,我相信你可能也有和我一樣的疑問:是不是因為模型背過這首詩?所以能秒懂。

于是,我又換了張圖。說實話,我根本不懂他想表達什么。


發給GLM-4.6V后,這下終于懂了。


5)地圖推理

這是我11月去北京在大聰明的酒吧拍的。


問GLM-4.6V,輕松推導出是在北京中關村創業大街。


這是我10月去昆明拍的。


它也能輕松推理出是昆明老街,完全正確。


提示詞:你正在參加一場地圖推理游戲,附件的圖片是我11某個早晨在飛機上拍攝的,請盡可能地推導出圖片所在的位置,我要具體的、詳細的位置,比如某某路或者某某街區。

6)圖片反推

這是來自沃垠AI群里的一張圖片,用戶用NBP生成的,拿來上課非常好使。


我試著用GLM-4.6V反推了一下提示詞。


得到提示詞:

Traditional Chinese ink - wash style educational infographic titled "Water Journey: Chinese Vocabulary Memory Aid", illustrating the water radical (氵) through nature. Features a flowing river (江, Jiāng - River), river (河, Hé - River), lake (湖, Hú - Lake), ocean (海, Hǎi - Ocean), and swim (泳, Yǒng - Swim) with Chinese characters, pinyin, and English translations. Includes mountains, pine trees, waterfalls, clouds, small boats, and swimmers. Soft pastel color palette with beige background, blue water, earthy mountain tones. Composition shows water flow from river to lake to ocean, with arrows indicating direction. Detailed landscape with traditional Chinese artistic elements, suitable for language learning.

中文:傳統中國水墨風格教育信息圖,標題為“Water Journey: Chinese Vocabulary Memory Aid”(《水之旅:中文詞匯記憶輔助》),通過自然展示水部首(氵)。畫面包含流動的江(江,Jiāng - River)、河(河,Hé - River)、湖(湖,Hú - Lake)、海(海,Hǎi - Ocean)和游泳(泳,Yǒng - Swim),配有漢字、拼音和英文翻譯。包含山脈、松樹、瀑布、云朵、小船和游泳者。柔和的 pastel 色彩,米色背景,藍色水域,土色調的山脈。構圖展示水流從河流到湖泊再到海洋,箭頭指示方向。細節豐富的景觀,具有傳統中國藝術元素,適合語言學習。

發到即夢上,沒想到直接就生成了類似的圖。


以后,用GLM-4.6V做反推真的太容易了。

7)視頻理解

我把GLM-4.6V官方介紹視頻里的多個功能,用3倍速剪在了一塊。

發給GLM-4.6V問:這支視頻講了什么?


GLM-4.6V的回答還是挺準的,而且精確定位到了幀數。


從個人實測來看,GML-4.6V的工具調用能力(Function Call)非常出色,而且是原生就支持。

做到了「圖像即參數,結果即上下文」。

雖然在一些能力上(比如寫作、前端)還達不到頂尖,這需要更強力的基模,但這一手工具調用能力就已經是很多VLM不能比的了。

所以,這是一個天然適合做Agentic基座的模型,可以為真實業務場景賦能。

自GLM-4.6以來,我們看到,智譜正在開發者生態爆發相當大的潛力。

今天,又一個強力VLM模型來襲,而且已經加入智譜Coding Plan

而這,只是智譜開源周的Day 1。

說實話,有點期待接下來的幾天了。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扎心!15年全職太太討生活費,被丈夫辱罵“沒出息”“只會要錢”

扎心!15年全職太太討生活費,被丈夫辱罵“沒出息”“只會要錢”

火山詩話
2026-04-26 07:54:24
民進黨提出“譴責大陸案”高票通過,國民黨2重量級人物站隊支持

民進黨提出“譴責大陸案”高票通過,國民黨2重量級人物站隊支持

達文西看世界
2026-04-26 07:26:56
南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

南京一派出所副所長為完成查處任務,“設計”讓6名未成年人吸毒再查獲,犯欺騙他人吸毒罪一審被判5年

大風新聞
2026-04-25 22:34:13
悲催!浙江一女子出軌,丈夫直言婚姻本就是一場賭注,放手去愛吧

悲催!浙江一女子出軌,丈夫直言婚姻本就是一場賭注,放手去愛吧

火山詩話
2026-04-25 16:19:12
深圳女子公交站臺上勸阻男子吸煙引爭執 深圳官方回應

深圳女子公交站臺上勸阻男子吸煙引爭執 深圳官方回應

揚子晚報
2026-04-25 20:31:41
孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

孩子脫臼復位只收100元,家長舉報亂收費!衛健委:應收110元,你還少給了!家長拒繳費后離開!

醫脈圈
2026-04-25 20:04:06
斯諾克賽程:決出第4席8強,趙心童丁俊暉生死戰,吳宜澤PK塞爾比

斯諾克賽程:決出第4席8強,趙心童丁俊暉生死戰,吳宜澤PK塞爾比

劉姚堯的文字城堡
2026-04-26 09:50:13
白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

白宮開槍兇手是老師?網傳其剛在洛杉磯拿了“月度優秀教師”獎

爆角追蹤
2026-04-26 12:16:15
30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

30多家法院集體引用一部“空氣法”:這不是荒唐劇,是恐怖片

迷世書童H9527
2026-04-25 14:15:25
沒有什么“法不責輝”,再多的丈母娘也救不了董宇輝

沒有什么“法不責輝”,再多的丈母娘也救不了董宇輝

細雨中的呼喊
2026-04-26 00:12:43
老外震驚!中國饅頭橫掃歐美!不是文化輸出,是中國供應鏈贏麻了

老外震驚!中國饅頭橫掃歐美!不是文化輸出,是中國供應鏈贏麻了

魔都姐姐雜談
2026-04-24 11:56:08
賽季報銷!迪文琴佐遭遇右跟腱撕裂 穿上保護靴坐輪椅離開

賽季報銷!迪文琴佐遭遇右跟腱撕裂 穿上保護靴坐輪椅離開

醉臥浮生
2026-04-26 10:46:54
900億歐元貸款烏克蘭無須償還,不要再抹黑歐盟和烏克蘭了

900億歐元貸款烏克蘭無須償還,不要再抹黑歐盟和烏克蘭了

山河路口
2026-04-25 20:59:15
白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

爆角追蹤
2026-04-26 10:29:13
穆杰塔巴傷情曝光!比想象更重,他用一招終結美以斬首戰術

穆杰塔巴傷情曝光!比想象更重,他用一招終結美以斬首戰術

聞識
2026-04-26 04:59:24
白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

白宮記協晚宴發生槍擊事件 特朗普、萬斯撤離現場畫面曝光

新華社
2026-04-26 13:00:36
色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

色情片并不可怕,但它會偷走你的“勁”,讓你做什么都索然無味

知識圈
2026-04-26 09:35:01
一旦武統臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

一旦武統臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

混沌錄
2026-04-23 21:14:04
因突發事件撤離晚宴后 特朗普發帖:已建議“讓活動繼續進行”

因突發事件撤離晚宴后 特朗普發帖:已建議“讓活動繼續進行”

財聯社
2026-04-26 09:36:05
突發槍擊后,特朗普發了一張照片,并否認與伊朗戰爭有關!嫌疑人身份曝光:系加州31歲男子,持霰彈槍試圖突破安保,一名特工遭到槍擊

突發槍擊后,特朗普發了一張照片,并否認與伊朗戰爭有關!嫌疑人身份曝光:系加州31歲男子,持霰彈槍試圖突破安保,一名特工遭到槍擊

每日經濟新聞
2026-04-26 11:35:06
2026-04-26 13:35:00
沃垠AI incentive-icons
沃垠AI
努力分享一些有用、有趣的AI干貨
81文章數 34關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

白宮晚宴槍擊案或為"獨狼式"襲擊 特朗普:妻子躲得快

頭條要聞

白宮晚宴槍擊案或為"獨狼式"襲擊 特朗普:妻子躲得快

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

旅游
房產
家居
本地
軍事航空

旅游要聞

視頻丨179趟旅游列車上線 “五一”坐火車出游攻略請收好

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

軍事要聞

伊朗總統:不會在壓力、威脅下進行談判

無障礙瀏覽 進入關懷版