網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

智譜GLM-5V-Turbo“擦槍走火”，國產(chǎn)多模態(tài)智能體戰(zhàn)爭一觸即發(fā)

2026-05-11 07:33:45　來源: 硅基星芒AI

北京舉報

分享至

在國產(chǎn)大模型的激烈競爭中，智譜的GLM系列一直掌握著一張極具商業(yè)價值的王牌：極強的代碼能力。

隨著AI的主要形式從大語言模型轉(zhuǎn)向智能體，行業(yè)競爭進入下半場，開發(fā)者和開發(fā)生態(tài)是付費意愿最強的群體。

但是，行業(yè)巨頭們對AI的期許顯然不僅僅是一個“外包的程序員”，只有成為一個能真正接管系統(tǒng)工作流的全能型智能體，才能讓AI進入每個普通人的生活。

因此，一個強大的AI只會敲鍵盤還遠遠不夠，它必須長出眼睛，去審視網(wǎng)頁排版、看懂海報圖表、甚至要理解GUI上各種非文本的復(fù)雜信息。

前幾天，DeepSeek灰度測試“識圖模式”已經(jīng)打響了第一槍。

如今，智譜也緊緊跟隨，正式開啟了多模態(tài)領(lǐng)域的全新探索。在最新模型GLM-5V-Turbo的技術(shù)報告中，我們可以清晰地認識到，這是智譜向原生多模態(tài)智能體發(fā)起的新一輪沖鋒，也是一份充滿技術(shù)暴力、工程妥協(xié)和商業(yè)考量的自白書。

視覺底座的暴力美學(xué)與微操藝術(shù)

向大語言模型中增加視覺能力，這個思路在過去幾年中早已被頻繁嘗試。

然而，由此誕生的視覺語言模型（VLM）往往只是個拼接而成的產(chǎn)物，語言模型是絕對的大腦，視覺模塊只是一個外掛攝像頭。

也就是說，模型壓根無法理解圖像等信息中蘊含的邏輯。把二維的視覺信號強行壓縮至一維的token序列，帶來的結(jié)果就會是看不懂圖像、忽略關(guān)鍵細節(jié)甚至產(chǎn)生嚴重的幻覺，自然也無法作為智能體使用。

因此，GLM-5V-Turbo在開篇就定下了基調(diào)：

多模態(tài)感知絕對不能只是一個輔助接口，它必須成為模型推理、規(guī)劃、工具調(diào)用和任務(wù)執(zhí)行的原生核心組件。

因此，為了實現(xiàn)真正的“原生”，智譜這次在底層架構(gòu)上動了三次大手術(shù)：

1.重構(gòu)視覺底座：專為Agent而生的CogViT

智能體需要操控用戶的電腦，因此在圖形用戶界面中，模型不僅要知道圖片里有什么，還要關(guān)注各種容易被忽視的細節(jié)，哪怕一個長寬可能只有幾個像素的按鈕。

為此，智譜自研了一套高參數(shù)效率的視覺編碼器CogViT，并采用兩階段的預(yù)訓(xùn)練：

第一階段是特征重構(gòu)，兩個教師模型中，SigLIP2負責(zé)讓模型識別語義，DINOv3負責(zé)讓模型識別紋理，最后通過掩碼圖像建模增強模型視覺特征的表達；

第二階段是圖文對齊，通過引入NaFlex方案來處理動態(tài)分辨率，將全局的Batch Size直接提升至64K。

這種設(shè)計方式直接將智譜新模型的空間感知和幾何理解能力拉滿，也為后續(xù)操控網(wǎng)頁和手機UI打下了基石。

2.工程與算法的平衡：多模態(tài)多Token預(yù)測（MMTP）

多模態(tài)能力的引入，必然伴隨著顯存和算力消耗的指數(shù)級膨脹。

關(guān)注AI領(lǐng)域的開發(fā)者應(yīng)該都知道，智譜近半年來算力儲備并不寬裕，此前引發(fā)激烈討論的價格調(diào)整已經(jīng)側(cè)面印證了在大規(guī)模推理面前，算力成本就是一個黑洞。

引入多Token預(yù)測（MTP）以提升推理效率是業(yè)內(nèi)普遍使用的做法，不過智譜在引入MTP時，采用了一個教科書級別的工程決策：

直接把包含大量信息的視覺特征直接傳給MTP預(yù)測頭不可行，那就采用一個共享的特殊token“<|image|>”作為視覺輸入的占位符。

看似簡單的改動，其實最符合“工程實用主義”。它大幅降低了流水線并行中的通信復(fù)雜度，直接避免了顯存爆炸這個讓人頭疼的問題。

除此之外，在保證模型收斂穩(wěn)定的前提下，這個“巧思”還能極大降低訓(xùn)練和推理的算力成本。

3.破除長尾魔咒：超大規(guī)模多模態(tài)強化學(xué)習(xí)系統(tǒng)

目前，智能體的訓(xùn)練思路與大語言模型本質(zhì)上并無區(qū)別，使用的仍然是強化學(xué)習(xí)。

但是，在智能體的訓(xùn)練過程中，單任務(wù)強化學(xué)習(xí)很容易讓模型陷入震蕩。

而智譜的研究團隊發(fā)現(xiàn)，多任務(wù)協(xié)同強化學(xué)習(xí)能夠讓模型見識到更豐富的策略分布，甚至出現(xiàn)跨任務(wù)的思維模式遷移。

因此，智譜在超過30個任務(wù)類別上進行了聯(lián)合強化學(xué)習(xí)，并在基礎(chǔ)設(shè)施上實現(xiàn)全流水線解耦和異步執(zhí)行。他們不僅將視覺切分這個環(huán)節(jié)從前向傳播階段提前至數(shù)據(jù)加載階段，還對GPU之間的通信做出了極致的內(nèi)存管理。

從API分發(fā)到工作流接管的范式轉(zhuǎn)移

技術(shù)的底層重構(gòu)，最終指向的永遠是商業(yè)變現(xiàn)邏輯的躍遷。

GLM-5V-Turbo展現(xiàn)出的多模態(tài)深度研究能力，正在預(yù)示著智譜AI應(yīng)用的兩點商業(yè)變局：

一是用多模態(tài)深度研究打破傳統(tǒng)文本SaaS的壁壘。

對于此前大部分AI助手，大多只能閱讀純文本內(nèi)容。即便是允許用戶上傳圖片、視頻、PDF等附件，一旦其中包含的非文本信息過多，AI的識別能力就會斷崖式下降。

然而，GLM-5V-Turbo能夠自主循環(huán)執(zhí)行“規(guī)劃→多模態(tài)閱讀→狀態(tài)更新”這套工作流，直接解析各種圖表、文檔、PPT中的高價值視覺信息，直接交付Markdown商業(yè)報告和高度結(jié)構(gòu)化的幻燈片。

在這一點上，智譜的路線與昨天發(fā)布Claude for Microsoft 365、單刀直入殺進微軟生態(tài)的Anthropic幾乎完全相同。

因此，傳統(tǒng)的信息檢索工具必然會面臨降維打擊。當AI能夠端到端交付包含數(shù)據(jù)可視化的成品報告時，按token計費的模式也會逐漸走向“按交付項目計費”的商業(yè)模式。

二是Agent終極形態(tài)將會是模型（Model）與載具（Harness）的共生。

智譜的技術(shù)報告中給出了一個很有啟發(fā)性的觀點：

系統(tǒng)的能力邊界不再由模型單方面決定，而是由模型與它周圍的框架（Harness）共同塑造的。

作為國產(chǎn)模型的領(lǐng)頭羊之一，智譜官方也在不斷提供更為豐富的工具鏈（Official Skills），并且與行業(yè)標準框架Claude Code和Auto Claw均實現(xiàn)了無縫集成。

事實上，智譜早已清晰地認知到，單靠自己一家AI初創(chuàng)公司幾乎不可能創(chuàng)造出像Google一般的強大生態(tài)。與其孤注一擲，不如讓Claude Code和AutoClaw這些善于處理終端和文件邏輯的全球通用工具成為自己操作計算機的靈巧手。

此前人們期待的“全能大模型”神話，如今已經(jīng)接近破滅，強如OpenAI也無法僅靠大語言模型實現(xiàn)AGI。未來的護城河必將轉(zhuǎn)移到模型能力與外部工具的深度耦合。

畢竟，作為付費主力的B端企業(yè)從來都不需要一個什么都能聊的機器人，而是需要一臺能夠直接無縫融合進已有系統(tǒng)的認知驅(qū)動引擎。

血淚史：智能體研發(fā)的三條定律

智譜的這次技術(shù)報告發(fā)布之所以與眾不同，是因為研究團隊在報告末尾非常罕見且坦誠地分享了他們在研發(fā)過程中總結(jié)的設(shè)計視角。

這份用無數(shù)算力和通宵加班換來的“避坑指南”，遠比開源的模型和技術(shù)要寶貴，而且對整個AI行業(yè)來說都有極高的價值。

首先，千萬不要好高騖遠，底層感知才是決定模型天花板的基石。

最近一年來，AI行業(yè)逐漸形成了一種風(fēng)氣，所有產(chǎn)品發(fā)布時總會帶上“深度思考”、“自我反思”、“長邏輯規(guī)劃”這些標簽，仿佛只有貼上這些標簽的才是高級的AI。

然而，在用戶的反饋中其實不難發(fā)現(xiàn)，這些高大上的標簽并沒有在具體的應(yīng)用場景中得到落實。

智譜在實踐中發(fā)現(xiàn)，很多看似高級的規(guī)劃最終失敗，并不是過程中細枝末節(jié)的錯誤積少成多，而是模型在第一步就開始“盲人摸象”。或是沒看清細微的UI元素，或是搞錯了按鈕的空間位置。

智能體的運作邏輯與大語言模型截然不同，視覺感知絕非一個前期處理完就可以丟在一邊的低級模塊，它持續(xù)制約著模型高級推理能力的上限。

其次，面對智能體的訓(xùn)練，應(yīng)當放棄對“端到端”的迷信，主動擁抱分層優(yōu)化。

這并非否認“訓(xùn)練智能體應(yīng)該使用智能體（而非大語言模型）強化學(xué)習(xí)”的論斷，但AI企業(yè)也必須面對目前訓(xùn)練智能體成本高昂、高質(zhì)量軌跡數(shù)據(jù)稀缺、評測標準缺少行業(yè)規(guī)范的現(xiàn)實。

一上來就讓模型學(xué)習(xí)極其復(fù)雜的長周期任務(wù)，帶來的結(jié)果要么是“只得其形未得其意”，要么是模型直接崩潰。

智譜的做法是把任務(wù)如庖丁解牛般細細切碎，從最底層的認清圖標，到單步動作預(yù)測，再到整條行為軌跡規(guī)劃，進行分層優(yōu)化。事實證明，這不僅是算力有限時不得不做出的妥協(xié)，更是讓模型穩(wěn)定收斂的最佳途徑之一。

最后，那些不能被精準評估的任務(wù)，沒有參考意義。

對于當前具備多模態(tài)能力的智能體來說，最難的并不是讓它干活，而是不知道如何客觀地“打分”。

相比網(wǎng)頁中的對話框，真實的計算機環(huán)境中充滿了開放性和不確定性。智譜意識到，只有設(shè)計出具有嚴格的步驟控制、能隔離不同維度的信號的驗證流程，這種端到端的評測才會有意義，才能反向指導(dǎo)模型的迭代過程。

結(jié)語

看完智譜的這份技術(shù)報告，與其說是一次模型能力的展示與講解，不如說是研究團隊與用戶的一次隔空座談會。

這份報告沒有把自己的模型描繪得十全十美，反而在最后拋出了幾個直擊靈魂的行業(yè)未解之謎：

視頻和圖像都是吃內(nèi)存的怪物，在朝長周期的任務(wù)中應(yīng)該如何實現(xiàn)上下文壓縮記憶？

模型什么時候才能擺脫人類投喂標準答案，自己涌現(xiàn)出更聰明的交互策略？

這些問題，一時半會還沒人能夠回答。

我們能看到的，只有一個正在快速進化的國產(chǎn)模型，以及整個AI行業(yè)正在步入艱難的深水區(qū)的現(xiàn)實。

增加多模態(tài)能力是智譜向全棧智能體進軍的必經(jīng)之路，但路上的算力賬單早已無處不在。在算力緊缺的客觀現(xiàn)實下，智譜還是用精妙的架構(gòu)設(shè)計、極端的顯存優(yōu)化和分層的訓(xùn)練策略，硬生生打出了一場令人稱贊的資源突圍之戰(zhàn)。

GLM-5V-Turbo已經(jīng)證明它有能力接管用戶的電腦屏幕，而下一個考驗，是整個市場是否準備好了為“原生多模態(tài)”的生產(chǎn)力買單。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.