鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
最近,清華教授、智譜靈魂人物唐杰聊得有點high。
昨天先是暢聊AI認知,“AI的終局就是AGI,一場獵龍游戲”。引起廣泛熱議后,一覺醒來今天又在當眾征集意見:
各位!下個版本的GLM,你想要啥?
![]()
瀏覽量瞬間干到了40w+,這影響力真夠頂?shù)模?/p>
不過要說網(wǎng)友們?yōu)樯哆@么捧場,還得倒回去年GLM-4.6剛開源那會兒。
彼時唐杰也問過這么一回,評論區(qū)紛紛熱情支招,一條條需求后來陸陸續(xù)續(xù)都在GLM后續(xù)版本中有所實現(xiàn)。
真·有求必應·阿拉丁。
所以這次他一張口,懂行的人立馬團建去了~有po自己痛點的,也有智譜自家員工在下面留言。
比如這位網(wǎng)友直接列出了自己的愿望清單:更強的Agent能力、超長上下文保持質(zhì)量、更靈活的API……
![]()
更有甚者誠懇祈禱:求你了GLM!做一個類似Codex的桌面應用!!
![]()
有趣的是,這次GLM-5.3的評論區(qū),刷得最多的還是——
視覺!
![]()
GLM的視覺之痛
兩周前,智譜剛剛開源GLM-5.2。
強到離譜!開源界AI編程第一、全球第二,僅屈居于大名鼎鼎的神話級模型Fable-5。
![]()
但要說痛點,很明顯,也是真的痛:
沒視覺啊……
純文本模型,搞得動百萬Token超長上下文和深度邏輯推理,但偏偏沒搭載視覺編碼器,看不了圖也造不出圖。
反觀拿來對標的Fable-5,它是原生多模態(tài)模型,視覺能力應有盡有。
于是GLM用戶雙雙流下羨慕的淚水:我也想擁有TT
![]()
而且關(guān)鍵在于,不是智譜做不出視覺。恰恰相反,今年4月智譜發(fā)過一個叫GLM-5V-Turbo的模型。
原生多模態(tài)的Coding基座,從預訓練階段就把視覺和文本揉在一起,能看懂設計稿、截圖、網(wǎng)頁界面,然后直接吐出能跑的代碼,主打視覺+代碼+Agent一體化。
再往前看,智譜也做過不少多模態(tài)模型,CogVLM視覺編碼器就出自他們之手。唐杰本人發(fā)表過的視覺論文,更是一抓一大把。
所以問題壓根不是有沒有視覺能力,而是智譜沒把視覺放進最強旗艦模型中去。
這一點從唐杰過往的發(fā)言中也可見一斑,比如去年底的大模型年終總結(jié),他先是肯定多模態(tài)是未來。
但隨即他又補刀道:
問題是,當下的多模態(tài)對提升AGI的智能上界,幫助有限。可能最有效的方式還是分開發(fā)展,文本、多模態(tài)、多模態(tài)生成。當然適度的探索這三者的結(jié)合肯定能發(fā)現(xiàn)一些很不一樣的能力,但這需要勇氣和雄厚的資本支持。
你品,你細品。
唐杰這種沖在AI一線的科學家,盯著的始終還是第一性原理——模型智能。視覺可以讓模型更好用,但要讓模型更聰明,靠的還是復雜推理那套硬功夫。
這就是用戶和廠商的視角差異。
AGI對于用戶太遙遠了,所以用戶更在乎的是,眼下貼張圖模型能不能接住、截個屏模型能不能看懂。
于是就出現(xiàn)了這條推文里最微妙的拉扯。一邊是科學家盯著智能的天花板,覺得視覺只是錦上添花;一邊是全世界的開發(fā)者都在齊刷刷呼喊視覺。
更何況,對手也來勢洶洶。
Kimi K2.5今年1月就是原生多模態(tài)了,Qwen3.5-Omni三月份端到端把文本/圖像/音頻/視頻全統(tǒng)一進一個模型,更別說國際上Gemini 3那種原生文圖音視頻一把抓的。
GLM旗艦款補足視覺,幾乎是迫在眉睫。且等接下來端上桌的GLM-5.3。
One More Thing
最后再看看唐杰最近的一些分享吧,還挺值得琢磨的。
(其一)
![]()
(其二)
![]()
(其三)
![]()
(其四)
![]()
參考鏈接:
[1]
https://x.com/jietang/status/2071454597521215748?s=20
[2]
https://x.com/ZixuanLi_/status/2071491673511674059?s=20
[3]
https://m.weibo.cn/status/5247011059141988
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.