无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“Token”必須死?

0
分享至

當(dāng)Ilya宣判"預(yù)訓(xùn)練終結(jié)"、LeCun出走M(jìn)eta押注世界模型,巨頭們正在用真金白銀逃離token范式的天花板。殺死tokenization只是第一步,真正的訓(xùn)練信號,或許藏在AI主動探索世界的遞歸自我改進(jìn)里。

———— / BEGIN / ————

“我語言的局限,即意味著我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. )

哲學(xué)家維特根斯坦在1921年寫下這句話時,他談?wù)摰氖侨祟愓J(rèn)知的邊界。一百年后,這句話精確地描述了大語言模型面臨的結(jié)構(gòu)性困境,如果AI的“語言”就是離散token序列,那么它的“世界”永遠(yuǎn)被困在token能表達(dá)的范圍內(nèi)。

這也引出了一個老生常談的問題:大語言模型范式能走到AGI(通用人工智能)嗎?

2024年12月,OpenAI 前首席科學(xué)家Ilya Sutskever在NeurIPS發(fā)表主題演講,他說“預(yù)訓(xùn)練即將終結(jié)”。2026年3月,圖靈獎得主Yann LeCun離開Meta創(chuàng)辦AMI Labs,直接宣判“大語言模型路線錯了”。

兩位深度學(xué)習(xí)殿堂級的大師,一位選擇顛覆自己親手開啟的預(yù)訓(xùn)練時代,另一位選擇繼續(xù)踐行自己堅守多年的世界模型路線,去賭“LLM的下一個時代”。

當(dāng)然絕對不是當(dāng)前的模型不好用或沒有商業(yè)價值,大模型的用戶數(shù)量及滲透率都在持續(xù)增長,產(chǎn)業(yè)價值會越來越大。但是從技術(shù)路徑來看,他們要表達(dá)的是:這條路有一個結(jié)構(gòu)性的天花板,這個天花板恰好卡在通往AGI(通用人工智能)的路上。

2026年5月,MIT何愷明團(tuán)隊和字節(jié)跳動Seed實驗室?guī)缀跬瑫r發(fā)布論文,給出了一個更明確的信號:語言生成的核心建模過程不必始終發(fā)生在離散token空間中,也可以轉(zhuǎn)移到連續(xù)embedding或latent空間里完成,最后再映射回文本。

這是第一批來自工程實驗的硬證據(jù),逐token預(yù)測可能是通向AGI路上的一個局部最優(yōu)解。但連續(xù)空間范式打開了另一條路,這條路的天花板也許更高。


圖:美國國家人工智能科學(xué)院院士,麻省理工學(xué)院電氣工程與計算機(jī)科學(xué)系副教授何愷明,圖片由AI生成

01. 天花板在哪?

維特根斯坦的話可以這樣理解。

人類的離散語言不是思維的原生格式。大腦內(nèi)部的認(rèn)知活動是連續(xù)的、并行的、高維的。比如人類想到一個蘋果時,激活的不是“蘋果”兩個字的token,而是一大片感覺皮層的連續(xù)活動模式,包括顏色、質(zhì)感、重量、咬下去的聲音。人之所以把這團(tuán)連續(xù)體驗壓縮成“蘋果”這個離散符號,純粹是因為人類大腦的帶寬逼你序列化。

人類語言是進(jìn)化設(shè)計的有損壓縮協(xié)議,它是跨腦傳輸?shù)墓こ掏讌f(xié)。

我們目前用到的主流的商業(yè)化大模型產(chǎn)品,底層都是自回歸架構(gòu)(預(yù)測下一個token)。

自回歸大模型做的事情是,在這個壓縮協(xié)議的輸出格式上建模。它無法理解“世界如何運作”,它了解的是“人類選擇用什么符號序列來描述世界”。它們極其擅長模擬人類的語言行為,但模擬語言行為和理解世界之間,差著一個認(rèn)識論的鴻溝。

比如身體感受,疼痛是怎樣的;空間直覺,知道怎么接住球但無法描述如何接住的;因果干預(yù)的具身反饋,比如如果“我把這個椅子推倒會怎樣”的直覺。這些隱藏在人類大腦中的“感覺”,從未被任何人類語言編碼過。所以它們從未進(jìn)入訓(xùn)練數(shù)據(jù),在token序列上做任何建模,無論參數(shù)多大、數(shù)據(jù)多多,都觸及不到這些維度。

這就是token范式的天花板。

02. “逃逸”實驗

從token空間逃逸的第一批實驗正在發(fā)生。

何愷明團(tuán)隊的ELF(Embedded Language Flows,嵌入式語言流)做了一件反直覺的事:把文字生成的全過程留在連續(xù)向量空間里完成,只在最后一步,真的只有最后一步,才把連續(xù)向量投影回人類可讀的文字。它用Flow Matching(一種2022年由Yaron Lipman等人提出的連續(xù)正則化流框架)從噪聲出發(fā),沿學(xué)習(xí)到的速度場平滑演化到目標(biāo)嵌入。32個采樣步,生成質(zhì)量超過離散模型用1024步的結(jié)果。訓(xùn)練數(shù)據(jù)約450億token,只有主流方法的十分之一。


圖:ELF僅用32步采樣即超越MDLM、Duo等離散模型1024步的生成質(zhì)量,且未使用蒸餾加速。模型參數(shù)105M,訓(xùn)練數(shù)據(jù)約為同類方法的十分之一。

四天后發(fā)布的Cola DLM(字節(jié)Seed團(tuán)隊):先用Text VAE把語言壓縮成更深層的語義潛空間,再在這個純語義空間里用Flow Matching建模全局先驗,最后才解碼回文字。論文明確說:擴(kuò)散過程做的是“潛在先驗運輸”,不是“token級別的觀測恢復(fù)”。20億參數(shù),8個基準(zhǔn),與同體量自回歸模型和已經(jīng)scale到1000億參數(shù)的LLaDA2.0嚴(yán)格對比,連續(xù)路線的scaling曲線是健康的。


圖:Cola DLM 整體架構(gòu)圖

兩篇論文的核心都在表達(dá),token不是語言建模的必要條件。連續(xù)空間可以做得更好、更快、更省。


圖:自回歸模型逐token生成,每一步不可逆選擇一個離散符號,已選token鎖定后續(xù)所有可能性。


圖:連續(xù)流模型從噪聲出發(fā),沿速度場平滑演化到目標(biāo)嵌入,全程可逆可調(diào),僅在終點映射回文字,ELF論文。

03. AI巨頭也在質(zhì)疑“Tokenization”?

這兩篇論文只是學(xué)術(shù)信號,科技巨頭也在用真金白銀下注。

Google是最早、也最堅定地走向“原生多模態(tài)統(tǒng)一”的巨頭。Gemini的技術(shù)報告明確寫道:它是“from the ground up”訓(xùn)練的多模態(tài)模型,“not by bolting a frozen vision encoder onto a text decoder”(不是把凍結(jié)的視覺編碼器接到文本解碼器上)。

文本、圖像、音頻、視頻在同一個模型里交錯訓(xùn)練,共享注意力層。這個設(shè)計哲學(xué)從2023年12月的Gemini 1.0延續(xù)到了2026年的3.1 Pro。2026年3月發(fā)布的Gemini Embedding 2把這件事推到了表征層面:一個embedding模型,原生接受文本、圖像、文檔、音頻、視頻輸入,全部映射到同一個3072維向量空間。

Google在做的事情,本質(zhì)上就是為所有模態(tài)建造一個統(tǒng)一的連續(xù)坐標(biāo)系,模態(tài)之間的邊界在這個坐標(biāo)系里不存在。

OpenAI走了一條更曲折的路。GPT-4V時代的架構(gòu)是拼接式的,由一個視覺編碼器外掛到語言模型上,跨模態(tài)信息需要經(jīng)過額外的投影層傳遞。GPT-5系列公開強(qiáng)化了多模態(tài)推理能力,但OpenAI并未披露足夠細(xì)的架構(gòu)信息。可以確定的是,OpenAI正在把文本、視覺、視頻等能力更深地整合進(jìn)核心模型體驗;不能確定的是,它是否已經(jīng)完成了統(tǒng)一Transformer層面的架構(gòu)切換。

根據(jù)外媒報道Sora運營期間“被員工視作拖累核心算力的吞金獸”。OpenAI選擇砍掉視頻應(yīng)用,把算力集中到GPT-5.5的Agent架構(gòu)和Codex代碼工具上。這也可以猜測:OpenAI認(rèn)同多模態(tài)統(tǒng)一的方向,但在視頻生成這個具體維度上暫時退場,等待更高效的架構(gòu)方案成熟后重新進(jìn)入。

字節(jié)跳動Seed團(tuán)隊在Cola DLM論文的最后一句話是“為離散文本與連續(xù)模態(tài)的統(tǒng)一建模指出了一條具體路徑”。Seed團(tuán)隊透露視頻生成模型Seedance系列已經(jīng)在使用類似的連續(xù)潛空間架構(gòu),獨特優(yōu)勢在于:它同時擁有抖音/TikTok級別的海量視頻數(shù)據(jù)和前沿模型研究能力。如果連續(xù)統(tǒng)一空間確實是下一代架構(gòu)的答案,字節(jié)是最有條件最先在工業(yè)規(guī)模驗證它的公司。

Anthropic的選擇是所有巨頭中最獨特的,它在刻意回避多模態(tài)生成。截至2026年5月,Claude沒有原生圖像生成能力,沒有視頻理解,沒有音頻處理。2026年4月發(fā)布的Claude Design生成的是結(jié)構(gòu)化設(shè)計產(chǎn)出物,原型圖、線框圖、幻燈片,而不是像素級圖像。

Anthropic把幾乎所有資源壓在文本推理和代碼執(zhí)行上。這個策略在商業(yè)上正在被驗證:Claude Code年化收入25億美元,2026年5月Anthropic隱含估值沖到1.2萬億美元(36氪報道),主要靠的是企業(yè)客戶為推理和代碼能力付費。但從范式演進(jìn)的角度看,這是一個在積累技術(shù)債的選擇。如果兩到三年后競爭的核心轉(zhuǎn)向“誰能在統(tǒng)一連續(xù)空間里同時理解和生成所有模態(tài)”,Anthropic就很被動。

在巨頭之外,兩個最值得關(guān)注的獨立押注來自Ilya Sutskever和Yann LeCun。Sutskever創(chuàng)辦的SSI(Safe Superintelligence)在2025年5月完成20億美元融資,估值320億美元——沒有產(chǎn)品、沒有論文、沒有任何公開技術(shù)細(xì)節(jié)。投資人買的純粹是他對“下一個范式”的判斷力。他在NeurIPS 2024所說的“預(yù)訓(xùn)練即將終結(jié)”,指的是靠堆數(shù)據(jù)預(yù)測next token的方式已到收益遞減階段,下一步需要的是質(zhì)變。

LeCun2026年3月離開工作超過十年的Meta,創(chuàng)辦AMI Labs,融資10.3億美元,估值35億。他的JEPA路線和ELF/Cola DLM哲學(xué)相通,都是離開token空間、在連續(xù)表征空間建模,但方向不同。JEPA不追求生成逼真的輸出,強(qiáng)調(diào)在抽象空間里預(yù)測事物演化的物理后果。

LeCun在5月的訪談中說:“自回歸機(jī)制逐個預(yù)測token,本質(zhì)是在字符級別做統(tǒng)計復(fù)現(xiàn),不是在建模世界的因果規(guī)律。參數(shù)量的增加解決不了這個結(jié)構(gòu)性缺陷。”他認(rèn)為,生成只是模擬,預(yù)測才是理解。

04. 如果token范式衰退,誰會沒有未來?

做視頻tokenizer的公司首當(dāng)其沖。VQ-VAE、MAGVIT、OmniTokenizer,這些工作的核心價值主張是“高質(zhì)量視頻離散編碼”。英偉達(dá)的Cosmos Tokenizer、微軟的VidTok,大廠也在競爭。如果語言生成都開始把核心計算遷移到連續(xù)空間,那么視頻這類天然連續(xù)的數(shù)據(jù),更沒有理由被默認(rèn)壓成離散token序列。

真正的問題會變成:什么樣的視覺表征既能高效壓縮,又能保留足夠的物理、時序和語義結(jié)構(gòu)。

然后是“多模態(tài)”這個產(chǎn)品敘事本身。當(dāng)所有模態(tài)共享一個連續(xù)空間時,“多模態(tài)能力”變成默認(rèn)配置,不再是差異化賣點。就像今天沒人把“支持中文和英文”當(dāng)成一個AI產(chǎn)品的核心競爭力。做模態(tài)橋接和對齊的中間層產(chǎn)品也面臨同樣的問題——如果基礎(chǔ)模型原生在統(tǒng)一空間運行,文本和視覺之間不存在需要被彌補(bǔ)的“鴻溝”,彌補(bǔ)鴻溝的生意就沒有理由存在。

再往下游推一步,今天整個行業(yè)按 token 收費,是因為自回歸模型的成本結(jié)構(gòu)極其透明,輸入輸出的token數(shù)直接可以算出算力消耗。

但如果核心計算遷移到連續(xù)空間,擴(kuò)散模型可能用固定步數(shù)生成任意長度文本,輸出長度與計算量脫鉤,“消耗了多少token”就不再是成本的真實度量。

只是,AI的發(fā)展太快,衡量AI商業(yè)價值的真正定價體系還沒固定下來,下一個范式可能就會發(fā)生。而具體會是多快,沒有人能夠預(yù)測。

05. 大語言模型能走到AGI嗎?

回到開頭的問題,大語言模型范式能走到AGI嗎?

從token范式本身的結(jié)構(gòu)來看,不能,它的訓(xùn)練信號有信息論上的硬上限。人類語言作為有損壓縮協(xié)議,在編碼時就不可逆地丟棄了世界的大量結(jié)構(gòu)。在壓縮產(chǎn)物上做任何建模,都還原不了被丟棄的維度。

但“殺死tokenization”也不等于到達(dá)AGI。ELF和Cola DLM證明了連續(xù)空間更高效、更優(yōu)雅,但它們的訓(xùn)練數(shù)據(jù)仍然來自人類產(chǎn)出的內(nèi)容,一個有損壓縮后的世界。LeCun看到了這一層,所以他押注“能預(yù)測物理后果的世界模型”。Sutskever大概也看到了。

但這也許只是第一步,如果模型不再受困于人類語言的壓縮格式時,它需要的新訓(xùn)練信號從哪里來?

答案大概不在更多的數(shù)據(jù)里,而在某種主動探索中——在世界中行動,承受后果,從反饋中學(xué)習(xí)。也是現(xiàn)在關(guān)注度十分高的RSI, AI 的遞歸自我改進(jìn)(Recursive Self-Improvement)。

本文來自公眾號:騰訊科技 作者:曉靜 編輯:徐青陽

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《迷墻》央視首播收視第1,觀眾評價一針見血,郭京飛成最大炮火

《迷墻》央視首播收視第1,觀眾評價一針見血,郭京飛成最大炮火

娛君墜星河
2026-06-11 00:10:06
特雷·楊:被老鷹交易前隊內(nèi)氛圍很怪,為體面主動表示愿意去奇才

特雷·楊:被老鷹交易前隊內(nèi)氛圍很怪,為體面主動表示愿意去奇才

新殺豬的秀才
2026-06-10 22:10:04
哈飛傾轉(zhuǎn)旋翼機(jī)試飛成功,打破美國40年壟斷

哈飛傾轉(zhuǎn)旋翼機(jī)試飛成功,打破美國40年壟斷

開著車去流浪
2026-06-09 19:40:01
1991年,22歲的許晴解開衣襟喂奶,導(dǎo)致電影《狂》被封12年

1991年,22歲的許晴解開衣襟喂奶,導(dǎo)致電影《狂》被封12年

她時尚丫
2026-04-12 23:05:31
重慶市2026年養(yǎng)老金調(diào)整,工齡15年和40年,增長差距能有多少?

重慶市2026年養(yǎng)老金調(diào)整,工齡15年和40年,增長差距能有多少?

暖心人社
2026-06-10 17:55:37
又一“國民飲料”塌房,背后全是科技與狠活,網(wǎng)友:又搞擦邊

又一“國民飲料”塌房,背后全是科技與狠活,網(wǎng)友:又搞擦邊

南宗歷史
2026-06-10 19:15:07
朝鮮戰(zhàn)爭心酸往事,300歸國女戰(zhàn)俘帶回百余嬰兒,一問生父戳痛眾人

朝鮮戰(zhàn)爭心酸往事,300歸國女戰(zhàn)俘帶回百余嬰兒,一問生父戳痛眾人

磊子講史
2026-06-09 11:25:33
純電續(xù)航605km 吉利銀河星艦7 EV上市,售價9.98萬起

純電續(xù)航605km 吉利銀河星艦7 EV上市,售價9.98萬起

車市紅點
2026-06-10 18:27:32
江蘇常州一女神 仙姿玉色 堪稱上帝吻過的容顏 美得讓人移不開眼

江蘇常州一女神 仙姿玉色 堪稱上帝吻過的容顏 美得讓人移不開眼

東方不敗然多多
2026-06-09 13:30:38
中國在西藏發(fā)現(xiàn)“大熊貓級”礦藏!撕開美方“封鎖圈”

中國在西藏發(fā)現(xiàn)“大熊貓級”礦藏!撕開美方“封鎖圈”

金投網(wǎng)
2026-06-08 20:13:46
155就被叫高達(dá)?看完身高分級,終于懂了日漫女主為什么都很矮

155就被叫高達(dá)?看完身高分級,終于懂了日漫女主為什么都很矮

國創(chuàng)漫話
2026-06-03 08:48:59
董路拿到歐洲最佳教練獎,到底打了誰的臉?

董路拿到歐洲最佳教練獎,到底打了誰的臉?

吳學(xué)華看天下
2026-06-08 17:42:01
最美人體藝術(shù),美的讓人無法自拔!

最美人體藝術(shù),美的讓人無法自拔!

國際藝術(shù)大觀
2026-06-09 21:18:40
人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

人大代表建議機(jī)關(guān)事業(yè)單位雙休制調(diào)整為“大周休3天,小周休2天”

細(xì)說職場
2026-05-10 10:34:41
不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
鬧大了?《奔跑吧》被曝停播,本周播出已取消,工作人員承認(rèn)收費

鬧大了?《奔跑吧》被曝停播,本周播出已取消,工作人員承認(rèn)收費

萌神木木
2026-06-10 16:21:44
全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨大A散戶鎖死T+1

全球最割裂的股市規(guī)則!全世界都是自由T+0,唯獨大A散戶鎖死T+1

王二哥老搞笑
2026-06-09 20:28:44
陪睡只是入門!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

陪睡只是入門!認(rèn)干爹、舔手指,背地里的陰暗面完全藏不住了...

芳華青年
2026-05-18 13:07:54
多省要求提高國企收益上繳財政比例,讓財政騰出資金改善民生!

多省要求提高國企收益上繳財政比例,讓財政騰出資金改善民生!

燈錦年
2026-06-10 17:56:40
健身20年究竟能改變什么?這個50歲男人給出了答案!!

健身20年究竟能改變什么?這個50歲男人給出了答案!!

健身S叔
2026-06-10 15:40:26
2026-06-11 03:23:00
人人都是產(chǎn)品經(jīng)理社區(qū) incentive-icons
人人都是產(chǎn)品經(jīng)理社區(qū)
想要成為大牛先從學(xué)做產(chǎn)品開始
64806文章數(shù) 311631關(guān)注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應(yīng)2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發(fā)文開撕白鹿!輿論再次反轉(zhuǎn)

財經(jīng)要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態(tài)度原創(chuàng)

手機(jī)
教育
時尚
數(shù)碼
旅游

手機(jī)要聞

影石勁敵登場!大疆Pocket 4P有望6月15日發(fā)布 3799元起

教育要聞

有這個AI!你再也不會被外面的志愿填報機(jī)構(gòu)騙了

夏天別總穿黑色長褲,不如看看這些牛仔裙,減齡百搭又耐看

數(shù)碼要聞

Marshall發(fā)布Stockwell III:售1699元 搭載360°環(huán)繞立體聲

旅游要聞

青島檳城文旅聯(lián)動推介會落幕 打造一場雙向奔赴的文旅對話

無障礙瀏覽 進(jìn)入關(guān)懷版