无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

“Token”必須死?

0
分享至

訂閱 快刀財經 ▲ 做您的私人商學院


大語言模型范式能走到AGI嗎?

作者:曉靜

來源:騰訊科技(ID: qqtech )

“我語言的局限,即意味著我世界的局限。”( Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt. )

哲學家維特根斯坦在1921年寫下這句話時,他談論的是人類認知的邊界。一百年后,這句話精確地描述了大語言模型面臨的結構性困境,如果AI的“語言”就是離散token序列,那么它的“世界”永遠被困在token能表達的范圍內。

這也引出了一個老生常談的問題:大語言模型范式能走到AGI(通用人工智能)嗎?

2024年12月,OpenAI 前首席科學家Ilya Sutskever在NeurIPS發表主題演講,他說“預訓練即將終結”。2026年3月,圖靈獎得主Yann LeCun離開Meta創辦AMI Labs,直接宣判“大語言模型路線錯了”。

兩位深度學習殿堂級的大師,一位選擇顛覆自己親手開啟的預訓練時代,另一位選擇繼續踐行自己堅守多年的世界模型路線,去賭“LLM的下一個時代”。

當然絕對不是當前的模型不好用或沒有商業價值,大模型的用戶數量及滲透率都在持續增長,產業價值會越來越大。但是從技術路徑來看,他們要表達的是:這條路有一個結構性的天花板,這個天花板恰好卡在通往AGI(通用人工智能)的路上。

2026年5月,MIT何愷明團隊和字節跳動Seed實驗室幾乎同時發布論文,給出了一個更明確的信號:語言生成的核心建模過程不必始終發生在離散token空間中,也可以轉移到連續embedding或latent空間里完成,最后再映射回文本。

這是第一批來自工程實驗的硬證據,逐token預測可能是通向AGI路上的一個局部最優解。但連續空間范式打開了另一條路,這條路的天花板也許更高。


▲圖:美國國家人工智能科學院院士,麻省理工學院電氣工程與計算機科學系副教授何愷明,圖片由AI生成

01

天花板在哪?

維特根斯坦的話可以這樣理解。

人類的離散語言不是思維的原生格式。大腦內部的認知活動是連續的、并行的、高維的。比如人類想到一個蘋果時,激活的不是“蘋果”兩個字的token,而是一大片感覺皮層的連續活動模式,包括顏色、質感、重量、咬下去的聲音。人之所以把這團連續體驗壓縮成“蘋果”這個離散符號,純粹是因為人類大腦的帶寬逼你序列化。

人類語言是進化設計的有損壓縮協議,它是跨腦傳輸的工程妥協。

我們目前用到的主流的商業化大模型產品,底層都是自回歸架構(預測下一個token)。

自回歸大模型做的事情是,在這個壓縮協議的輸出格式上建模。它無法理解“世界如何運作”,它了解的是“人類選擇用什么符號序列來描述世界”。它們極其擅長模擬人類的語言行為,但模擬語言行為和理解世界之間,差著一個認識論的鴻溝。

比如身體感受,疼痛是怎樣的;空間直覺,知道怎么接住球但無法描述如何接住的;因果干預的具身反饋,比如如果“我把這個椅子推倒會怎樣”的直覺。這些隱藏在人類大腦中的“感覺”,從未被任何人類語言編碼過。所以它們從未進入訓練數據,在token序列上做任何建模,無論參數多大、數據多多,都觸及不到這些維度。

這就是token范式的天花板。

02

“逃逸”實驗

從token空間逃逸的第一批實驗正在發生。

何愷明團隊的ELF(Embedded Language Flows,嵌入式語言流)做了一件反直覺的事:把文字生成的全過程留在連續向量空間里完成,只在最后一步,真的只有最后一步,才把連續向量投影回人類可讀的文字。它用Flow Matching(一種2022年由Yaron Lipman等人提出的連續正則化流框架)從噪聲出發,沿學習到的速度場平滑演化到目標嵌入。32個采樣步,生成質量超過離散模型用1024步的結果。訓練數據約450億token,只有主流方法的十分之一。


▲圖:ELF僅用32步采樣即超越MDLM、Duo等離散模型1024步的生成質量,且未使用蒸餾加速。模型參數105M,訓練數據約為同類方法的十分之一

四天后發布的Cola DLM(字節Seed團隊):先用Text VAE把語言壓縮成更深層的語義潛空間,再在這個純語義空間里用Flow Matching建模全局先驗,最后才解碼回文字。論文明確說:擴散過程做的是“潛在先驗運輸”,不是“token級別的觀測恢復”。20億參數,8個基準,與同體量自回歸模型和已經scale到1000億參數的LLaDA2.0嚴格對比,連續路線的scaling曲線是健康的。


▲圖:Cola DLM 整體架構圖

兩篇論文的核心都在表達,token不是語言建模的必要條件。連續空間可以做得更好、更快、更省。


▲圖:自回歸模型逐token生成,每一步不可逆選擇一個離散符號,已選token鎖定后續所有可能性。


▲圖:連續流模型從噪聲出發,沿速度場平滑演化到目標嵌入,全程可逆可調,僅在終點映射回文字,ELF論文。

03

AI巨頭也在質疑

“Tokenization”?

這兩篇論文只是學術信號,科技巨頭也在用真金白銀下注。

Google是最早、也最堅定地走向“原生多模態統一”的巨頭。Gemini的技術報告明確寫道:它是“from the ground up”訓練的多模態模型,“not by bolting a frozen vision encoder onto a text decoder”(不是把凍結的視覺編碼器接到文本解碼器上)。

文本、圖像、音頻、視頻在同一個模型里交錯訓練,共享注意力層。這個設計哲學從2023年12月的Gemini 1.0延續到了2026年的3.1 Pro。2026年3月發布的Gemini Embedding 2把這件事推到了表征層面:一個embedding模型,原生接受文本、圖像、文檔、音頻、視頻輸入,全部映射到同一個3072維向量空間。

Google在做的事情,本質上就是為所有模態建造一個統一的連續坐標系,模態之間的邊界在這個坐標系里不存在。

OpenAI走了一條更曲折的路。GPT-4V時代的架構是拼接式的,由一個視覺編碼器外掛到語言模型上,跨模態信息需要經過額外的投影層傳遞。GPT-5系列公開強化了多模態推理能力,但OpenAI并未披露足夠細的架構信息。可以確定的是,OpenAI正在把文本、視覺、視頻等能力更深地整合進核心模型體驗;不能確定的是,它是否已經完成了統一Transformer層面的架構切換。

根據外媒報道Sora運營期間“被員工視作拖累核心算力的吞金獸”。OpenAI選擇砍掉視頻應用,把算力集中到GPT-5.5的Agent架構和Codex代碼工具上。這也可以猜測:OpenAI認同多模態統一的方向,但在視頻生成這個具體維度上暫時退場,等待更高效的架構方案成熟后重新進入。

字節跳動Seed團隊在Cola DLM論文的最后一句話是“為離散文本與連續模態的統一建模指出了一條具體路徑”。Seed團隊透露視頻生成模型Seedance系列已經在使用類似的連續潛空間架構,獨特優勢在于:它同時擁有抖音/TikTok級別的海量視頻數據和前沿模型研究能力。如果連續統一空間確實是下一代架構的答案,字節是最有條件最先在工業規模驗證它的公司。

Anthropic的選擇是所有巨頭中最獨特的,它在刻意回避多模態生成。截至2026年5月,Claude沒有原生圖像生成能力,沒有視頻理解,沒有音頻處理。2026年4月發布的Claude Design生成的是結構化設計產出物,原型圖、線框圖、幻燈片,而不是像素級圖像。

Anthropic把幾乎所有資源壓在文本推理和代碼執行上。這個策略在商業上正在被驗證:Claude Code年化收入25億美元,2026年5月Anthropic隱含估值沖到1.2萬億美元(36氪報道),主要靠的是企業客戶為推理和代碼能力付費。但從范式演進的角度看,這是一個在積累技術債的選擇。如果兩到三年后競爭的核心轉向“誰能在統一連續空間里同時理解和生成所有模態”,Anthropic就很被動。

在巨頭之外,兩個最值得關注的獨立押注來自Ilya Sutskever和Yann LeCun。Sutskever創辦的SSI(Safe Superintelligence)在2025年5月完成20億美元融資,估值320億美元——沒有產品、沒有論文、沒有任何公開技術細節。投資人買的純粹是他對“下一個范式”的判斷力。他在NeurIPS 2024所說的“預訓練即將終結”,指的是靠堆數據預測next token的方式已到收益遞減階段,下一步需要的是質變。

LeCun2026年3月離開工作超過十年的Meta,創辦AMI Labs,融資10.3億美元,估值35億。他的JEPA路線和ELF/Cola DLM哲學相通,都是離開token空間、在連續表征空間建模,但方向不同。JEPA不追求生成逼真的輸出,強調在抽象空間里預測事物演化的物理后果。

LeCun在5月的訪談中說:“自回歸機制逐個預測token,本質是在字符級別做統計復現,不是在建模世界的因果規律。參數量的增加解決不了這個結構性缺陷。”他認為,生成只是模擬,預測才是理解。

04

如果token范式衰退,

誰會沒有未來?

做視頻tokenizer的公司首當其沖。VQ-VAE、MAGVIT、OmniTokenizer,這些工作的核心價值主張是“高質量視頻離散編碼”。英偉達的Cosmos Tokenizer、微軟的VidTok,大廠也在競爭。如果語言生成都開始把核心計算遷移到連續空間,那么視頻這類天然連續的數據,更沒有理由被默認壓成離散token序列。

真正的問題會變成:什么樣的視覺表征既能高效壓縮,又能保留足夠的物理、時序和語義結構。

然后是“多模態”這個產品敘事本身。當所有模態共享一個連續空間時,“多模態能力”變成默認配置,不再是差異化賣點。就像今天沒人把“支持中文和英文”當成一個AI產品的核心競爭力。做模態橋接和對齊的中間層產品也面臨同樣的問題——如果基礎模型原生在統一空間運行,文本和視覺之間不存在需要被彌補的“鴻溝”,彌補鴻溝的生意就沒有理由存在。

再往下游推一步,今天整個行業按 token 收費,是因為自回歸模型的成本結構極其透明,輸入輸出的token數直接可以算出算力消耗。

但如果核心計算遷移到連續空間,擴散模型可能用固定步數生成任意長度文本,輸出長度與計算量脫鉤,“消耗了多少token”就不再是成本的真實度量。

只是,AI 的發展太快,衡量 AI商業價值的真正定價體系還沒固定下來,下一個范式可能就會發生。而具體會是多快,沒有人能夠預測。

05

大語言模型能走到AGI嗎?

回到開頭的問題,大語言模型范式能走到AGI嗎?

從token范式本身的結構來看,不能,它的訓練信號有信息論上的硬上限。人類語言作為有損壓縮協議,在編碼時就不可逆地丟棄了世界的大量結構。在壓縮產物上做任何建模,都還原不了被丟棄的維度。

但“殺死tokenization”也不等于到達AGI。ELF和Cola DLM證明了連續空間更高效、更優雅,但它們的訓練數據仍然來自人類產出的內容,一個有損壓縮后的世界。LeCun看到了這一層,所以他押注“能預測物理后果的世界模型”。Sutskever大概也看到了。

但這也許只是第一步,如果模型不再受困于人類語言的壓縮格式時,它需要的新訓練信號從哪里來?

答案大概不在更多的數據里,而在某種主動探索中——在世界中行動,承受后果,從反饋中學習。也是現在關注度十分高的RSI, AI 的遞歸自我改進(Recursive Self-Improvement)。這也將是我們在后面的文章中,繼續討論的主題。


THE END


快刀財經

快刀斬亂麻,財經見真章。專注互聯網以及互聯網正在影響的其他行業。微觀角度展現宏大商業敘事,做您的私人商學院。致力于為用戶提供營銷策劃、社群電商、創業投資和知識充電服務。

投稿、轉載、內容合作,請添加微信ikuaidao

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

王毅收到蒙古國外長的邀請,稀土外運日本一事,想聽聽中方想法?

共工之錨
2026-06-13 00:25:29
小米徐潔云回應“雷軍用私家車裝600斤車厘子被指違規”:是園區內部路,外部車輛進不來,1000斤車厘子要搬到園區不同地方,還是用車方便

小米徐潔云回應“雷軍用私家車裝600斤車厘子被指違規”:是園區內部路,外部車輛進不來,1000斤車厘子要搬到園區不同地方,還是用車方便

瀟湘晨報
2026-06-13 10:33:11
男子在KTV和女友吵架時用啤酒瓶刺死自己,家屬向KTV及女友索賠近20萬;法院:女方賠償3萬,KTV不擔責

男子在KTV和女友吵架時用啤酒瓶刺死自己,家屬向KTV及女友索賠近20萬;法院:女方賠償3萬,KTV不擔責

都市快報橙柿互動
2026-06-13 00:22:40
意想不到!美國主導比賽,巴拉圭疲于奔命,美國4比1大勝

意想不到!美國主導比賽,巴拉圭疲于奔命,美國4比1大勝

澎湃新聞
2026-06-13 11:06:27
克羅地亞美女總統,身材豐滿穿緊身球衣助陣,是世界杯頭號女球迷

克羅地亞美女總統,身材豐滿穿緊身球衣助陣,是世界杯頭號女球迷

秋姐居
2026-06-12 22:00:29
湖北恩施女家長私密視頻曝光,身材出眾,視頻過程真的讓人臉紅

湖北恩施女家長私密視頻曝光,身材出眾,視頻過程真的讓人臉紅

李昕言溫度空間
2026-06-13 07:55:30
巨大爭議!韓國 2 比 1 贏捷克,捷克球迷怒批:這是偷來的勝利

巨大爭議!韓國 2 比 1 贏捷克,捷克球迷怒批:這是偷來的勝利

十點體壇
2026-06-12 13:50:50
鄧正紅軟實力哲學:重構科學哲學基礎 揭示宇宙規則本體演化機制

鄧正紅軟實力哲學:重構科學哲學基礎 揭示宇宙規則本體演化機制

鄧正紅軟實力
2026-06-13 11:56:26
好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

好恐怖的天倫之樂!女子曬家庭聚會,面和心不和被演繹得淋漓盡致

林林先生
2026-06-13 10:25:06
演都不演了?泰國長公主去世僅1天,死因被扒,李嘉誠意外被牽連

演都不演了?泰國長公主去世僅1天,死因被扒,李嘉誠意外被牽連

花語舞者
2026-06-13 07:30:11
淚目!廣西18歲女子捐獻器官助他人重獲新生

淚目!廣西18歲女子捐獻器官助他人重獲新生

極目新聞
2026-06-13 11:45:15
那位差點改寫泰國歷史的長公主走了,小孩都能扛過去的病終結了她

那位差點改寫泰國歷史的長公主走了,小孩都能扛過去的病終結了她

普陀動物世界
2026-06-12 18:32:23
到底真的假的?網傳幾乎所有大學專業都在勸退…

到底真的假的?網傳幾乎所有大學專業都在勸退…

慧翔百科
2026-06-12 17:40:37
拜仁將2500萬求購拉什福德,曼聯愿接受!拉師傅同意三條件可加盟

拜仁將2500萬求購拉什福德,曼聯愿接受!拉師傅同意三條件可加盟

羅米的曼聯博客
2026-06-13 11:44:48
中方宣布對菲制裁令,不到24小時,菲防長對華發聲,態度很強硬

中方宣布對菲制裁令,不到24小時,菲防長對華發聲,態度很強硬

李健政觀察
2026-06-12 15:05:01
馬理論畢業即失業?河南大學同室4人的不同人生

馬理論畢業即失業?河南大學同室4人的不同人生

霹靂炮
2026-06-12 23:18:18
私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

私生活混亂,從央視主持到勞改犯,如今靠直播打賞討生活

素衣讀史
2026-06-11 21:56:30
惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾…

惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾…

看看新聞Knews
2026-06-12 22:37:03
馬斯克遠程敲鐘穿了老黃的皮衣!SpaceX員工集體穿上綠鞋

馬斯克遠程敲鐘穿了老黃的皮衣!SpaceX員工集體穿上綠鞋

量子位
2026-06-13 12:03:36
身背8項強奸指控!32歲加納中場被拒絕入境加拿大 無緣首場小組賽

身背8項強奸指控!32歲加納中場被拒絕入境加拿大 無緣首場小組賽

風過鄉
2026-06-13 05:19:23
2026-06-13 13:32:49
快刀財經 incentive-icons
快刀財經
商業快媒體,思維孵化器。
5106文章數 20255關注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

養生館在洗腸液中摻醬油 北京100多名老人被坑上千萬

頭條要聞

養生館在洗腸液中摻醬油 北京100多名老人被坑上千萬

體育要聞

東道主三戰不敗!美墨開門紅加拿大零的突破

娛樂要聞

12年情懷碎一地!跑男接連翻車

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

2026重慶車展 長城炮Hi4-T正式上市售14.98萬起

態度原創

游戲
家居
本地
親子
公開課

第一人稱類魂太難做!新游團隊揭秘背后挑戰

家居要聞

空間微調 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

親子要聞

如何給寶寶做社交啟蒙?從和同齡人互動開始

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版