網易首頁 > 網易號 > 正文申請入駐

圖靈獎得主LeCun最新預言：大模型正在逼近它的天花板

2026-06-30 15:23:16　來源: 人工智能學家

北京舉報

分享至

來源：星云創聯AI智庫

你可能還在用AI寫報告，驚嘆于它的無所不知。

但圖靈獎得主、深度學習三巨頭之一的Yann LeCun，卻在各種場合不斷給這股狂熱潑冷水。

他的觀點散落在無數推文和訪談中，常常被斷章取義。

這一次，我們把他的所有判斷系統地連成一條線。

大模型這條路，到底能走多遠？

01 那個被捧上神壇的預測游戲，其實根本沒有學會理解世界

LeCun的態度非常務實。

他自己每天也在用大語言模型，承認它們是極具價值的基礎設施。

但他堅信，這絕不是通往通用智能的正確路徑。

這與OpenAI和Google那些堅信“只要規模足夠大就能通關”的研究者，有著根本性的分歧。

大模型表現得再好，和真正的智能之間，也存在著一道無法逾越的裂縫。

想象一個簡單的場景。

你問AI：“我需要洗車，洗車店離我家100米，我應該走路去嗎？”

之前測試，有AI會頭頭是道地建議你走路去，理由是100米很近、省油、環保。

它甚至把“車必須被開到現場”這個最基本的物理前提，降格為無關緊要的例外。

它在解決一個根本不存在的問題。

你不需要思考就知道必須開車去，因為你要洗的是車。

但模型只抓住了“100米很近”的表層線索，在符號的統計規律里尋找下一個詞。

它根本沒有理解“洗車”這一行為在物理世界中的真實約束。

這并不是我們常說的“幻覺”，而是更深層的結構性盲區。

它缺少現實世界運行規律的內部表征。

現在的各種改進，比如調用工具、優化提示詞，都只是在給汽車換更好的輪胎。

汽車原本的工作原理沒有變，它學到的依然是語言符號的統計學，而不是現實。

有人試圖通過多模態訓練來打破這個限制，讓模型同時看視頻、聽聲音。

但在LeCun看來，如果訓練目標仍然只是預測觀測數據本身，多模態也救不了它。

大模型的成功，恰恰建立在語言是離散符號這一前提上。

因為目標具體，詞表固定，損失函數明確，所以它極其擅長規則明確、可客觀驗證的數學和代碼。

但知道怎么做，不等于理解為什么。

它更像是一個做了十萬道例題的學生，習得了模式，卻不懂規律。

預訓練就像是在空地上建了一座藏書海量的圖書館。

后訓練的對齊，則只是培訓了一個知道該怎么說話的圖書館員。

書的內容沒變，改變的只是服務態度。

即使引入鏈式推理或蒙特卡洛樹搜索，它也無法復刻AlphaGo Zero的奇跡。

因為圍棋有明確規則和即時反饋，而現實任務根本沒有這種清晰的轉移狀態。

更現實的危機是，高質量的人類文本數據快要枯竭了。

Epoch AI估算，全球高質量公開文本大約在300萬億Token左右。

而像Llama 3-70B訓練就已經消耗了7000億Token。

按照目前的消耗速度，數據瓶頸將在2025到2030年之間轟然降臨。

為了自救，AI公司開始轉向版權數據和合成數據。

但這會引發可怕的“模型崩塌”。

當AI開始大量吃進AI自己生成的、未經篩選的數據，偏差就會像雪崩一樣累積。

最終，模型會丟失那些稀有但重要的真實信息，變得越來越單調、失真。

數據墻只是外部約束，真正的死穴在它的內部架構。

02 為什么我們不能指望一個沒有后果反饋的系統去規劃未來

真正的智能，不僅要能描述世界，還必須能預測自己的行動會帶來什么后果。

你在過馬路時，大腦會自動模擬：現在走會不會被撞？等幾秒是不是更安全？

你不需要真的走過去試錯，而是在腦海中用一個簡化的世界模型完成了預演。

大模型沒有這個內部模擬器。

對它來說，輸出每一個詞就是它的“行動”。

它只是在用文字模仿對世界的描述，而不是在內部模擬世界的運行。

這就是第一個致命缺口：缺少對行動后果的預測能力。

不僅如此，智能還需要規劃。

你要去巴黎，會在腦海中比較直飛、轉機、高鐵的代價與收益。

大模型則是逐個詞順序輸出的，它無法在腦子里構想多個未來，再挑出最優的一條。

它的多路徑搜索，只是在語言空間里換一種“說法”。

而真正的規劃，是在物理狀態空間里換一種“走法”。

《自然·神經科學》的一篇論文指出，大腦本質上是一臺預測機器，感知只是為了校正預測。

因為處理感官信號需要時間，大腦必須提前下注，用預測跑在現實前面。

大模型不需要承受任何后果，它的上一個詞和下一個詞之間，沒有物理世界的反饋。

為了解決這個問題，LeCun提出了JEPA架構。

它以配置器為核心，統籌感知、世界模型、成本模塊、短期記憶和執行器，在行動前先在內部進行模擬。

沒有預測，搜索就會變成盲目的窮舉。

圍棋有 $10^{170}$ 種可能，AlphaGo能贏是因為有價值網絡這個“世界模型”來剪枝。

大模型的搜索依然在語言空間，它比較的是“哪段話聽起來更像好計劃”。

而JEPA直接在世界模型構建的狀態空間里推演，讓執行器提出行動，世界模型預測狀態，成本模塊評估，滾動多步。

這些缺口，是無法通過打補丁來修復的。

無論是檢索增強、工具調用還是反思鏈路，都只是在外部疊加能力。

它們面臨著無法繞過的墻：

規劃依然在語言空間，與真實狀態空間存在無法填補的鴻溝。

泛化極度依賴示范數據。

17歲孩子20小時就能學會開車，而自動駕駛采集了數百萬公里依然在復雜場景下不穩定。

因為人類有物理世界模型能舉一反三，而數據驅動只是在死記硬背。

安全約束是后訓練硬貼上去的，不僅有損，還極易被越獄。

通過人類反饋強化學習做對齊，會讓模型變得保守，且文言文或罕見語言提示詞輕易就能繞過過濾。

它只是讓輸出看起來合規，并沒有讓模型理解為什么有害。

常識缺失無法靠數據堆砌解決。

冬天要不要放掉室外水管的水，這種因果判斷對人是常識，對大模型卻是盲區。

03 那個被寄予厚望的具身智能大腦，為什么在現實中碰了壁

既然純語言不行，那加上身體和感知呢？

這就是曾經讓二級市場瘋狂的VLA（視覺-語言-動作）模型。

RT-2的發布曾讓人以為具身智能商業化提前了三年。

但當它走進真實場景，可靠性不足、數據依賴重、泛化脆弱的毛病暴露無遺。

LeCun在訪談中給出了最直接的判詞：“VLA現在基本上被視為失敗。”

VLA嘗試把視覺、語言和動作塞進一個端到端的統一系統。

看見環境，理解指令，聯合推理，然后直接生成機器人的控制指令。

這看似合理，實則是路線的錯配。

語言是離散的，物理世界是連續且復雜的。

2025年軟件工程頂會FSE發表的《VLATest》對七個代表性VLA模型進行了模糊測試。

結論非常殘酷：稍微改變相機視角、光照條件、物體遮擋，模型的魯棒性就會崩潰。

隨后的《LIBERO-Plus》研究更發現，適度的擾動能讓VLA的成功率從95%驟降到30%以下。

更諷刺的是，實驗表明，VLA模型在相當程度上忽略了語言指令，只依賴視覺線索。

它本質上是在做視覺模式匹配，而不是理解因果。

在軟件里錯可以重試，但在物理世界，機器人的錯誤動作往往不可逆，代價極其高昂。

而且，VLA的數據成本高得嚇人。

大模型的數據有通用遷移性，但VLA的模仿學習數據沒有。

每個新任務、新環境，都要重新收集演示數據，成本呈線性甚至超線性增長。

2026年ICLR的論文《From Seeing to Doing》指出，由于具身數據的稀缺，VLA無法實現魯棒的零樣本性能，最佳模型的成功率僅為72%。

它無法進行顯式的多步規劃，只能自回歸地問“下一個動作是什么”。

理想汽車基座模型負責人在2026年GTC大會上痛陳：3D空間理解對齊效率低、決策延遲長、長尾場景無法突破。

北大王勇濤團隊也指出其三大缺陷：隱式規則導致罕見場景泛化差、模態推理割裂、價值對齊缺失。

既然如此，為什么Google、NVIDIA、Figure等巨頭還在瘋狂押注VLA？

因為工業界和LeCun的視角不同。

LeCun看重的是通往AGI的終極路徑，而巨頭們需要解決未來三到五年的商業落地。

首先，VLA擁有目前最成熟的工程技術棧，不需要等待理論突破。

其次，倉庫分揀、工廠裝配等任務，并不需要完美的“世界模型”，只要在固定環境里達到95%的成功率就有商業價值。

最后，VLA也在不斷吸收世界模型的思想，引入狀態預測和強化學習。

未來，或許不是誰取代誰，而是分工協作。

但要實現通用具身智能，我們必須尋找新的方向。

世界模型并不是新概念。

從卡爾曼濾波、Dyna架構，到Ha的深度世界模型、PlaNet、Dreamer，再到MuZero，研究者一直在探索。

而JEPA的獨特價值，在于完全拋棄了像素重建，在潛在空間中學習“可預測的表征”。

04 別再試圖讓AI畫出世界，它只需要在腦海里預判倒下的水瓶

LeCun對世界模型的定義非常精煉：讓智能體預測自身行動后果的事物。

它存在的意義是服務于規劃，而不是畫出精美的畫面。

他用一個水瓶做類比。

一個裝滿水沒有蓋子的水瓶，你推它底部它會滑動，推頂部它會翻倒。

但你無法精確預測它倒下的具體方向，更不可能在像素級別預判每一個水滴的飛濺。

這說明，人類對世界的預測是在抽象表征層進行的。

試圖在像素空間做預測，會遭遇不可約的不確定性和維度的詛咒。

一張256x256的圖片有近20萬個維度，而語義表征可能只有192維。

像素預測會把寶貴的算力浪費在重建紋理、光照、陰影等對決策毫無意義的細節上。

在信息論中，像素空間的條件熵極高，而語義空間的條件熵低且結構化。

人類大腦不會進行“像素級心理渲染”，JEPA正是對這一生物直覺的模擬。

這里存在一個關鍵的分叉：生成式世界模型（如Sora、Genie） vs JEPA。

生成式路線試圖重建所有觀測細節，訓練目標包含大量不可預測的噪聲。

LeCun認為這會導致浪費容量、因果混淆，且無法在潛在空間做動作優化。

他在FAIR主導的掩碼自編碼器（MAE）項目，結果就非常令人失望。

而JEPA完全在語義表征空間中運行。

它使用聯合編碼器將兩個不同視角的觀測映射到潛在空間，用預測器在潛在空間推演，通過梯度截斷防止偷懶。

最近，LeCun唯一推薦的論文《LeWorldModel》（2026年3月發表）驗證了這一路線。

它的編碼器采用ViT-Tiny架構，使用Batch Normalization而非LayerNorm，以釋放方差。

預測器是一個10M參數的Transformer，動作條件通過自適應層歸一化注入。

它的訓練目標極其干凈：預測損失加上防止坍縮的SIGReg正則化。

在Push-T任務中，LeWorldModel取得了96%的成功率，比PLDM提升了18%。

同等算力下，它的token數量減少了200倍，規劃速度比DINO-WM快了近50倍。

雖然它在視覺豐富的3D環境（如OGBench-Cube）中因缺乏大規模預訓練先驗而略遜于DINO-WM，但它證明了端到端隱世界模型的工程可行性。

當然，它目前仍有局限：自回歸誤差會隨規劃長度累積，難以進行長程推理；且高度依賴高交互覆蓋度的離線數據，在簡單場景下SIGReg強制匹配高斯分布會導致表征學習困難。

但它在工業領域的短期價值已經顯現。

噴氣發動機、化工廠、發電廠等復雜系統，無法用方程建模，卻可以通過世界模型來預測控制變量改變后的后果。

這是比機器人更近的落地場景，也是AMI Labs的優先方向。

05 解決自監督學習最棘手的作弊，需要一場數學上的降維打擊

神經網絡在訓練時有一個天然的惰性：如果可以，它會選擇最省力的方法。

在自監督學習中，這個惰性會導致致命的“表征坍縮”。

模型會把所有不同的輸入，都映射成同一個向量。

這樣預測器每次都“猜對了”，損失函數一路走低，表面成功，實則成了毫無用處的白癡。

為了對付這個“作弊解”，學術界嘗試了三條路線。

第一條是對比學習。

它的邏輯很直觀：把相似的拉近，把不同的推開。

但在高維潛在空間里，空間極度稀疏，隨機采樣的負樣本大多天然就很遠，對訓練毫無貢獻。

而真正有價值的困難負樣本又極度稀缺。

這就陷入了欠采樣導致坍縮，或過度采樣破壞語義的兩難境地。

第二條是蒸餾方法，比如BYOL和DINO。

它讓學生網絡去追一個通過指數移動平均緩慢移動的老師網絡。

LeCun對這種方法的評價很微妙：“我們不喜歡它，但它確實有效。”

因為它的目標一直在移動，你監控的損失函數根本不等于真實的優化目標。

損失下降不代表表征變好，訓練過程就像一個無法解釋的黑箱。

第三條是顯式正則化，這是LeCun最看好的方向。

VICReg通過三項損失來強制表征攜帶信息：不變性、方差（強迫各維度在樣本間展開）和協方差（防止維度之間“串供”）。

這很有效，但超參數太多，系統過于復雜。

而LeWorldModel采用的SIGReg則完成了進一步的數學精化。

2026年5月的理論工作證明，在特定世界中，只有潛在分布為高斯時，模型才能線性恢復世界的真實潛在變量。

SIGReg利用數學定理，將高維表征隨機投影到一維，然后用統計學方法檢驗它是否符合高斯分布。

如果不符合，就施加懲罰。

這把復雜的防坍縮問題，變成了一個數學上極度干凈的分布匹配問題。

它讓LeWorldModel把超參壓縮到只有一個，在單張GPU上幾小時就能完成穩定訓練。

這不僅是一個技術細節，它決定了世界模型能否真正走向工程規模化。

06 當對齊只是事后貼上的補丁，安全就成了一場概率性的賭博

解決了技術可行性，我們必須面對那個最核心的拷問：我們能保證AI是安全的嗎？

LeCun給出了一個可能讓整個行業不適的結論：“大語言模型本質上是不安全的，它們無法變得可靠和安全。”

這不是工程細節的缺陷，而是自回歸架構的宿命。

因為你無法阻止幻覺，模型在任何時刻都只是在預測概率，沒有內置的驗證機制。

當它被賦予智能體權限去調用工具、執行代碼時，你無法保證它不會采取未預測到后果的行動。

編碼智能體抹掉用戶硬盤的慘劇，早已不是科幻小說。

現有的RLHF、安全微調，本質上都是在訓練數據上壓低危險輸出的概率。

它們是概率性的軟約束，而不是確定性的硬保證。

訓練誤差和測試誤差之間永遠存在縫隙，總有分布外的提示詞能完成“越獄”。

中科大的研究發現，在具身智能中，指令里稍微加入一些無關的上下文，VLA模型就會受到嚴重干擾。

因果理解層面的研究更揭示，VLA的注意力往往過度激活在背景等無關區域。

即使完全遮蓋視覺輸入，它的輸出動作依然遵循類似趨勢。

它根本不知道自己在做什么，只是在機械地匹配統計關聯。

對此，LeCun給出的出路是：目標驅動AI（Objective-Driven AI）。

它的核心邏輯是，AI的行為不是由“預測下一個詞”驅動的，而是由“尋找能滿足目標的行動序列”驅動的。

你給系統一個目標，世界模型在內部模擬各種行動的后果。

如果模擬的結果不滿足代價函數 and 安全約束，系統就絕不執行。

安全約束（比如“不要傷害任何人”）被直接寫進目標函數，成為系統從構造上就無法違反的硬約束。

它與現有對齊方案有著本質的區別。

現有方案是事后約束，在推理時容易逃逸。

目標驅動則是事前規劃，在行動前就已經用世界模型排除了所有危險選項。

如果找不到安全的路徑，系統寧可選擇不行動或呼叫人類。

CVPR 2026最佳論文提名工作《See, Plan, Rewind》就演示了這種“異常檢測與回溯”的事前規劃理念。

當然，目標驅動AI也有失敗模式，比如代價函數設計錯誤，或者世界模型預測不準。

但它是可調試、可驗證的，這與大模型那種無法定位、無法承諾的安全有著天壤之別。

07 硅谷巨頭買不走的私域數據，正在開源聯邦里筑起新的長城

除了技術層面的不安全，還有一類風險正在悄然逼近：認知主權。

未來，人們的信息攝入將極度依賴AI助手和智能眼鏡。

這意味著，你眼中的世界，是由少數幾個掌握了AI技術的國家或巨頭過濾后呈現的。

這會帶來語言、文化和政治價值上的嚴重失衡。

許多國家不希望自己的公民被外部開發的模型“洗腦”，主權AI的呼聲因此高漲。

LeCun給出的工程回應，是一個名為Tapestry的聯邦式全球訓練方案。

它允許全球的貢獻者共同訓練一個模型，但各方保留對數據的控制權，不需要共享原始數據。

大家在本地訓練，只在云端交換和平均參數向量。

這讓不共享數據從一種妥協，變成了一種優勢。

回顧歷史，1996年互聯網基礎設施的霸主是Sun Microsystems和HP，但它們最終都被開源的Linux徹底淘汰。

今天的OpenAI和Anthropic，就是昨天的Sun。

當AI走向基礎設施層，可定制、可審計、低成本的開源生態將展現出結構性優勢。

尤其是在公開文本枯竭的當下，閉源巨頭不得不花巨資購買版權或使用有毒的合成數據。

而Tapestry則能將大量未被公開的私域數據——比如地方語言、學術文獻、政務文檔——通過聯邦機制安全地納入訓練。

這些數據，是閉源巨頭用錢也買不到的。

開源生態，正在用一種全新的機制實現反超。

08 語言歸語言，物理歸物理，未來的智能大腦終將迎來分工

大模型不會消失，但它正在從神壇上退下來，回到它最適合的位置。

它將作為“語言與知識接口層”長期存在，扮演智能系統的“語言皮層”。

在寫作、翻譯、代碼等“語言即推理基底”的領域，它依然是無可替代的利器。

但它不再承擔核心的決策與規劃任務。

未來的AI系統，更可能是一個清晰的三層分工架構。

最上層是LLM層，負責聽懂人話、檢索知識、自然交互。

中間層是世界模型層，基于JEPA架構，在抽象潛在空間里預測后果、規劃路徑。

最底層是統一決策層，維護全局目標和安全約束。

這就像人類大腦的分工：語言皮層負責溝通，前額葉負責思考規劃，運動系統負責執行。

這對應著認知科學中的雙系統理論。

系統一快速、本能，由LLM負責，處理日常的模式匹配。

系統二緩慢、深思，由世界模型負責，在未知和復雜場景中進行后果模擬。

行業對“需要范式轉變”的認識，在2027年初將變得不言而喻。

這不意味著屆時我們就能擁有完美的解決方案，但認知的轉變將不可逆轉。

我們可以通過兩個信號來觀測這個進程：一是大模型在物理域的規模化是否持續撞墻，二是JEPA在受限工業場景中的規劃能否被成功復現。

智能的本質，從來不是預測下一個詞，而是預測行動的后果。

狂熱退去后，真正的變革才剛剛開始。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.