![]()
來源:星云創聯AI智庫
你可能還在用AI寫報告,驚嘆于它的無所不知。
但圖靈獎得主、深度學習三巨頭之一的Yann LeCun,卻在各種場合不斷給這股狂熱潑冷水。
他的觀點散落在無數推文和訪談中,常常被斷章取義。
這一次,我們把他的所有判斷系統地連成一條線。
大模型這條路,到底能走多遠?
![]()
01 那個被捧上神壇的預測游戲,其實根本沒有學會理解世界
LeCun的態度非常務實。
他自己每天也在用大語言模型,承認它們是極具價值的基礎設施。
但他堅信,這絕不是通往通用智能的正確路徑。
這與OpenAI和Google那些堅信“只要規模足夠大就能通關”的研究者,有著根本性的分歧。
大模型表現得再好,和真正的智能之間,也存在著一道無法逾越的裂縫。
想象一個簡單的場景。
你問AI:“我需要洗車,洗車店離我家100米,我應該走路去嗎?”
之前測試,有AI會頭頭是道地建議你走路去,理由是100米很近、省油、環保。
它甚至把“車必須被開到現場”這個最基本的物理前提,降格為無關緊要的例外。
它在解決一個根本不存在的問題。
![]()
你不需要思考就知道必須開車去,因為你要洗的是車。
但模型只抓住了“100米很近”的表層線索,在符號的統計規律里尋找下一個詞。
它根本沒有理解“洗車”這一行為在物理世界中的真實約束。
這并不是我們常說的“幻覺”,而是更深層的結構性盲區。
它缺少現實世界運行規律的內部表征。
現在的各種改進,比如調用工具、優化提示詞,都只是在給汽車換更好的輪胎。
汽車原本的工作原理沒有變,它學到的依然是語言符號的統計學,而不是現實。
有人試圖通過多模態訓練來打破這個限制,讓模型同時看視頻、聽聲音。
但在LeCun看來,如果訓練目標仍然只是預測觀測數據本身,多模態也救不了它。
大模型的成功,恰恰建立在語言是離散符號這一前提上。
因為目標具體,詞表固定,損失函數明確,所以它極其擅長規則明確、可客觀驗證的數學和代碼。
但知道怎么做,不等于理解為什么。
它更像是一個做了十萬道例題的學生,習得了模式,卻不懂規律。
預訓練就像是在空地上建了一座藏書海量的圖書館。
后訓練的對齊,則只是培訓了一個知道該怎么說話的圖書館員。
書的內容沒變,改變的只是服務態度。
即使引入鏈式推理或蒙特卡洛樹搜索,它也無法復刻AlphaGo Zero的奇跡。
因為圍棋有明確規則和即時反饋,而現實任務根本沒有這種清晰的轉移狀態。
更現實的危機是,高質量的人類文本數據快要枯竭了。
Epoch AI估算,全球高質量公開文本大約在300萬億Token左右。
而像Llama 3-70B訓練就已經消耗了7000億Token。
按照目前的消耗速度,數據瓶頸將在2025到2030年之間轟然降臨。
為了自救,AI公司開始轉向版權數據和合成數據。
但這會引發可怕的“模型崩塌”。
當AI開始大量吃進AI自己生成的、未經篩選的數據,偏差就會像雪崩一樣累積。
最終,模型會丟失那些稀有但重要的真實信息,變得越來越單調、失真。
數據墻只是外部約束,真正的死穴在它的內部架構。
02 為什么我們不能指望一個沒有后果反饋的系統去規劃未來
真正的智能,不僅要能描述世界,還必須能預測自己的行動會帶來什么后果。
你在過馬路時,大腦會自動模擬:現在走會不會被撞?等幾秒是不是更安全?
你不需要真的走過去試錯,而是在腦海中用一個簡化的世界模型完成了預演。
大模型沒有這個內部模擬器。
對它來說,輸出每一個詞就是它的“行動”。
它只是在用文字模仿對世界的描述,而不是在內部模擬世界的運行。
這就是第一個致命缺口:缺少對行動后果的預測能力。
不僅如此,智能還需要規劃。
你要去巴黎,會在腦海中比較直飛、轉機、高鐵的代價與收益。
大模型則是逐個詞順序輸出的,它無法在腦子里構想多個未來,再挑出最優的一條。
它的多路徑搜索,只是在語言空間里換一種“說法”。
而真正的規劃,是在物理狀態空間里換一種“走法”。
《自然·神經科學》的一篇論文指出,大腦本質上是一臺預測機器,感知只是為了校正預測。
因為處理感官信號需要時間,大腦必須提前下注,用預測跑在現實前面。
大模型不需要承受任何后果,它的上一個詞和下一個詞之間,沒有物理世界的反饋。
為了解決這個問題,LeCun提出了JEPA架構。
它以配置器為核心,統籌感知、世界模型、成本模塊、短期記憶和執行器,在行動前先在內部進行模擬。
沒有預測,搜索就會變成盲目的窮舉。
圍棋有 $10^{170}$ 種可能,AlphaGo能贏是因為有價值網絡這個“世界模型”來剪枝。
大模型的搜索依然在語言空間,它比較的是“哪段話聽起來更像好計劃”。
而JEPA直接在世界模型構建的狀態空間里推演,讓執行器提出行動,世界模型預測狀態,成本模塊評估,滾動多步。
這些缺口,是無法通過打補丁來修復的。
無論是檢索增強、工具調用還是反思鏈路,都只是在外部疊加能力。
它們面臨著無法繞過的墻:
規劃依然在語言空間,與真實狀態空間存在無法填補的鴻溝。
泛化極度依賴示范數據。
17歲孩子20小時就能學會開車,而自動駕駛采集了數百萬公里依然在復雜場景下不穩定。
因為人類有物理世界模型能舉一反三,而數據驅動只是在死記硬背。
安全約束是后訓練硬貼上去的,不僅有損,還極易被越獄。
通過人類反饋強化學習做對齊,會讓模型變得保守,且文言文或罕見語言提示詞輕易就能繞過過濾。
它只是讓輸出看起來合規,并沒有讓模型理解為什么有害。
常識缺失無法靠數據堆砌解決。
冬天要不要放掉室外水管的水,這種因果判斷對人是常識,對大模型卻是盲區。
03 那個被寄予厚望的具身智能大腦,為什么在現實中碰了壁
既然純語言不行,那加上身體和感知呢?
這就是曾經讓二級市場瘋狂的VLA(視覺-語言-動作)模型。
RT-2的發布曾讓人以為具身智能商業化提前了三年。
但當它走進真實場景,可靠性不足、數據依賴重、泛化脆弱的毛病暴露無遺。
LeCun在訪談中給出了最直接的判詞:“VLA現在基本上被視為失敗。”
VLA嘗試把視覺、語言和動作塞進一個端到端的統一系統。
看見環境,理解指令,聯合推理,然后直接生成機器人的控制指令。
這看似合理,實則是路線的錯配。
語言是離散的,物理世界是連續且復雜的。
2025年軟件工程頂會FSE發表的《VLATest》對七個代表性VLA模型進行了模糊測試。
結論非常殘酷:稍微改變相機視角、光照條件、物體遮擋,模型的魯棒性就會崩潰。
隨后的《LIBERO-Plus》研究更發現,適度的擾動能讓VLA的成功率從95%驟降到30%以下。
更諷刺的是,實驗表明,VLA模型在相當程度上忽略了語言指令,只依賴視覺線索。
它本質上是在做視覺模式匹配,而不是理解因果。
在軟件里錯可以重試,但在物理世界,機器人的錯誤動作往往不可逆,代價極其高昂。
而且,VLA的數據成本高得嚇人。
大模型的數據有通用遷移性,但VLA的模仿學習數據沒有。
每個新任務、新環境,都要重新收集演示數據,成本呈線性甚至超線性增長。
2026年ICLR的論文《From Seeing to Doing》指出,由于具身數據的稀缺,VLA無法實現魯棒的零樣本性能,最佳模型的成功率僅為72%。
它無法進行顯式的多步規劃,只能自回歸地問“下一個動作是什么”。
理想汽車基座模型負責人在2026年GTC大會上痛陳:3D空間理解對齊效率低、決策延遲長、長尾場景無法突破。
北大王勇濤團隊也指出其三大缺陷:隱式規則導致罕見場景泛化差、模態推理割裂、價值對齊缺失。
既然如此,為什么Google、NVIDIA、Figure等巨頭還在瘋狂押注VLA?
因為工業界和LeCun的視角不同。
LeCun看重的是通往AGI的終極路徑,而巨頭們需要解決未來三到五年的商業落地。
首先,VLA擁有目前最成熟的工程技術棧,不需要等待理論突破。
其次,倉庫分揀、工廠裝配等任務,并不需要完美的“世界模型”,只要在固定環境里達到95%的成功率就有商業價值。
最后,VLA也在不斷吸收世界模型的思想,引入狀態預測和強化學習。
未來,或許不是誰取代誰,而是分工協作。
但要實現通用具身智能,我們必須尋找新的方向。
世界模型并不是新概念。
從卡爾曼濾波、Dyna架構,到Ha的深度世界模型、PlaNet、Dreamer,再到MuZero,研究者一直在探索。
而JEPA的獨特價值,在于完全拋棄了像素重建,在潛在空間中學習“可預測的表征”。
04 別再試圖讓AI畫出世界,它只需要在腦海里預判倒下的水瓶
LeCun對世界模型的定義非常精煉:讓智能體預測自身行動后果的事物。
它存在的意義是服務于規劃,而不是畫出精美的畫面。
他用一個水瓶做類比。
一個裝滿水沒有蓋子的水瓶,你推它底部它會滑動,推頂部它會翻倒。
但你無法精確預測它倒下的具體方向,更不可能在像素級別預判每一個水滴的飛濺。
這說明,人類對世界的預測是在抽象表征層進行的。
試圖在像素空間做預測,會遭遇不可約的不確定性和維度的詛咒。
一張256x256的圖片有近20萬個維度,而語義表征可能只有192維。
像素預測會把寶貴的算力浪費在重建紋理、光照、陰影等對決策毫無意義的細節上。
在信息論中,像素空間的條件熵極高,而語義空間的條件熵低且結構化。
人類大腦不會進行“像素級心理渲染”,JEPA正是對這一生物直覺的模擬。
這里存在一個關鍵的分叉:生成式世界模型(如Sora、Genie) vs JEPA。
生成式路線試圖重建所有觀測細節,訓練目標包含大量不可預測的噪聲。
LeCun認為這會導致浪費容量、因果混淆,且無法在潛在空間做動作優化。
他在FAIR主導的掩碼自編碼器(MAE)項目,結果就非常令人失望。
而JEPA完全在語義表征空間中運行。
它使用聯合編碼器將兩個不同視角的觀測映射到潛在空間,用預測器在潛在空間推演,通過梯度截斷防止偷懶。
最近,LeCun唯一推薦的論文《LeWorldModel》(2026年3月發表)驗證了這一路線。
它的編碼器采用ViT-Tiny架構,使用Batch Normalization而非LayerNorm,以釋放方差。
預測器是一個10M參數的Transformer,動作條件通過自適應層歸一化注入。
它的訓練目標極其干凈:預測損失加上防止坍縮的SIGReg正則化。
在Push-T任務中,LeWorldModel取得了96%的成功率,比PLDM提升了18%。
同等算力下,它的token數量減少了200倍,規劃速度比DINO-WM快了近50倍。
雖然它在視覺豐富的3D環境(如OGBench-Cube)中因缺乏大規模預訓練先驗而略遜于DINO-WM,但它證明了端到端隱世界模型的工程可行性。
當然,它目前仍有局限:自回歸誤差會隨規劃長度累積,難以進行長程推理;且高度依賴高交互覆蓋度的離線數據,在簡單場景下SIGReg強制匹配高斯分布會導致表征學習困難。
但它在工業領域的短期價值已經顯現。
噴氣發動機、化工廠、發電廠等復雜系統,無法用方程建模,卻可以通過世界模型來預測控制變量改變后的后果。
這是比機器人更近的落地場景,也是AMI Labs的優先方向。
05 解決自監督學習最棘手的作弊,需要一場數學上的降維打擊
神經網絡在訓練時有一個天然的惰性:如果可以,它會選擇最省力的方法。
在自監督學習中,這個惰性會導致致命的“表征坍縮”。
模型會把所有不同的輸入,都映射成同一個向量。
這樣預測器每次都“猜對了”,損失函數一路走低,表面成功,實則成了毫無用處的白癡。
為了對付這個“作弊解”,學術界嘗試了三條路線。
第一條是對比學習。
它的邏輯很直觀:把相似的拉近,把不同的推開。
但在高維潛在空間里,空間極度稀疏,隨機采樣的負樣本大多天然就很遠,對訓練毫無貢獻。
而真正有價值的困難負樣本又極度稀缺。
這就陷入了欠采樣導致坍縮,或過度采樣破壞語義的兩難境地。
第二條是蒸餾方法,比如BYOL和DINO。
它讓學生網絡去追一個通過指數移動平均緩慢移動的老師網絡。
LeCun對這種方法的評價很微妙:“我們不喜歡它,但它確實有效。”
因為它的目標一直在移動,你監控的損失函數根本不等于真實的優化目標。
損失下降不代表表征變好,訓練過程就像一個無法解釋的黑箱。
第三條是顯式正則化,這是LeCun最看好的方向。
VICReg通過三項損失來強制表征攜帶信息:不變性、方差(強迫各維度在樣本間展開)和協方差(防止維度之間“串供”)。
這很有效,但超參數太多,系統過于復雜。
而LeWorldModel采用的SIGReg則完成了進一步的數學精化。
2026年5月的理論工作證明,在特定世界中,只有潛在分布為高斯時,模型才能線性恢復世界的真實潛在變量。
SIGReg利用數學定理,將高維表征隨機投影到一維,然后用統計學方法檢驗它是否符合高斯分布。
如果不符合,就施加懲罰。
這把復雜的防坍縮問題,變成了一個數學上極度干凈的分布匹配問題。
它讓LeWorldModel把超參壓縮到只有一個,在單張GPU上幾小時就能完成穩定訓練。
這不僅是一個技術細節,它決定了世界模型能否真正走向工程規模化。
06 當對齊只是事后貼上的補丁,安全就成了一場概率性的賭博
解決了技術可行性,我們必須面對那個最核心的拷問:我們能保證AI是安全的嗎?
LeCun給出了一個可能讓整個行業不適的結論:“大語言模型本質上是不安全的,它們無法變得可靠和安全。”
這不是工程細節的缺陷,而是自回歸架構的宿命。
因為你無法阻止幻覺,模型在任何時刻都只是在預測概率,沒有內置的驗證機制。
當它被賦予智能體權限去調用工具、執行代碼時,你無法保證它不會采取未預測到后果的行動。
編碼智能體抹掉用戶硬盤的慘劇,早已不是科幻小說。
現有的RLHF、安全微調,本質上都是在訓練數據上壓低危險輸出的概率。
它們是概率性的軟約束,而不是確定性的硬保證。
訓練誤差和測試誤差之間永遠存在縫隙,總有分布外的提示詞能完成“越獄”。
中科大的研究發現,在具身智能中,指令里稍微加入一些無關的上下文,VLA模型就會受到嚴重干擾。
因果理解層面的研究更揭示,VLA的注意力往往過度激活在背景等無關區域。
即使完全遮蓋視覺輸入,它的輸出動作依然遵循類似趨勢。
它根本不知道自己在做什么,只是在機械地匹配統計關聯。
對此,LeCun給出的出路是:目標驅動AI(Objective-Driven AI)。
它的核心邏輯是,AI的行為不是由“預測下一個詞”驅動的,而是由“尋找能滿足目標的行動序列”驅動的。
你給系統一個目標,世界模型在內部模擬各種行動的后果。
如果模擬的結果不滿足代價函數 and 安全約束,系統就絕不執行。
安全約束(比如“不要傷害任何人”)被直接寫進目標函數,成為系統從構造上就無法違反的硬約束。
它與現有對齊方案有著本質的區別。
現有方案是事后約束,在推理時容易逃逸。
目標驅動則是事前規劃,在行動前就已經用世界模型排除了所有危險選項。
如果找不到安全的路徑,系統寧可選擇不行動或呼叫人類。
CVPR 2026最佳論文提名工作《See, Plan, Rewind》就演示了這種“異常檢測與回溯”的事前規劃理念。
當然,目標驅動AI也有失敗模式,比如代價函數設計錯誤,或者世界模型預測不準。
但它是可調試、可驗證的,這與大模型那種無法定位、無法承諾的安全有著天壤之別。
07 硅谷巨頭買不走的私域數據,正在開源聯邦里筑起新的長城
除了技術層面的不安全,還有一類風險正在悄然逼近:認知主權。
未來,人們的信息攝入將極度依賴AI助手和智能眼鏡。
這意味著,你眼中的世界,是由少數幾個掌握了AI技術的國家或巨頭過濾后呈現的。
這會帶來語言、文化和政治價值上的嚴重失衡。
許多國家不希望自己的公民被外部開發的模型“洗腦”,主權AI的呼聲因此高漲。
LeCun給出的工程回應,是一個名為Tapestry的聯邦式全球訓練方案。
它允許全球的貢獻者共同訓練一個模型,但各方保留對數據的控制權,不需要共享原始數據。
大家在本地訓練,只在云端交換和平均參數向量。
這讓不共享數據從一種妥協,變成了一種優勢。
回顧歷史,1996年互聯網基礎設施的霸主是Sun Microsystems和HP,但它們最終都被開源的Linux徹底淘汰。
今天的OpenAI和Anthropic,就是昨天的Sun。
當AI走向基礎設施層,可定制、可審計、低成本的開源生態將展現出結構性優勢。
尤其是在公開文本枯竭的當下,閉源巨頭不得不花巨資購買版權或使用有毒的合成數據。
而Tapestry則能將大量未被公開的私域數據——比如地方語言、學術文獻、政務文檔——通過聯邦機制安全地納入訓練。
這些數據,是閉源巨頭用錢也買不到的。
開源生態,正在用一種全新的機制實現反超。
08 語言歸語言,物理歸物理,未來的智能大腦終將迎來分工
大模型不會消失,但它正在從神壇上退下來,回到它最適合的位置。
它將作為“語言與知識接口層”長期存在,扮演智能系統的“語言皮層”。
在寫作、翻譯、代碼等“語言即推理基底”的領域,它依然是無可替代的利器。
但它不再承擔核心的決策與規劃任務。
未來的AI系統,更可能是一個清晰的三層分工架構。
最上層是LLM層,負責聽懂人話、檢索知識、自然交互。
中間層是世界模型層,基于JEPA架構,在抽象潛在空間里預測后果、規劃路徑。
最底層是統一決策層,維護全局目標和安全約束。
這就像人類大腦的分工:語言皮層負責溝通,前額葉負責思考規劃,運動系統負責執行。
這對應著認知科學中的雙系統理論。
系統一快速、本能,由LLM負責,處理日常的模式匹配。
系統二緩慢、深思,由世界模型負責,在未知和復雜場景中進行后果模擬。
行業對“需要范式轉變”的認識,在2027年初將變得不言而喻。
這不意味著屆時我們就能擁有完美的解決方案,但認知的轉變將不可逆轉。
我們可以通過兩個信號來觀測這個進程:一是大模型在物理域的規模化是否持續撞墻,二是JEPA在受限工業場景中的規劃能否被成功復現。
智能的本質,從來不是預測下一個詞,而是預測行動的后果。
狂熱退去后,真正的變革才剛剛開始。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
![]()
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.