網易首頁 > 網易號 > 正文申請入駐

量子位專訪樓天城：AI是匹脫韁野馬

2026-04-27 18:52:28　來源: 量子位

云南舉報

分享至

Jay 李根發自凹非寺
量子位 | 公眾號 QbitAI
Harness（馴馬）會成為這個（AI）時代最關鍵的能力之一。

這是小馬智行CTO樓天城，在與量子位的對話中，給出的最新判斷。

在他看來，如今的AI越來越像一匹脫韁野馬。它開始學會了「調用」：調用工具、調用skills……因此能通過這些腳手架，自我演進，和人類打配合。

主動性和能量大幅提升，未來甚至連人類，都可能成為被「調用」的一環。

樓教主表示，當「AI司機」也和Coding Agent一樣學會了使用工具，人類工程師的角色，會逐漸從「教練」轉變為「執行者」。

這種情況下——

人和AI的關系，必須重新思考了。

這也是小馬智行發布PonyWorld世界模型2.0的根本原因。

自動駕駛，即將進入一個AI主導、AI評測、并「調用」人類協助的新時代。

這個趨勢是確定的，畢竟，人類想要趕上模型的迭代速度，太難了。

連強悍如樓教主這樣的工程師都坦言：

開發的主導權，會逐步交給AI。

是的，一個頂尖的人類程序員，此刻卻在宣告：即便是天之驕子般的工程師，也必須將研發的主導權拱手相讓。

聽起來多少有些殘酷。

但這就是教主樓天城和小馬智行10年創業歷程里，目前為止最直接的結論。開發時代的范式，正在發生方向性的質變。

關于這個問題，或許可以用樓天城在訪談中反復提及的一個詞回答——

大勢所迫。

被技術瓶頸所迫，被消費者的期望所迫，被自動駕駛的終局所迫，被小馬智行十年來始終渴望實現的藍圖所迫。

而這個被逼出來的模型，叫作PonyWorld世界模型2.0。

這是一場自動駕駛開發范式革命中，必須被倒逼出來的一次投影。

而且隨這種趨勢打開的還有小馬智行的2.0時代，以自動駕駛出發的PonyAI，現在已經到了開啟更大空間探索的時刻，通往物理AGI的道路已經被打開。

以及，樓教主的觀點是：我們已經在路上了。

PonyWorld世界模型2.0深度解析

人類駕駛數據的價值，正在逐步歸零。

并非思維實驗。這個曾經看似遙遠的未來，如今已成為小馬智行一切技術研發的出發點。

當AI司機的安全性全面超越人類，再讓人類工程師手把手教AI開車，無異于讓業余棋手去輔導AlphaGo。

雖然從行業發展角度來看是件可喜可賀的事，但回想2020年，難免不有些讓人唏噓。

那基本是「模仿學習」的時代。無論自動駕駛還是人工駕駛，核心都是為了收集海量數據，讓系統去模仿人的行為。

整個行業都在用影子模式收集海量人類駕駛數據，試圖大力出奇跡。

但奇跡沒有來。

模仿學習的天花板，就是人類本身。

而L4級自動駕駛是無法靠人類兜底的，這個幾乎零容錯的終局要求，遠比「像人一樣開車」嚴苛得多。

這也是2020年PonyWorld世界模型1.0啟動的契機。

他們想給機器一個超越人的空間。通過創造一個虛擬駕校，讓機器在里面自己摸索怎么開車，做強化學習。

不過，隨著能力的進一步躍升，另一個尷尬的問題隨之浮現。

當AI駕駛能力已經遠超人類時，人類給AI的指導，很可能是錯的……

一旦AI超過了人，人其實已經失去了評判權。因為我們無法再判斷誰更好、誰更差。

在這種情況下，只有AI自己，能窮盡人類所不能察覺的維度，精準定位到底哪里出了問題。

也就是說，讓AI來識別并指導AI。

這是AI時代的「圖靈測試」。

基于這個理念，小馬對1.0進行了一次開發范式的全面重構，帶來了PonyWorld世界模型2.0。

人類不再是這個閉環的中心，AI，正式成為總教練。

自我診斷，是這套系統進化的核心引擎。

目前行業里大熱的VLA（視覺-語言-動作）路線，核心邏輯是在感知與動作之間硬塞進一個語言模型——讓AI先把路況「翻譯」成文字，再基于文字生成動作。

但語言，本質上是對復雜4D物理時空的一種極度降維的「扁平投影」。雖然它提升了信息的傳播效率，卻不可避免地丟棄了大量珍貴的物理世界上下文。

這種架構，從誕生的那一刻起，就注定了它的上限。

為此，小馬智行選擇跳過「語言」這個中間商，讓傳感器數據直接映射為駕駛動作。

這不僅大幅削減了算力消耗，更讓物理數據的收集與世界模型精度的提升變得前所未有的高效。

但這并不意味著放棄了「可解釋性」和「語義推理」。

小馬在車端模型的訓練中，引入了一個比語言更接近駕駛本質的中間層——Intention（意圖）語義層。

真正的老司機在緊急避險時，腦海里絕不會先默念一段臺詞。

「前方有障礙物，我要向左打方向……」等把這些可能性都在腦海里推理一遍，黃花菜都涼了。

面對瞬息萬變的路況，人類高手是直接產生「意圖」。

這正是PonyWorld世界模型2.0想要復刻的本能。

模型在做出每一個駕駛動作的同時，其內部會同步生成結構化的意圖表達。翻譯成人類能懂的語言，就是：

我選擇在路口前減速等待，是因為右前方那個行人正在走向斑馬線，我預判他大概率會橫穿。

請注意，這些意圖信息不是事后用另一個模型「解釋」出來的，也不是推理過程中額外插入的累贅，而是在訓練階段就與駕駛動作被聯合學習的原生能力。

而當這個意圖層被解鎖時，將會帶來一個此前鮮被討論的殺手锏：

它可以被無限生成。

世界模型本身就是生成模型，我們可以基于意圖去反向生成任何意圖組合對應的虛擬場景，讓AI在所有可能的意圖排列組合中接受高強度的「特訓」。

這帶來了一個根本性的差異。

人類開車時，通常只能對其他交通參與者做「最大似然估計」——覺得最有可能發生什么，就按什么反應。

但小馬的AI司機擁有比人類長得多的上下文記憶能力，這是AI的天賦。它不需要靠「直覺」這種玄乎的東西，而是可以同時Keep in mind所有可能的意圖組合，再進行綜合決策。

系統可以自動回溯每一次決策，精準定位偏差究竟出在哪一層。

這些數據在真實世界中是無法被收集的，畢竟，誰會告訴你他剛才打方向盤的時候到底在想些啥啊。

當AI補全了這塊長期的數據空缺，模型的自我診斷能力，無疑將迎來質的飛躍。

這直接帶來了第二個核心突破：定向進化。

以前想提升世界模型的精度，路子很野，叫「廣撒網」。

全無人車隊到處跑，數據全量回傳，然后指望工程師憑經驗去「沙里淘金」。

但車隊規模一旦從百輛沖到千輛，這招就不靈了。絕大多數數據對提升精度沒啥用，只會變成昂貴的存儲垃圾，白白燒錢。

PonyWorld世界模型2.0徹底反轉了這個邏輯。

當系統自我診斷發現模型在某個場景下「心里沒底」——比如某幾個路口每到傍晚逆光時，模型對特定障礙物的模擬置信度就開始跳水——它會自動生成一個定向采集任務，直接給測試團隊派單：

請在未來一周內，于下午4:30-5:30之間，在指定路口重點采集逆光條件下非機動車與行人混行場景數據。

隨后，研發人員、測試工程師、運營團隊……整個組織開始圍繞世界模型2.0的「精度需求」運轉。AI說哪里差點意思，人類就去補哪塊數據。

人類工程師的角色，從手握教鞭的「駕校教練」，變成了聽命行事的「AI數據采集員」。

研發節奏不再由人類經驗驅動，而是由AI根據自身進化需求，自動生成。

值得注意的是，這里有個前提：

即便是做「AI的數據采集員」，也極度考驗人類對AI的駕馭能力。

人類并沒有完全退出Loop（AI進化的閉環流程），只是角色變了。

未來，怎么駕馭AI這匹脫韁的野馬，既讓它按自己的意志行動，又能保留它自我演進的能力，將是人才最需要具備的特質。

而對小馬來說，同樣可以預見的未來是：

接入2.0的自我診斷和定向進化能力后，無疑會給小馬智行已有的「飛輪」，再狠狠踩一腳油門。

而核心燃料，正是L4全無人車隊在真實交通中運營產生的數據。

AI會遇到人類司機不容易遇到的場景。

通常而言，人類司機在意識到旁邊是AI車時，反應模式會變。有人會更敢加塞，有人會更愿意配合，也有人會試探它的邊界。

因此，世界模型不僅要模擬人和人之間的交互，還得模擬人和AI之間的交互，尤其當AI的開法并不完全像人時，這件事就更有必要了。

而這種數據，只有像小馬這樣跑全無人Robotaxi的公司才能采集到——

大規模L4無人車隊商業運營，產生真實世界的高價值數據；世界模型據此提升精度；車端模型持續增強；更強的模型支撐更大規模部署；更大規模部署又產出更多高精度數據。

循環往復，自我加速。

如今，小馬智行已經積累了千萬公里級的多城市純無人駕駛數據。

數據量級是對結果的一種印證，而這個過程中所積累的經歷和Know-How，同樣是一筆寶貴的財富。

當然，一切的一切，最終還是得回到技術。

而負責技術的小馬智行CTO樓天城，給出了許多細節和實踐認知。

對話樓天城

量子位：以前你們一直用安全、舒適、效率這些指標，之前是人來定義?，F在聽起來，更像是AI在決定了。

樓天城：整體架構最早當然還是人搭的，安全這些指標也一直都在。

但后來，我們通過學習的方式，訓練了一些模型去做評價。

關鍵在于：AI為什么做得不好，問題到底出在哪。這件事現在人已經不太能判斷準了，AI來當這個醫生更合適。

量子位：核心原因不是人有短板，是AI進化得太強了。

樓天城：或者說人現在也很難再有什么進步（笑）。

但AI可以依靠非常長的context（上下文），讓自己的理解能力變得特別強。

以前是人來判斷，現在是AI來判斷。收集之后夠不夠、還要不要繼續改、這次改得好不好……這些關鍵決策點，正在逐步被AI接管。

量子位：所以人真的成了「工具人」（笑）。

樓天城：或者說，我們把人的精力放到了其他同樣重要的事情上。至于判斷這件事，就交給更擅長判斷的AI。

這樣做最大的意義就是突破天花板。如果今天還繼續靠人來做，很多時候可能已經沒法推動系統繼續正向進步了。

量子位：主導權交給AI，這里面會不會出現幻覺？

樓天城：幻覺這個詞最早是從大語言模型那邊來的。

過去兩年已經有太多例子說明，Scaling Law這條路，也就是單純加數據，并不能解決幻覺。到今天，幻覺比例依然不低。

真正需要的是別的東西。比如對系統加限制，讓它自我迭代、自我演進。

要讓它自己意識到哪里有問題，然后自己去改進。

量子位：怎么意識到？

樓天城：它知道結果不對。比如因為幻覺導致最后撞了，或者發生了急剎，它就會回溯前面哪幾步出了問題，然后再去改。

量子位：在自動駕駛里，幻覺問題是不是相對更容易處理一些？畢竟交通規則還是比較完備的。

樓天城：它確實相對更容易被壓低，但問題在于，在真實世界中，幻覺帶來的代價非常高。

量子位：PonyWorld世界模型2.0是一個升維概念，整個AI在訓練AI，AI在驅動一切。那怎么確保系統始終安全？

樓天城：有一整套非常精確的評價體系，來判斷問題發生的概率到底是多少。

我們會告訴它什么是好的、什么是不好的，但不會直接告訴它具體該怎么評價。最終我們看到的是，指標在持續提升。

還有一點，就算讓AI來判斷，它判斷得也比人更準。隨著系統持續進化，人可能連某個問題到底是不是幻覺，都判斷不過AI了。

到今天為止，所有基于概率的模型都還做不到徹底消除幻覺。但讓AI來驅動改進，比讓人來驅動，速度快得多，天花板也高得多。

量子位：世界模型2.0對系統訓練的速度和效率有了質的提升，那在落地層面，是不是也意味著質的提升？

樓天城：（停頓2秒）這是多方面的。

首先，落地不再只是局限在固定區域，而是可以走向更多區域、更繁忙的路段，比如高峰期，還有那些我們原來并不熟悉的國家和市場。

這里可以用一個詞，叫superset。在這些新地方遇到的很多場景，其實只是原有世界模型的一個子集。所以系統在新區域啟動時，會更有底。

另外一個變化，是大家的預期在提高。早年大家會覺得自動駕駛偶爾犯傻也能接受，但現在大家要求已經高很多了。這也是長期商業化推進里很關鍵的因素。

量子位：每個地方的駕駛行為和容忍度都不一樣。有些地方讓行人，有些地方加塞很激烈，這會影響系統嗎？

樓天城：這些其實都可以看作子集。

這些組合在世界模型里其實都已經出現過，只是在不同地方，它們的概率分布不一樣。這個地方更保守一點，那個地方更激進一點，但兩種場景本身都已經在世界模型里存在了。

量子位：能不能理解成，北京訓練出來的司機和廣州訓練出來的司機，風格上還是會有差別？

樓天城：在L4這個層面，其實不需要特別明顯的差異。

L4真正要解決的，是在一萬小時駕駛里，那些因為風格不同或者極端行為導致的危險場景。而這些危險場景在很多地方，哪怕是海外，其實都沒有本質上的巨大差異。

有些地方開車猛一點，有些地方保守一點，但真正到出事的時候，其實都是一樣的。

這可能和L2不同。輔助駕駛更在意不同地區整體的駕駛習慣，但L4更關注極端場景，而這些極端場景的分布其實非常一致。

所以去新地方，并不需要太多額外操作。

量子位：世界模型2.0發揮作用之后，對車端傳感器方案和算力會有什么影響？

樓天城：先說傳感器，這里面核心是成本。

如果我們希望使用更便宜、更標準化的傳感器，那它們在質量上一定會有一些不足。比如在特別復雜的雨天環境里，標準化傳感器可能就會比高端傳感器差一些。

這確實需要世界模型繼續進步，在生成階段把這些問題也納入進去。不過這項技術我們已經做完了，現在已經可以比較好地使用標準化傳感器。

再說算力。通常兩三倍的差距不會帶來本質變化，除非是100倍這種量級，才可能真的改變很多事情。但100倍本身也不是個簡單數字。

大多數時候，兩三倍這種差異，主要還是通過訓練范式、開發范式和模型結構去消化。

量子位：10年前大家最常說的詞是corner case，也就是極端場景。當時大家一直在討論到底能不能窮盡它?，F在世界模型是不是找到了一條能解決，或者說能窮盡極端場景的路徑？

樓天城：更準確地說，是窮盡這些場景里的intention（意圖）分布。

場景本身并沒有那么多變種，但我們不能說自己已經窮盡了全部場景。真正無限變化的，其實是不同物體之間的意圖組合。

同樣的場景、同樣的狀態，因為不同參與者的意圖不同，就會形成非常多的組合。世界模型真正能做的，是把這些意圖組合窮盡掉。

（停頓……）

在現實世界做這件事，是不可能的。

意圖數據本身就很難收集，你不可能在真實道路上要求所有人按照某種設定好的意圖去行動。

但在虛擬環境中，我們可以強制設定意圖。

量子位：你們博客里有一句話讓我印象很深，在AI駕駛能力超過人類實際水平之后，普通人類數據對世界模型精度提升的價值會趨近于零。這是一個數據層面的洞察，還是認知層面的洞察？

樓天城：這個認知其實已經存在一段時間了。而且我甚至覺得，如果系統已經做得很好，那這個價值不只是趨近于零，甚至可能是負的。

量子位：??？（驚訝臉）

樓天城：本質上其實是是AI發展階段變了。AI會經歷從不如人，到接近人，再到超過人，然后繼續自我改進的過程。

當人已經明顯比AI差的時候，人提供的很多數據反而會把一些不該有的壞習慣帶進來。

AI剛超過人的時候，可能整體行為看起來還和人很像，只是它在那些和人不一樣的地方做得更好。但恰恰是這些不一樣的場景，人已經沒法準確判斷到底是好還是不好了。

有點像老師。早期當然很感謝老師教了很多東西，但真正到了做研究的階段，老師其實已經幫不上太多了，更不需要再把早年的東西一遍遍重新灌給你。

接下來，需要AI自己去生成。

這就好像你沒法教AlphaGo下圍棋，就算讓我教，我也教不了啊（教主無奈）。

量子位：有一種說法是，真正高級的AI司機，可能會在多車道變道時，直接從第一車道切到第四車道……

樓天城：（打斷）這其實要看具體情況。

如果路上視野特別好，看得很清楚，沒有遮擋，那它這么做也許完全合理，甚至可能就是最優解。

但換個場景，就不能這么做。有時候人類司機沒有意識到潛在風險，因為整個過程需要時間，而且前方可能有遮擋，只是恰好沒碰上問題。但AI可以意識到這些潛在因素。

而且人本來就是千人千面。AI還得先判斷「到底該學誰」，對吧？

因為有些人會這樣開，有些人不會。

量子位：所以現在讓AI教AI怎么學，也能避免學到這些危險行為？

樓天城：AI一旦不再以開得和人一樣為目標，而是以開得更好為目標，它自然就會意識到這些風險因素必須納入考慮。

但AI教AI最根本的一點，還是它要繼續告訴自己，哪里開得不夠好，然后持續改進。當AI已經明顯超過人之后，要再往上提升，就必須讓AI來驅動很多事情。

量子位：你這個洞察，好像也回應了L2到底能不能升到L4這個問題。如果只是不斷模仿和學習人的駕駛方式，是到不了L4的，對嗎？

樓天城：我確實說過類似觀點，但這個問題要分技術和產品兩個維度來看。

從技術上說，不能簡單把某條路徑打成L2技術。今天很多公司也在做強化學習。我當時真正想表達的是，只靠收集人類駕駛數據，做不到L4。

這一點今天其實已經成了共識。幾乎所有公司都在談強化學習、談世界模型。大家都發現，只靠大量車在路上跑、收集人類數據，這件事幫不了L4。

簡單說，不是L2一定走不到L4，而是沿著L2那條純模仿的技術路徑，它本身幫不了你實現L4。完全沒做過L2的公司也一樣可以做L4。

從產品角度看，又是另一回事。隨著L2越來越安全，用戶會慢慢產生一種差不多可以了的感覺。這種trust會導致一個問題，就是在需要接管的時候，用戶反而接不過來。

這也是為什么L2開得越好，反而在產品層面會引出新的風險。技術上的瓶頸和產品上的風險，其實是兩件事。

量子位：有人說你給VLA判了死刑。

樓天城：如果不看中間過程，只說自動駕駛最終形態……

應該，沒有L的空間（語速放緩）。

因為從效率上看，L并不是V和A之間最有效的中間層。今天我們已經能找到更好的layer（層）。

它可能對某些中間階段是有用的，但我討論的是終局。在終局里，VLA里的L不是最終的連接方式。

即便未來中間層還會保留一些語義推理能力，那也不太可能還是human language（人類語言）這種L，更可能是一些新token。

intention可能不是一種token，但本質上，這已經證明它是更好的中間層。以后也許還會有別的。

所以最終來看，L不會是V和A之間真正長期存在的橋梁。

量子位：那中間階段呢？

樓天城：中間階段它當然是不錯的。我沒說中間階段沒有機會，只是說最終形態不會是這樣。

量子位：但確實已經有一些做VLA的系統，跑出了不錯的效果。

樓天城：對。但很多時候，VLA本身也在變，尤其是L在變，它已經不再是傳統意義上的human language了。

VLA一開始之所以成立，是因為人類語言數據最好收集，所以它是個很好的起點。但再往后看，從工程實踐和產業發展的角度，L扮演的角色會越來越少。

量子位：你也提到，世界模型2.0讓工程師的角色發生了變化。在信息AI領域，大家會討論超級對齊。那在物理AI或者自動駕駛里，有沒有對齊這個概念？

樓天城：此對齊非彼對齊。這里真正需要對齊的，是對什么叫開得好的標準，而不是和人的駕駛行為做對齊。

如果你說的是行為上的對齊，那我們早就不追求那個了，而且那也不是正確方向。但什么叫「好」，這件事還是需要人的參與。

當然，人能提供的關于好與不好的維度，其實是很有限的。AI很早就已經基于這些維度做了大量擴展，而且做得更好。但它不會違反人設定的這些基本維度。

這在技術上未必叫對齊，但它可以實現類似對齊的效果。它對齊的是評價標準，而不是駕駛行為。

所以它的駕駛行為本身，絕對不會再照著人類怎么開來學。

人會先給出最基本的原則，但再往上更細的東西，人其實也給不出來了。AI就在這些原則之上，把事情做得更好。

量子位：假設未來要給火星設計一套新的駕駛系統或者交通系統，是不是那時候就該由AI來設計？

樓天城：（教主漫長停頓5秒）

好問題。

短期內……不會發生。

很長一段時間里，人類駕駛和自動駕駛還會共存，所以系統還是必須建立在現有交通規則之上，不能違反任何規則。

當然，如果未來真的出現一種完全不同于今天的新交通體系，那空間就會被打開。但那可能要等到絕大多數車都已經是自動駕駛之后，才會慢慢開始。

如果真到了火星，而且是一個全自動駕駛環境，那就完全是另一套故事了。但這件事還非常遠。

量子位：我自己平時也開輔助駕駛的車?，F在很多車會亮藍燈，表示處于智能駕駛狀態。如果我要加塞，我會優先挑藍燈的車去加。因為現在交通系統里，最復雜的bug，其實往往是人類駕駛員自己。

樓天城：人現在很多時候更愿意和AI配合，而不是和人配合。

我以前常用AlphaGo來舉例。下棋的時候它是對抗關系，但到了配合場景里，你會發現人其實更喜歡和AI合作。

AI更懂人，而人也會越來越懂AI。

量子位：你們提到，研發人員正在變成世界模型的數據員。

樓天城：更準確地說，是一部分人會變成這樣。另一部分人，比如做車載模型部署和優化的，還是在做別的同樣重要、甚至更重要的事。

量子位：你們一直以天才團隊著稱。當AI開始承擔一些高水平研發角色，會不會降低未來自動駕駛行業對天才的需求？

樓天城：這已經不只是自動駕駛的問題了。

核心在于，人必須學會用新的方式和AI配合。在AI擅長的地方，讓AI主導；在AI不擅長的地方，人去想辦法駕馭它。

這不是某個行業、某家公司單獨面臨的變化，而是整個AI發展到今天，人都必須做出的改變。真正懂得怎么駕馭AI的人，才會成為下一代真正有價值的人才。

這是一次非常大的技術革命。

量子位：但如果我們把視野放回自動駕駛，當AI開始能替代天才工程師，自動駕駛的入局門檻似乎正在降低，因為對人才密度的要求沒那么高了。

不過，你們在構建世界模型2.0的過程中，又依賴了大量運營車輛、反饋數據、精度迭代和整個世界模型閉環……

這樣看，入局的壁壘好像反而又更高了（困惑臉）？

樓天城：其實更準確的說法，是優勢發生了轉移。

當然還是需要很多頂尖人才，但他們做的事情會和以前不太一樣。過去的技術優勢，會逐步轉化成更全面的優勢。

量子位：假設你已經知道了今天這些關于世界模型的洞察，如果重新做一次自動駕駛，會有什么不同？

樓天城：世界上沒有時光倒流這種機會（笑）。

但有些認知，確實要走到一定階段之后才會慢慢形成。比如早年很多公司都覺得，只要不斷收集人類數據、不斷模仿，就能把事做成。到了今天，幾乎所有人都已經認可強化學習的重要性。

但很多公司的車可能還沒有發展到那個階段，也就是還沒強到讓人徹底判斷不了好壞，所以他們還會覺得現有研發方式能繼續用下去。也許等再往后走，他們也會有類似認知。

如果真的能帶著今天的記憶回到過去，可能確實能少走一些彎路。但現實是，一個團隊也必須靠自己一步步意識到這些事情。

沿著原來的方法走，我們Pony自己也走了4年模仿學習。這些經歷不是沒用，恰恰是因為走過了，才真正理解為什么必須走向強化學習。我們也長期依靠人來主導開發，正因為做過，才真正理解為什么要把更多事情交給AI。

量子位：所以說你們這十年自動駕駛的探索過程……

樓天城：（提前預判）這個問題問得很好。

也許知道整個發展過程，才是一家公司真正的壁壘。

（停頓3秒）

一步步走到現在，經歷過那些Know-How，經歷過那些鉆研，才知道下一步該怎么走。

整個過程本身，就是一筆非常獨特的財富。

量子位：Scaling Law在你們的探索過程中起什么作用？

樓天城：在數據量還比較小的時候，增加數據當然有幫助。

但當數據量上來之后，尤其是在自動駕駛這種出錯代價非常高的場景里，已經被多次證明，單靠加數據幫助很有限。

真正需要的，是訓練范式和模型結構層面的改變。不是說Scaling Law沒用，而是它在早期作用更大，到了后期，決定上限的已經是其他因素了。

量子位：你們在博文里提到，未來不會只局限在自動駕駛這個場景。核心原因是什么？

樓天城：我一直認為，自動駕駛是物理AI里最先鋒的應用。

如果連先鋒應用都做不好，那別的應用遲早也會遇到同樣的問題。

而世界模型本身也有不同階段的演化。到了下一階段，很自然就要融入更多物理定律。這個能力建設，會讓我們有機會去做更多物理AI應用，也能創造更多價值。

還有一個很關鍵的點，就是人和AI之間關系的變化。

最近幾個月，大家都在盯著AI寫代碼，AI coding成了熱點。它開始具備一定的自我演進能力，調用工具的能力也越來越強。

這時候，人和AI的關系就必須重新思考了。

我自己其實早就跳出了當年那種人教AI的圖靈測試式想象。越來越多事情，已經可以由AI來主導了。比如世界模型2.0，本質上就是AI在主導研發。

那再往外想，整個公司的其他策略，比如商業化、宣傳，是不是未來也可以由AI來主導？甚至今天我來和你聊天，說不定以后AI也能告訴我應該怎么表達。都是有可能的。

未來，我們和AI的關系大概率還會繼續變化。很多事情會從AI輔助，逐步走向AI主導。

量子位：能不能理解成，你們在自動駕駛里實現了harness（控制），接下來在其他領域也有機會復制這件事？

樓天城：對，這套能力完全有機會影響到別的部分，甚至不一定局限在物理AI。

量子位：也就是說，一方面是核心技術發生了變化，另一方面是你們內部技術積累也到了某個階段，所以才打開了新的象限。

樓天城：我們現在更多還在能力積累階段，等到更合適的時候再去分享。

但這個空間肯定不會只局限在物理AI的某一個應用里。它至少有兩個維度。一個是應用層面，不止一種物理AI應用；另一個是我們和AI的關系，也已經不再停留在輔助階段。

量子位：空間打開之后，先做什么、后做什么，你們會怎么判斷？

樓天城：一個很重要的心得是，能力積累和把事情真正做成，是分階段的。

能力必須先積累到一定程度，事情才有可能真正做成。

自動駕駛就是這樣。只有當車的安全性夠好、成本夠好、服務體驗也夠好，真正有意義的商業化才會開始。

其他領域有時候要求甚至比自動駕駛還高。因為出行本身已經是一個很成熟的領域了，如果進入一個還不成熟的商業場景，對能力的要求可能更高。

所以前期，我們還是會把主要精力放在能力建設上。然后等真正合適的機會出現時，再去出手，而且希望每一次出手都能達到很好的效果。未來肯定不會只做一種應用。

量子位：有沒有一些像ODD那樣規則特別清晰的領域，更適合能力復用？

樓天城：可能是反過來的。

隨著基礎模型的發展，單獨提升細分領域能力，已經不是最重要的方向了。你看今天的基礎模型，也不會專門拆出一個物理模型、一個化學模型、一個數學模型，它們基本都是融合在一起的。

很多細分場景的能力，反而是在更通用的場景中學出來的。

當然，你可以先在一兩個新場景里驗證價值，但訓練這件事的關鍵，并不來自那個具體場景本身。

量子位：很多公司做創新，都是先看準場景再建能力。你剛才表達的邏輯還是先基于能力。那你們內部評價自己能力的標準是什么？有沒有類似L0到L5這樣的劃分？

樓天城：我不太想自己再發明一個新的定義，但在整個AI領域，其實有一個很自然的階段劃分。

先是AI向人學習，這時候它比人弱。再往后，它會逐漸接近人。然后，它會超越人。再之后，是在超越人之后繼續進步。

這幾個階段，在物理AI領域也一定會持續發生。

而且我認同這種分法，因為從弱于人，到接近人，再到超越人，最后走向超越人之后繼續自我進化，這幾個階段所需要的技術方法是完全不一樣的。每進入下一個階段，前一階段那套做法都必須發生根本變化，才可能真正邁進去。

今天我看到的很多物理AI，其實還處在第一個階段，很多系統甚至還不如人，用的也還是我們更早年那種模仿學習思路。

至于后面怎么走，我們因為已經經歷過，所以知道還可以繼續往下走。但我覺得，誰都繞不過這些階段。

量子位：你的很多學弟學妹（笑）……現在都投身了具身智能浪潮。大家都說這是10年前的自動駕駛。

作為10年前走過來的人，你覺得他們未來一定會遇到什么挑戰？

樓天城：剛才說的這幾個階段，他們都會經歷。

他們也會走到一個類似我們2020年的狀態，也就是開始要做強化學習的那個階段。

但如果你自己還沒走到那里，我其實也沒法說服你。因為很多事情，只有真正經歷過，后面才能走得更好。

所以我覺得，最重要的是盡快走到那個階段。等到了那一步，要有足夠開放的心態，真正接受一套完全不同的做法，接受一種新的訓練范式，然后讓系統繼續進步。

再往后，等有一天它明顯比人強很多了，那下一步怎么讓它繼續提升，就又會進入今天我們正在經歷的這種進化過程。

這些事情，都會發生。

量子位：這個過程其實沒法跳過去。你明知道他們大概會在哪個節點需要改變，但他們還是得自己經歷一遍。

樓天城：或者說，只有真的經歷過，他才可能真正知道為什么要改，愿意去改，或者真正知道該怎么改。

量子位：你們現在打開了新的空間，可以做更多事了。公司已經上市了，這件事會帶來什么變化嗎？

樓天城：上市這件事，本質上還是為了做更有價值的事，這一點始終不會變。

自動駕駛的商業化本身也還在繼續發展，而且現在應該正處在進展最快的時候。這仍然會是小馬最主要的增長方向。

只不過與此同時，我們也可以把過去積累下來的經驗，延展到更多方向，去創造更大的價值。

所以從本質上說，上市這件事并不會影響技術發展的方向。

還有一點，其實和上不上市都沒關系。AI發展到今天，這半年可能已經是變化最快的半年了，半年之后可能還會更快。

這種變化，不只會影響我們的技術，也會影響人和AI之間的關系。

能不能跟上這種變化，是所有想survive的公司都必須面對的事。

量子位：這種變化，會不會也影響你們創新的方式？就是很少幾個人試了一下，結果發現居然有效?，F在還會有這種狀態嗎？

樓天城：從結果上看，確實可能還是你說的這種感覺。有些事情，未必需要投入特別多人力，就可以先試一下，然后很快驗證它能不能有效。

但更重要的其實不是這個。

更關鍵的是，在這個過程中，人發揮作用的方式變了，貢獻價值的方式也變了。

量子位：在人和AI關系發生巨大變化的這個時刻，那種真正會馴馬的人才，反而變得更稀缺、更珍貴了。

樓天城：對。harness這個詞翻得特別好，就是馬鞍。

現在的AI，真的越來越像一匹能量極大、越來越野的脫韁野馬。

你怎么讓它沿著你的意志去行動，同時又能保持自控，還能繼續自我演進、越做越好，我覺得這類能力就是今天這個時代最關鍵的能力之一。

量子位：人還是最重要的。只是現在這種人才越來越貴了。

樓天城：貴其實是相對的。

如果同樣一個人，能夠創造出比以前大得多的價值，那自然也應該獲得更高的、合理的回報。這本身就是正常的發展過程。

量子位：現在行業里，頂級AI人才已經拿到像足球明星一樣的待遇……（教主聽到后困惑臉）

就是說會給他們發上億年薪。你覺得這合理嗎？

樓天城：這里面當然會有階段性的波動。

但整體來看，未來一定會是更少的人，做出更多的貢獻。這是一個很正常的發展趨勢。

所以我們還是回到貢獻本身來看。薪水可能會上下波動，但背后那條主線，其實是在不斷抬升的。

量子位：我們現在談世界模型2.0的時候，感覺像是在打開一條通向AGI的路。你認同這個說法嗎？

樓天城：不是在打開。已經打開了，而且已經走了很久，現在已經到了一個勢不可擋的狀態。

量子位：那你定義的AGI，會是什么狀態？

樓天城：emm……早年也嘗試過給AI的發展定義一些階段。

但后來我發現，那已經不是一個簡單和人比較的階段定義了，因為今天早就不是停留在那個層面了。

我覺得AI現在已經具備了一些自我演進、自我提升的能力。這已經遠遠不只是獨立完成任務這么簡單。

接下來，AI還會進一步擁有和物理世界更緊密接觸的能力，甚至真正能夠去管理一大群人，或者去管理更復雜的人與人之間的關系。

量子位：你的意思是，AI未來甚至可能去管理一個團隊？

樓天城：公司里面當然還是有人，但越來越多關鍵決策會由AI來做，由AI來分配任務，人更多是給它提供信息。

量子位：這也是你認可的一種AGI實現方式。

樓天城：AGI這個詞，很多時候是在描述一種能力，比如分析能力、推理能力這些。

當然你也可以反過來說，既然它最終能實現這種效果，那它一定已經具備了這些能力。

比如我們今天談AI coding，很少有人再單獨去強調推理能力，但實際上寫代碼這件事里，推理本身就是最核心的能力之一，它是天然包含在里面的。

從我的判斷來看，AI在能力層面已經處在一個勢不可擋的上升過程中。

量子位：之前大家談AGI時，常常會把寫代碼能力當成一個關鍵指標。我一直在觀察，有沒有哪個新模型已經超過了你的水平。你現在覺得，有模型已經超過你了嗎？

樓天城：我現在自己也已經在用模型幫助我寫代碼了，甚至還在用一些方法去教模型怎么自己寫代碼。

所以從這個意義上說，我早就不是一個單獨存在的個體了。

不過，就我訓練出來的agent來看，至少在很多題庫上，現在還是排在前面，還是有一定領先性的。

但這里說的是我訓練出來的agent，不再是我個人本身了。

我其實早就不在意，去和模型做那種個人層面的正面對比了。

如果一定要說，我能說的是，我和AI結合之后形成的系統，要比單獨的AI更強。

但如果只是把我個人拎出來和它們單獨比，我很早就不這么看這件事了。

量子位：所以以后真正的頂尖程序員比拼，拼的其實是人加AI的綜合能力。

樓天城：以后比賽是不是會按這個方式辦，我不確定。

但在真實世界里寫代碼這件事上，已經是這樣了。

量子位：你剛才提到，我們已經在通往AGI的過程中。之前Ilya有一個比較有爭議的觀點，他說現在這套算法，以及單純依賴scaling的方式，是沒法實現AGI的。你認同嗎？

樓天城：確實不是能靠那種方式做出來的。

量子位：那是不是意味著，我們還是需要一種新的，或者更好的架構？

樓天城：過去3到6個月，AI最大的變化其實已經把答案給出來了。

模型結構上當然一直會有自然演進和升級，但真正更關鍵的變化，是它開始會使用工具了，開始擁有skills，也開始有了harness和engineer的能力。

我覺得這才是它能力躍遷的根源。并不是靠簡單增加數據做到的。

量子位：這里還有一個很直覺的問題。比如人類小孩，好像天然就知道站在高處不能掉下去。但機器人，或者自動駕駛汽車，似乎并不天然具備這種認知。

樓天城：它不需要自己親自經歷一次，可以直接通過這些skills獲得這種能力。

人的很多能力是彼此分散的，要一項一項學。但AI可以直接把這些點總結出來、記住就行了。

量子位：你怎么看電車難題？是不是是時候可以談論了。

樓天城：我覺得AI的作用，就是避免系統做這種選擇。

更早去防范，提前規避，讓系統根本不被逼到那個狀態。

如果它真的做得足夠好，本來就不該被逼到非選不可的狀態。

量子位：我其實還有最后一個問題，AI正在變得這么強大，咱們都是有娃的人……面向AI未來，你會怎么去養育下一代？

樓天城：過去這些年，我們一直在做一件事，就是讓AI超越人。駕駛上它已經超越了，未來別的領域可能也會繼續超越。

問題在于，這件事真正的意義是什么？為什么人要去推動這件事？

一方面，AI做得更好，當然會給我們帶來價值。比如從安全角度，它可以減少事故。

但更重要的另一方面是，只有親身參與這個AI超越人的過程，你才真正有機會想明白，人未來該怎么和AI共存。如果你根本沒有參與這個過程，你甚至可能不知道該怎么和它相處。

在這個過程中，我們也許才會真正找到，當AI已經足夠強的時候，人還有哪些事情值得做、還能做出獨特貢獻。這其實也是我現在工作中一個很重要的重點。

我經常在想，到底還有什么事情，是人能做而AI做不了的？

但這件事和下一代教育本身，并不是直接對應關系。

我并不認同現在就急著去學某個特定內容，我反而覺得，一些基礎能力更重要。

量子位：比如體育……（笑）

樓天城：體育肯定是重要的。數學、物理這些認知能力，以及交流能力，這些都很重要。

但如何和AI共存，確實會是一個持續發展的命題。這可能也是我們這一代人最重要的工作之一。

幫助AI超越人，不是為了單純看它變得比人強，而是希望在這個過程中，真正想明白，人到底還能在哪些地方做出貢獻。

只有真正經歷完整個過程，才可能知道下一步應該怎么走。

也只有經歷過幫助AI超越人的過程，才會知道，未來人該怎么和AI共存。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

量子位

追蹤人工智能動態

12544文章數 176458關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

教育

時尚

本地

家居要聞

手機 / 數碼

房產 / 家居

量子位專訪樓天城：AI是匹脫韁野馬

PonyWorld世界模型2.0深度解析

對話樓天城

DeepSeek V4上線三天，第一批實測出來了

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

最抽象的天才，正在改變瓜迪奧拉

黃楊鈿甜為“耳環風波”出鏡道歉：謠言已澄清

Meta 140億收購Manus遭中國發改委否決

不那么小眾也可以 smart的路會越走越寬

態度原創

江景風格 流動的秩序

干細胞如何讓燒燙傷皮膚"再生"？

定了！北京又一所學校官宣放春假！部分學校今日開始連休9天

伊姐周日熱推：電視劇《重案解密》；電視劇《21世紀大君夫人》......

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

DeepSeek V4上線三天，第一批實測出來了

受賄數額特別巨大、搞權色交易副部級王中和被判17年

受賄數額特別巨大、搞權色交易副部級王中和被判17年

最抽象的天才，正在改變瓜迪奧拉

江景風格流動的秩序

定了！北京又一所學校官宣放春假！部分學校今日開始連休9天

伊姐周日熱推：電視劇《重案解密》；電視劇《21世紀大君夫人》......

云游中國｜逛世界風箏都留學生探秘中國傳統文化