網易首頁 > 網易號 > 正文 申請入駐

量子位專訪樓天城:AI是匹脫韁野馬

0
分享至

Jay 李根 發自 凹非寺
量子位 | 公眾號 QbitAI
Harness(馴馬)會成為這個(AI)時代最關鍵的能力之一。

這是小馬智行CTO樓天城,在與量子位的對話中,給出的最新判斷。



在他看來,如今的AI越來越像一匹脫韁野馬。它開始學會了「調用」:調用工具、調用skills……因此能通過這些腳手架,自我演進,和人類打配合。

主動性和能量大幅提升,未來甚至連人類,都可能成為被「調用」的一環。

樓教主表示,當「AI司機」也和Coding Agent一樣學會了使用工具,人類工程師的角色,會逐漸從「教練」轉變為「執行者」。

這種情況下——

人和AI的關系,必須重新思考了。

這也是小馬智行發布PonyWorld世界模型2.0的根本原因。

自動駕駛,即將進入一個AI主導、AI評測、并「調用」人類協助的新時代。

這個趨勢是確定的,畢竟,人類想要趕上模型的迭代速度,太難了。

連強悍如樓教主這樣的工程師都坦言:

開發的主導權,會逐步交給AI。

是的,一個頂尖的人類程序員,此刻卻在宣告:即便是天之驕子般的工程師,也必須將研發的主導權拱手相讓。

聽起來多少有些殘酷。

但這就是教主樓天城和小馬智行10年創業歷程里,目前為止最直接的結論。開發時代的范式,正在發生方向性的質變。

關于這個問題,或許可以用樓天城在訪談中反復提及的一個詞回答——

大勢所迫。

被技術瓶頸所迫,被消費者的期望所迫,被自動駕駛的終局所迫,被小馬智行十年來始終渴望實現的藍圖所迫。

而這個被逼出來的模型,叫作PonyWorld世界模型2.0。

這是一場自動駕駛開發范式革命中,必須被倒逼出來的一次投影。



而且隨這種趨勢打開的還有小馬智行的2.0時代,以自動駕駛出發的PonyAI,現在已經到了開啟更大空間探索的時刻,通往物理AGI的道路已經被打開。

以及,樓教主的觀點是:我們已經在路上了。

PonyWorld世界模型2.0深度解析

人類駕駛數據的價值,正在逐步歸零。

并非思維實驗。這個曾經看似遙遠的未來,如今已成為小馬智行一切技術研發的出發點。

當AI司機的安全性全面超越人類,再讓人類工程師手把手教AI開車,無異于讓業余棋手去輔導AlphaGo。

雖然從行業發展角度來看是件可喜可賀的事,但回想2020年,難免不有些讓人唏噓。

那基本是「模仿學習」的時代。無論自動駕駛還是人工駕駛,核心都是為了收集海量數據,讓系統去模仿人的行為。

整個行業都在用影子模式收集海量人類駕駛數據,試圖大力出奇跡。

但奇跡沒有來。

模仿學習的天花板,就是人類本身。

而L4級自動駕駛是無法靠人類兜底的,這個幾乎零容錯的終局要求,遠比「像人一樣開車」嚴苛得多。

這也是2020年PonyWorld世界模型1.0啟動的契機。

他們想給機器一個超越人的空間。通過創造一個虛擬駕校,讓機器在里面自己摸索怎么開車,做強化學習。

不過,隨著能力的進一步躍升,另一個尷尬的問題隨之浮現。

當AI駕駛能力已經遠超人類時,人類給AI的指導,很可能是錯的……

一旦AI超過了人,人其實已經失去了評判權。因為我們無法再判斷誰更好、誰更差。

在這種情況下,只有AI自己,能窮盡人類所不能察覺的維度,精準定位到底哪里出了問題。

也就是說,讓AI來識別并指導AI。

這是AI時代的「圖靈測試」。

基于這個理念,小馬對1.0進行了一次開發范式的全面重構,帶來了PonyWorld世界模型2.0。

人類不再是這個閉環的中心,AI,正式成為總教練。

自我診斷,是這套系統進化的核心引擎。

目前行業里大熱的VLA(視覺-語言-動作)路線,核心邏輯是在感知與動作之間硬塞進一個語言模型——讓AI先把路況「翻譯」成文字,再基于文字生成動作。

但語言,本質上是對復雜4D物理時空的一種極度降維的「扁平投影」。雖然它提升了信息的傳播效率,卻不可避免地丟棄了大量珍貴的物理世界上下文。

這種架構,從誕生的那一刻起,就注定了它的上限。

為此,小馬智行選擇跳過「語言」這個中間商,讓傳感器數據直接映射為駕駛動作。

這不僅大幅削減了算力消耗,更讓物理數據的收集與世界模型精度的提升變得前所未有的高效。

但這并不意味著放棄了「可解釋性」和「語義推理」。

小馬在車端模型的訓練中,引入了一個比語言更接近駕駛本質的中間層——Intention(意圖)語義層。

真正的老司機在緊急避險時,腦海里絕不會先默念一段臺詞。

「前方有障礙物,我要向左打方向……」等把這些可能性都在腦海里推理一遍,黃花菜都涼了。

面對瞬息萬變的路況,人類高手是直接產生「意圖」。

這正是PonyWorld世界模型2.0想要復刻的本能。

模型在做出每一個駕駛動作的同時,其內部會同步生成結構化的意圖表達。翻譯成人類能懂的語言,就是:

我選擇在路口前減速等待,是因為右前方那個行人正在走向斑馬線,我預判他大概率會橫穿。

請注意,這些意圖信息不是事后用另一個模型「解釋」出來的,也不是推理過程中額外插入的累贅,而是在訓練階段就與駕駛動作被聯合學習的原生能力。

而當這個意圖層被解鎖時,將會帶來一個此前鮮被討論的殺手锏:

它可以被無限生成。

世界模型本身就是生成模型,我們可以基于意圖去反向生成任何意圖組合對應的虛擬場景,讓AI在所有可能的意圖排列組合中接受高強度的「特訓」。

這帶來了一個根本性的差異。

人類開車時,通常只能對其他交通參與者做「最大似然估計」——覺得最有可能發生什么,就按什么反應。

但小馬的AI司機擁有比人類長得多的上下文記憶能力,這是AI的天賦。它不需要靠「直覺」這種玄乎的東西,而是可以同時Keep in mind所有可能的意圖組合,再進行綜合決策。

系統可以自動回溯每一次決策,精準定位偏差究竟出在哪一層。

這些數據在真實世界中是無法被收集的,畢竟,誰會告訴你他剛才打方向盤的時候到底在想些啥啊。

當AI補全了這塊長期的數據空缺,模型的自我診斷能力,無疑將迎來質的飛躍。

這直接帶來了第二個核心突破:定向進化。

以前想提升世界模型的精度,路子很野,叫「廣撒網」。

全無人車隊到處跑,數據全量回傳,然后指望工程師憑經驗去「沙里淘金」。

但車隊規模一旦從百輛沖到千輛,這招就不靈了。絕大多數數據對提升精度沒啥用,只會變成昂貴的存儲垃圾,白白燒錢。

PonyWorld世界模型2.0徹底反轉了這個邏輯。

當系統自我診斷發現模型在某個場景下「心里沒底」——比如某幾個路口每到傍晚逆光時,模型對特定障礙物的模擬置信度就開始跳水——它會自動生成一個定向采集任務,直接給測試團隊派單:

請在未來一周內,于下午4:30-5:30之間,在指定路口重點采集逆光條件下非機動車與行人混行場景數據。

隨后,研發人員、測試工程師、運營團隊……整個組織開始圍繞世界模型2.0的「精度需求」運轉。AI說哪里差點意思,人類就去補哪塊數據。

人類工程師的角色,從手握教鞭的「駕校教練」,變成了聽命行事的「AI數據采集員」。

研發節奏不再由人類經驗驅動,而是由AI根據自身進化需求,自動生成。

值得注意的是,這里有個前提:

即便是做「AI的數據采集員」,也極度考驗人類對AI的駕馭能力。

人類并沒有完全退出Loop(AI進化的閉環流程),只是角色變了。

未來,怎么駕馭AI這匹脫韁的野馬,既讓它按自己的意志行動,又能保留它自我演進的能力,將是人才最需要具備的特質。

而對小馬來說,同樣可以預見的未來是:

接入2.0的自我診斷和定向進化能力后,無疑會給小馬智行已有的「飛輪」,再狠狠踩一腳油門。

而核心燃料,正是L4全無人車隊在真實交通中運營產生的數據。

AI會遇到人類司機不容易遇到的場景。

通常而言,人類司機在意識到旁邊是AI車時,反應模式會變。有人會更敢加塞,有人會更愿意配合,也有人會試探它的邊界。

因此,世界模型不僅要模擬人和人之間的交互,還得模擬人和AI之間的交互,尤其當AI的開法并不完全像人時,這件事就更有必要了。

而這種數據,只有像小馬這樣跑全無人Robotaxi的公司才能采集到——

大規模L4無人車隊商業運營,產生真實世界的高價值數據;世界模型據此提升精度;車端模型持續增強;更強的模型支撐更大規模部署;更大規模部署又產出更多高精度數據。

循環往復,自我加速。



如今,小馬智行已經積累了千萬公里級的多城市純無人駕駛數據。

數據量級是對結果的一種印證,而這個過程中所積累的經歷和Know-How,同樣是一筆寶貴的財富。

當然,一切的一切,最終還是得回到技術。

而負責技術的小馬智行CTO樓天城,給出了許多細節和實踐認知。



對話樓天城

量子位:以前你們一直用安全、舒適、效率這些指標,之前是人來定義?,F在聽起來,更像是AI在決定了。

樓天城:整體架構最早當然還是人搭的,安全這些指標也一直都在。

但后來,我們通過學習的方式,訓練了一些模型去做評價。

關鍵在于:AI為什么做得不好,問題到底出在哪。這件事現在人已經不太能判斷準了,AI來當這個醫生更合適。

量子位:核心原因不是人有短板,是AI進化得太強了。

樓天城:或者說人現在也很難再有什么進步(笑)。

但AI可以依靠非常長的context(上下文),讓自己的理解能力變得特別強。

以前是人來判斷,現在是AI來判斷。收集之后夠不夠、還要不要繼續改、這次改得好不好……這些關鍵決策點,正在逐步被AI接管。



量子位:所以人真的成了「工具人」(笑)。

樓天城:或者說,我們把人的精力放到了其他同樣重要的事情上。至于判斷這件事,就交給更擅長判斷的AI。

這樣做最大的意義就是突破天花板。如果今天還繼續靠人來做,很多時候可能已經沒法推動系統繼續正向進步了。

量子位:主導權交給AI,這里面會不會出現幻覺?

樓天城:幻覺這個詞最早是從大語言模型那邊來的。

過去兩年已經有太多例子說明,Scaling Law這條路,也就是單純加數據,并不能解決幻覺。到今天,幻覺比例依然不低。

真正需要的是別的東西。比如對系統加限制,讓它自我迭代、自我演進。

要讓它自己意識到哪里有問題,然后自己去改進。

量子位:怎么意識到?

樓天城:它知道結果不對。比如因為幻覺導致最后撞了,或者發生了急剎,它就會回溯前面哪幾步出了問題,然后再去改。

量子位:在自動駕駛里,幻覺問題是不是相對更容易處理一些?畢竟交通規則還是比較完備的。

樓天城:它確實相對更容易被壓低,但問題在于,在真實世界中,幻覺帶來的代價非常高。

量子位:PonyWorld世界模型2.0是一個升維概念,整個AI在訓練AI,AI在驅動一切。那怎么確保系統始終安全?

樓天城:有一整套非常精確的評價體系,來判斷問題發生的概率到底是多少。

我們會告訴它什么是好的、什么是不好的,但不會直接告訴它具體該怎么評價。最終我們看到的是,指標在持續提升。

還有一點,就算讓AI來判斷,它判斷得也比人更準。隨著系統持續進化,人可能連某個問題到底是不是幻覺,都判斷不過AI了。

到今天為止,所有基于概率的模型都還做不到徹底消除幻覺。但讓AI來驅動改進,比讓人來驅動,速度快得多,天花板也高得多。

量子位:世界模型2.0對系統訓練的速度和效率有了質的提升,那在落地層面,是不是也意味著質的提升?

樓天城:(停頓2秒)這是多方面的。

首先,落地不再只是局限在固定區域,而是可以走向更多區域、更繁忙的路段,比如高峰期,還有那些我們原來并不熟悉的國家和市場。

這里可以用一個詞,叫superset。在這些新地方遇到的很多場景,其實只是原有世界模型的一個子集。所以系統在新區域啟動時,會更有底。

另外一個變化,是大家的預期在提高。早年大家會覺得自動駕駛偶爾犯傻也能接受,但現在大家要求已經高很多了。這也是長期商業化推進里很關鍵的因素。

量子位:每個地方的駕駛行為和容忍度都不一樣。有些地方讓行人,有些地方加塞很激烈,這會影響系統嗎?

樓天城:這些其實都可以看作子集。

這些組合在世界模型里其實都已經出現過,只是在不同地方,它們的概率分布不一樣。這個地方更保守一點,那個地方更激進一點,但兩種場景本身都已經在世界模型里存在了。

量子位:能不能理解成,北京訓練出來的司機和廣州訓練出來的司機,風格上還是會有差別?

樓天城:在L4這個層面,其實不需要特別明顯的差異。

L4真正要解決的,是在一萬小時駕駛里,那些因為風格不同或者極端行為導致的危險場景。而這些危險場景在很多地方,哪怕是海外,其實都沒有本質上的巨大差異。

有些地方開車猛一點,有些地方保守一點,但真正到出事的時候,其實都是一樣的。

這可能和L2不同。輔助駕駛更在意不同地區整體的駕駛習慣,但L4更關注極端場景,而這些極端場景的分布其實非常一致。

所以去新地方,并不需要太多額外操作。

量子位:世界模型2.0發揮作用之后,對車端傳感器方案和算力會有什么影響?

樓天城:先說傳感器,這里面核心是成本。

如果我們希望使用更便宜、更標準化的傳感器,那它們在質量上一定會有一些不足。比如在特別復雜的雨天環境里,標準化傳感器可能就會比高端傳感器差一些。

這確實需要世界模型繼續進步,在生成階段把這些問題也納入進去。不過這項技術我們已經做完了,現在已經可以比較好地使用標準化傳感器。

再說算力。通常兩三倍的差距不會帶來本質變化,除非是100倍這種量級,才可能真的改變很多事情。但100倍本身也不是個簡單數字。

大多數時候,兩三倍這種差異,主要還是通過訓練范式、開發范式和模型結構去消化。

量子位:10年前大家最常說的詞是corner case,也就是極端場景。當時大家一直在討論到底能不能窮盡它?,F在世界模型是不是找到了一條能解決,或者說能窮盡極端場景的路徑?

樓天城:更準確地說,是窮盡這些場景里的intention(意圖)分布。

場景本身并沒有那么多變種,但我們不能說自己已經窮盡了全部場景。真正無限變化的,其實是不同物體之間的意圖組合。

同樣的場景、同樣的狀態,因為不同參與者的意圖不同,就會形成非常多的組合。世界模型真正能做的,是把這些意圖組合窮盡掉。

(停頓……)

在現實世界做這件事,是不可能的。

意圖數據本身就很難收集,你不可能在真實道路上要求所有人按照某種設定好的意圖去行動。

但在虛擬環境中,我們可以強制設定意圖。

量子位:你們博客里有一句話讓我印象很深,在AI駕駛能力超過人類實際水平之后,普通人類數據對世界模型精度提升的價值會趨近于零。這是一個數據層面的洞察,還是認知層面的洞察?

樓天城:這個認知其實已經存在一段時間了。而且我甚至覺得,如果系統已經做得很好,那這個價值不只是趨近于零,甚至可能是負的。

量子位:???(驚訝臉)

樓天城:本質上其實是是AI發展階段變了。AI會經歷從不如人,到接近人,再到超過人,然后繼續自我改進的過程。

當人已經明顯比AI差的時候,人提供的很多數據反而會把一些不該有的壞習慣帶進來。

AI剛超過人的時候,可能整體行為看起來還和人很像,只是它在那些和人不一樣的地方做得更好。但恰恰是這些不一樣的場景,人已經沒法準確判斷到底是好還是不好了。

有點像老師。早期當然很感謝老師教了很多東西,但真正到了做研究的階段,老師其實已經幫不上太多了,更不需要再把早年的東西一遍遍重新灌給你。

接下來,需要AI自己去生成。

這就好像你沒法教AlphaGo下圍棋,就算讓我教,我也教不了啊(教主無奈)。

量子位:有一種說法是,真正高級的AI司機,可能會在多車道變道時,直接從第一車道切到第四車道……

樓天城:(打斷)這其實要看具體情況。

如果路上視野特別好,看得很清楚,沒有遮擋,那它這么做也許完全合理,甚至可能就是最優解。

但換個場景,就不能這么做。有時候人類司機沒有意識到潛在風險,因為整個過程需要時間,而且前方可能有遮擋,只是恰好沒碰上問題。但AI可以意識到這些潛在因素。

而且人本來就是千人千面。AI還得先判斷「到底該學誰」,對吧?

因為有些人會這樣開,有些人不會。

量子位:所以現在讓AI教AI怎么學,也能避免學到這些危險行為?

樓天城:AI一旦不再以開得和人一樣為目標,而是以開得更好為目標,它自然就會意識到這些風險因素必須納入考慮。

但AI教AI最根本的一點,還是它要繼續告訴自己,哪里開得不夠好,然后持續改進。當AI已經明顯超過人之后,要再往上提升,就必須讓AI來驅動很多事情。

量子位:你這個洞察,好像也回應了L2到底能不能升到L4這個問題。如果只是不斷模仿和學習人的駕駛方式,是到不了L4的,對嗎?

樓天城:我確實說過類似觀點,但這個問題要分技術和產品兩個維度來看。

從技術上說,不能簡單把某條路徑打成L2技術。今天很多公司也在做強化學習。我當時真正想表達的是,只靠收集人類駕駛數據,做不到L4。

這一點今天其實已經成了共識。幾乎所有公司都在談強化學習、談世界模型。大家都發現,只靠大量車在路上跑、收集人類數據,這件事幫不了L4。

簡單說,不是L2一定走不到L4,而是沿著L2那條純模仿的技術路徑,它本身幫不了你實現L4。完全沒做過L2的公司也一樣可以做L4。

從產品角度看,又是另一回事。隨著L2越來越安全,用戶會慢慢產生一種差不多可以了的感覺。這種trust會導致一個問題,就是在需要接管的時候,用戶反而接不過來。

這也是為什么L2開得越好,反而在產品層面會引出新的風險。技術上的瓶頸和產品上的風險,其實是兩件事。

量子位:有人說你給VLA判了死刑。

樓天城:如果不看中間過程,只說自動駕駛最終形態……

應該,沒有L的空間(語速放緩)。

因為從效率上看,L并不是V和A之間最有效的中間層。今天我們已經能找到更好的layer(層)。

它可能對某些中間階段是有用的,但我討論的是終局。在終局里,VLA里的L不是最終的連接方式。

即便未來中間層還會保留一些語義推理能力,那也不太可能還是human language(人類語言)這種L,更可能是一些新token。

intention可能不是一種token,但本質上,這已經證明它是更好的中間層。以后也許還會有別的。

所以最終來看,L不會是V和A之間真正長期存在的橋梁。



量子位:那中間階段呢?

樓天城:中間階段它當然是不錯的。我沒說中間階段沒有機會,只是說最終形態不會是這樣。

量子位:但確實已經有一些做VLA的系統,跑出了不錯的效果。

樓天城:對。但很多時候,VLA本身也在變,尤其是L在變,它已經不再是傳統意義上的human language了。

VLA一開始之所以成立,是因為人類語言數據最好收集,所以它是個很好的起點。但再往后看,從工程實踐和產業發展的角度,L扮演的角色會越來越少。

量子位:你也提到,世界模型2.0讓工程師的角色發生了變化。在信息AI領域,大家會討論超級對齊。那在物理AI或者自動駕駛里,有沒有對齊這個概念?

樓天城:此對齊非彼對齊。這里真正需要對齊的,是對什么叫開得好的標準,而不是和人的駕駛行為做對齊。

如果你說的是行為上的對齊,那我們早就不追求那個了,而且那也不是正確方向。但什么叫「好」,這件事還是需要人的參與。

當然,人能提供的關于好與不好的維度,其實是很有限的。AI很早就已經基于這些維度做了大量擴展,而且做得更好。但它不會違反人設定的這些基本維度。

這在技術上未必叫對齊,但它可以實現類似對齊的效果。它對齊的是評價標準,而不是駕駛行為。

所以它的駕駛行為本身,絕對不會再照著人類怎么開來學。

人會先給出最基本的原則,但再往上更細的東西,人其實也給不出來了。AI就在這些原則之上,把事情做得更好。

量子位:假設未來要給火星設計一套新的駕駛系統或者交通系統,是不是那時候就該由AI來設計?

樓天城:(教主漫長停頓5秒)

好問題。

短期內……不會發生。

很長一段時間里,人類駕駛和自動駕駛還會共存,所以系統還是必須建立在現有交通規則之上,不能違反任何規則。

當然,如果未來真的出現一種完全不同于今天的新交通體系,那空間就會被打開。但那可能要等到絕大多數車都已經是自動駕駛之后,才會慢慢開始。

如果真到了火星,而且是一個全自動駕駛環境,那就完全是另一套故事了。但這件事還非常遠。

量子位:我自己平時也開輔助駕駛的車?,F在很多車會亮藍燈,表示處于智能駕駛狀態。如果我要加塞,我會優先挑藍燈的車去加。因為現在交通系統里,最復雜的bug,其實往往是人類駕駛員自己。

樓天城:人現在很多時候更愿意和AI配合,而不是和人配合。

我以前常用AlphaGo來舉例。下棋的時候它是對抗關系,但到了配合場景里,你會發現人其實更喜歡和AI合作。

AI更懂人,而人也會越來越懂AI。

量子位:你們提到,研發人員正在變成世界模型的數據員。

樓天城:更準確地說,是一部分人會變成這樣。另一部分人,比如做車載模型部署和優化的,還是在做別的同樣重要、甚至更重要的事。

量子位:你們一直以天才團隊著稱。當AI開始承擔一些高水平研發角色,會不會降低未來自動駕駛行業對天才的需求?

樓天城:這已經不只是自動駕駛的問題了。

核心在于,人必須學會用新的方式和AI配合。在AI擅長的地方,讓AI主導;在AI不擅長的地方,人去想辦法駕馭它。

這不是某個行業、某家公司單獨面臨的變化,而是整個AI發展到今天,人都必須做出的改變。真正懂得怎么駕馭AI的人,才會成為下一代真正有價值的人才。

這是一次非常大的技術革命。

量子位:但如果我們把視野放回自動駕駛,當AI開始能替代天才工程師,自動駕駛的入局門檻似乎正在降低,因為對人才密度的要求沒那么高了。

不過,你們在構建世界模型2.0的過程中,又依賴了大量運營車輛、反饋數據、精度迭代和整個世界模型閉環……

這樣看,入局的壁壘好像反而又更高了(困惑臉)?

樓天城:其實更準確的說法,是優勢發生了轉移。

當然還是需要很多頂尖人才,但他們做的事情會和以前不太一樣。過去的技術優勢,會逐步轉化成更全面的優勢。

量子位:假設你已經知道了今天這些關于世界模型的洞察,如果重新做一次自動駕駛,會有什么不同?

樓天城:世界上沒有時光倒流這種機會(笑)。

但有些認知,確實要走到一定階段之后才會慢慢形成。比如早年很多公司都覺得,只要不斷收集人類數據、不斷模仿,就能把事做成。到了今天,幾乎所有人都已經認可強化學習的重要性。

但很多公司的車可能還沒有發展到那個階段,也就是還沒強到讓人徹底判斷不了好壞,所以他們還會覺得現有研發方式能繼續用下去。也許等再往后走,他們也會有類似認知。

如果真的能帶著今天的記憶回到過去,可能確實能少走一些彎路。但現實是,一個團隊也必須靠自己一步步意識到這些事情。

沿著原來的方法走,我們Pony自己也走了4年模仿學習。這些經歷不是沒用,恰恰是因為走過了,才真正理解為什么必須走向強化學習。我們也長期依靠人來主導開發,正因為做過,才真正理解為什么要把更多事情交給AI。

量子位:所以說你們這十年自動駕駛的探索過程……

樓天城:(提前預判)這個問題問得很好。

也許知道整個發展過程,才是一家公司真正的壁壘。

(停頓3秒)

一步步走到現在,經歷過那些Know-How,經歷過那些鉆研,才知道下一步該怎么走。

整個過程本身,就是一筆非常獨特的財富。

量子位:Scaling Law在你們的探索過程中起什么作用?

樓天城:在數據量還比較小的時候,增加數據當然有幫助。

但當數據量上來之后,尤其是在自動駕駛這種出錯代價非常高的場景里,已經被多次證明,單靠加數據幫助很有限。

真正需要的,是訓練范式和模型結構層面的改變。不是說Scaling Law沒用,而是它在早期作用更大,到了后期,決定上限的已經是其他因素了。

量子位:你們在博文里提到,未來不會只局限在自動駕駛這個場景。核心原因是什么?

樓天城:我一直認為,自動駕駛是物理AI里最先鋒的應用。

如果連先鋒應用都做不好,那別的應用遲早也會遇到同樣的問題。

而世界模型本身也有不同階段的演化。到了下一階段,很自然就要融入更多物理定律。這個能力建設,會讓我們有機會去做更多物理AI應用,也能創造更多價值。

還有一個很關鍵的點,就是人和AI之間關系的變化。

最近幾個月,大家都在盯著AI寫代碼,AI coding成了熱點。它開始具備一定的自我演進能力,調用工具的能力也越來越強。

這時候,人和AI的關系就必須重新思考了。

我自己其實早就跳出了當年那種人教AI的圖靈測試式想象。越來越多事情,已經可以由AI來主導了。比如世界模型2.0,本質上就是AI在主導研發。

那再往外想,整個公司的其他策略,比如商業化、宣傳,是不是未來也可以由AI來主導?甚至今天我來和你聊天,說不定以后AI也能告訴我應該怎么表達。都是有可能的。

未來,我們和AI的關系大概率還會繼續變化。很多事情會從AI輔助,逐步走向AI主導。



量子位:能不能理解成,你們在自動駕駛里實現了harness(控制),接下來在其他領域也有機會復制這件事?

樓天城:對,這套能力完全有機會影響到別的部分,甚至不一定局限在物理AI。

量子位:也就是說,一方面是核心技術發生了變化,另一方面是你們內部技術積累也到了某個階段,所以才打開了新的象限。

樓天城:我們現在更多還在能力積累階段,等到更合適的時候再去分享。

但這個空間肯定不會只局限在物理AI的某一個應用里。它至少有兩個維度。一個是應用層面,不止一種物理AI應用;另一個是我們和AI的關系,也已經不再停留在輔助階段。

量子位:空間打開之后,先做什么、后做什么,你們會怎么判斷?

樓天城:一個很重要的心得是,能力積累和把事情真正做成,是分階段的。

能力必須先積累到一定程度,事情才有可能真正做成。

自動駕駛就是這樣。只有當車的安全性夠好、成本夠好、服務體驗也夠好,真正有意義的商業化才會開始。

其他領域有時候要求甚至比自動駕駛還高。因為出行本身已經是一個很成熟的領域了,如果進入一個還不成熟的商業場景,對能力的要求可能更高。

所以前期,我們還是會把主要精力放在能力建設上。然后等真正合適的機會出現時,再去出手,而且希望每一次出手都能達到很好的效果。未來肯定不會只做一種應用。

量子位:有沒有一些像ODD那樣規則特別清晰的領域,更適合能力復用?

樓天城:可能是反過來的。

隨著基礎模型的發展,單獨提升細分領域能力,已經不是最重要的方向了。你看今天的基礎模型,也不會專門拆出一個物理模型、一個化學模型、一個數學模型,它們基本都是融合在一起的。

很多細分場景的能力,反而是在更通用的場景中學出來的。

當然,你可以先在一兩個新場景里驗證價值,但訓練這件事的關鍵,并不來自那個具體場景本身。

量子位:很多公司做創新,都是先看準場景再建能力。你剛才表達的邏輯還是先基于能力。那你們內部評價自己能力的標準是什么?有沒有類似L0到L5這樣的劃分?

樓天城:我不太想自己再發明一個新的定義,但在整個AI領域,其實有一個很自然的階段劃分。

先是AI向人學習,這時候它比人弱。再往后,它會逐漸接近人。然后,它會超越人。再之后,是在超越人之后繼續進步。

這幾個階段,在物理AI領域也一定會持續發生。

而且我認同這種分法,因為從弱于人,到接近人,再到超越人,最后走向超越人之后繼續自我進化,這幾個階段所需要的技術方法是完全不一樣的。每進入下一個階段,前一階段那套做法都必須發生根本變化,才可能真正邁進去。

今天我看到的很多物理AI,其實還處在第一個階段,很多系統甚至還不如人,用的也還是我們更早年那種模仿學習思路。

至于后面怎么走,我們因為已經經歷過,所以知道還可以繼續往下走。但我覺得,誰都繞不過這些階段。

量子位:你的很多學弟學妹(笑)……現在都投身了具身智能浪潮。大家都說這是10年前的自動駕駛。

作為10年前走過來的人,你覺得他們未來一定會遇到什么挑戰?

樓天城:剛才說的這幾個階段,他們都會經歷。

他們也會走到一個類似我們2020年的狀態,也就是開始要做強化學習的那個階段。

但如果你自己還沒走到那里,我其實也沒法說服你。因為很多事情,只有真正經歷過,后面才能走得更好。

所以我覺得,最重要的是盡快走到那個階段。等到了那一步,要有足夠開放的心態,真正接受一套完全不同的做法,接受一種新的訓練范式,然后讓系統繼續進步。

再往后,等有一天它明顯比人強很多了,那下一步怎么讓它繼續提升,就又會進入今天我們正在經歷的這種進化過程。

這些事情,都會發生。

量子位:這個過程其實沒法跳過去。你明知道他們大概會在哪個節點需要改變,但他們還是得自己經歷一遍。

樓天城:或者說,只有真的經歷過,他才可能真正知道為什么要改,愿意去改,或者真正知道該怎么改。

量子位:你們現在打開了新的空間,可以做更多事了。公司已經上市了,這件事會帶來什么變化嗎?

樓天城:上市這件事,本質上還是為了做更有價值的事,這一點始終不會變。

自動駕駛的商業化本身也還在繼續發展,而且現在應該正處在進展最快的時候。這仍然會是小馬最主要的增長方向。

只不過與此同時,我們也可以把過去積累下來的經驗,延展到更多方向,去創造更大的價值。

所以從本質上說,上市這件事并不會影響技術發展的方向。

還有一點,其實和上不上市都沒關系。AI發展到今天,這半年可能已經是變化最快的半年了,半年之后可能還會更快。

這種變化,不只會影響我們的技術,也會影響人和AI之間的關系。

能不能跟上這種變化,是所有想survive的公司都必須面對的事。

量子位:這種變化,會不會也影響你們創新的方式?就是很少幾個人試了一下,結果發現居然有效?,F在還會有這種狀態嗎?

樓天城:從結果上看,確實可能還是你說的這種感覺。有些事情,未必需要投入特別多人力,就可以先試一下,然后很快驗證它能不能有效。

但更重要的其實不是這個。

更關鍵的是,在這個過程中,人發揮作用的方式變了,貢獻價值的方式也變了。

量子位:在人和AI關系發生巨大變化的這個時刻,那種真正會馴馬的人才,反而變得更稀缺、更珍貴了。

樓天城:對。harness這個詞翻得特別好,就是馬鞍。

現在的AI,真的越來越像一匹能量極大、越來越野的脫韁野馬。

你怎么讓它沿著你的意志去行動,同時又能保持自控,還能繼續自我演進、越做越好,我覺得這類能力就是今天這個時代最關鍵的能力之一。

量子位:人還是最重要的。只是現在這種人才越來越貴了。

樓天城:貴其實是相對的。

如果同樣一個人,能夠創造出比以前大得多的價值,那自然也應該獲得更高的、合理的回報。這本身就是正常的發展過程。

量子位:現在行業里,頂級AI人才已經拿到像足球明星一樣的待遇……(教主聽到后困惑臉)

就是說會給他們發上億年薪。你覺得這合理嗎?

樓天城:這里面當然會有階段性的波動。

但整體來看,未來一定會是更少的人,做出更多的貢獻。這是一個很正常的發展趨勢。

所以我們還是回到貢獻本身來看。薪水可能會上下波動,但背后那條主線,其實是在不斷抬升的。

量子位:我們現在談世界模型2.0的時候,感覺像是在打開一條通向AGI的路。你認同這個說法嗎?

樓天城:不是在打開。已經打開了,而且已經走了很久,現在已經到了一個勢不可擋的狀態。

量子位:那你定義的AGI,會是什么狀態?

樓天城:emm……早年也嘗試過給AI的發展定義一些階段。

但后來我發現,那已經不是一個簡單和人比較的階段定義了,因為今天早就不是停留在那個層面了。

我覺得AI現在已經具備了一些自我演進、自我提升的能力。這已經遠遠不只是獨立完成任務這么簡單。

接下來,AI還會進一步擁有和物理世界更緊密接觸的能力,甚至真正能夠去管理一大群人,或者去管理更復雜的人與人之間的關系。

量子位:你的意思是,AI未來甚至可能去管理一個團隊?

樓天城:公司里面當然還是有人,但越來越多關鍵決策會由AI來做,由AI來分配任務,人更多是給它提供信息。

量子位:這也是你認可的一種AGI實現方式。

樓天城:AGI這個詞,很多時候是在描述一種能力,比如分析能力、推理能力這些。

當然你也可以反過來說,既然它最終能實現這種效果,那它一定已經具備了這些能力。

比如我們今天談AI coding,很少有人再單獨去強調推理能力,但實際上寫代碼這件事里,推理本身就是最核心的能力之一,它是天然包含在里面的。

從我的判斷來看,AI在能力層面已經處在一個勢不可擋的上升過程中。

量子位:之前大家談AGI時,常常會把寫代碼能力當成一個關鍵指標。我一直在觀察,有沒有哪個新模型已經超過了你的水平。你現在覺得,有模型已經超過你了嗎?

樓天城:我現在自己也已經在用模型幫助我寫代碼了,甚至還在用一些方法去教模型怎么自己寫代碼。

所以從這個意義上說,我早就不是一個單獨存在的個體了。

不過,就我訓練出來的agent來看,至少在很多題庫上,現在還是排在前面,還是有一定領先性的。

但這里說的是我訓練出來的agent,不再是我個人本身了。

我其實早就不在意,去和模型做那種個人層面的正面對比了。

如果一定要說,我能說的是,我和AI結合之后形成的系統,要比單獨的AI更強。

但如果只是把我個人拎出來和它們單獨比,我很早就不這么看這件事了。

量子位:所以以后真正的頂尖程序員比拼,拼的其實是人加AI的綜合能力。

樓天城:以后比賽是不是會按這個方式辦,我不確定。

但在真實世界里寫代碼這件事上,已經是這樣了。

量子位:你剛才提到,我們已經在通往AGI的過程中。之前Ilya有一個比較有爭議的觀點,他說現在這套算法,以及單純依賴scaling的方式,是沒法實現AGI的。你認同嗎?

樓天城:確實不是能靠那種方式做出來的。

量子位:那是不是意味著,我們還是需要一種新的,或者更好的架構?

樓天城:過去3到6個月,AI最大的變化其實已經把答案給出來了。

模型結構上當然一直會有自然演進和升級,但真正更關鍵的變化,是它開始會使用工具了,開始擁有skills,也開始有了harness和engineer的能力。

我覺得這才是它能力躍遷的根源。并不是靠簡單增加數據做到的。

量子位:這里還有一個很直覺的問題。比如人類小孩,好像天然就知道站在高處不能掉下去。但機器人,或者自動駕駛汽車,似乎并不天然具備這種認知。

樓天城:它不需要自己親自經歷一次,可以直接通過這些skills獲得這種能力。

人的很多能力是彼此分散的,要一項一項學。但AI可以直接把這些點總結出來、記住就行了。

量子位:你怎么看電車難題?是不是是時候可以談論了。

樓天城:我覺得AI的作用,就是避免系統做這種選擇。

更早去防范,提前規避,讓系統根本不被逼到那個狀態。

如果它真的做得足夠好,本來就不該被逼到非選不可的狀態。

量子位:我其實還有最后一個問題,AI正在變得這么強大,咱們都是有娃的人……面向AI未來,你會怎么去養育下一代?

樓天城:過去這些年,我們一直在做一件事,就是讓AI超越人。駕駛上它已經超越了,未來別的領域可能也會繼續超越。

問題在于,這件事真正的意義是什么?為什么人要去推動這件事?

一方面,AI做得更好,當然會給我們帶來價值。比如從安全角度,它可以減少事故。

但更重要的另一方面是,只有親身參與這個AI超越人的過程,你才真正有機會想明白,人未來該怎么和AI共存。如果你根本沒有參與這個過程,你甚至可能不知道該怎么和它相處。

在這個過程中,我們也許才會真正找到,當AI已經足夠強的時候,人還有哪些事情值得做、還能做出獨特貢獻。這其實也是我現在工作中一個很重要的重點。

我經常在想,到底還有什么事情,是人能做而AI做不了的?

但這件事和下一代教育本身,并不是直接對應關系。

我并不認同現在就急著去學某個特定內容,我反而覺得,一些基礎能力更重要。



量子位:比如體育……(笑)

樓天城:體育肯定是重要的。數學、物理這些認知能力,以及交流能力,這些都很重要。

但如何和AI共存,確實會是一個持續發展的命題。這可能也是我們這一代人最重要的工作之一。

幫助AI超越人,不是為了單純看它變得比人強,而是希望在這個過程中,真正想明白,人到底還能在哪些地方做出貢獻。

只有真正經歷完整個過程,才可能知道下一步應該怎么走。

也只有經歷過幫助AI超越人的過程,才會知道,未來人該怎么和AI共存。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這下麻煩大了!不到24小時,許家印傳來3個壞消息,個個戳他心窩

這下麻煩大了!不到24小時,許家印傳來3個壞消息,個個戳他心窩

娛瓜醬
2026-04-27 15:23:10
我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

小馬達情感故事
2026-04-26 18:50:03
越南國家主席夫人:我一定會回來的

越南國家主席夫人:我一定會回來的

中國日報網
2026-04-27 18:35:12
被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

云舟史策
2026-04-26 17:10:28
NBA官宣掘狼沖突罰單:約基奇罰5萬蘭德爾罰3.5萬 無人被禁賽

NBA官宣掘狼沖突罰單:約基奇罰5萬蘭德爾罰3.5萬 無人被禁賽

醉臥浮生
2026-04-27 08:02:43
詹姆斯自責8次失誤不可接受!東契奇承諾蒂耶羅:幫他交技犯罰款

詹姆斯自責8次失誤不可接受!東契奇承諾蒂耶羅:幫他交技犯罰款

羅說NBA
2026-04-27 15:38:58
曝楊子新女友已產子!與黃圣依婚姻存續期疑云重重,去年否定關系

曝楊子新女友已產子!與黃圣依婚姻存續期疑云重重,去年否定關系

一盅情懷
2026-04-27 14:27:14
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

人間頌
2026-04-20 10:16:00
央視曝光兒童彩妝玩具問題,汕頭澄海區開展專項整治行動

央視曝光兒童彩妝玩具問題,汕頭澄海區開展專項整治行動

環球網資訊
2026-04-27 17:21:34
外商投資安全審查工作機制辦公室(國家發展改革委)對外資收購Manus項目作出安全審查決定

外商投資安全審查工作機制辦公室(國家發展改革委)對外資收購Manus項目作出安全審查決定

界面新聞
2026-04-27 16:07:47
浙江又一家銀行正式解散,年內超70家村鎮銀行退出市場

浙江又一家銀行正式解散,年內超70家村鎮銀行退出市場

經理人雜志
2026-04-27 14:37:45
羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

羅永浩連發6個問句怒懟!俞敏洪反思“東方甄選多位主播離職”,有網友說“任何一個人遭遇羅永浩、董宇輝這種忘恩負義的小人都夠嗆”

魯中晨報
2026-04-27 17:56:12
朱華榮定調“三個不變”,阿維塔高端地位不降反升

朱華榮定調“三個不變”,阿維塔高端地位不降反升

汽車觀察AUTO
2026-04-26 21:46:50
不想訪華了?美國聯合10國,對中國發起一輪猛攻,中方反制不隔夜

不想訪華了?美國聯合10國,對中國發起一輪猛攻,中方反制不隔夜

吃貨的分享
2026-04-27 19:32:31
北大教授:中國AI比美國還差得遠,而且差距正在拉大

北大教授:中國AI比美國還差得遠,而且差距正在拉大

六子吃涼粉
2026-04-27 11:35:16
國家發改委: 禁止外資收購Manus 要求撤銷交易

國家發改委: 禁止外資收購Manus 要求撤銷交易

每日經濟新聞
2026-04-27 16:29:58
副部級王中和被判有期徒刑17年!受賄超6674萬元、行賄200萬元,結交政治騙子、搞權色交易

副部級王中和被判有期徒刑17年!受賄超6674萬元、行賄200萬元,結交政治騙子、搞權色交易

揚子晚報
2026-04-27 17:19:01
美媒:白宮晚宴槍擊后,一女子趁亂順走多瓶紅酒,還有多名與會人員被拍到攜帶酒瓶離開;眾人逃命亂作一團時,好萊塢資深經紀人淡定吃沙拉

美媒:白宮晚宴槍擊后,一女子趁亂順走多瓶紅酒,還有多名與會人員被拍到攜帶酒瓶離開;眾人逃命亂作一團時,好萊塢資深經紀人淡定吃沙拉

魯中晨報
2026-04-27 16:36:04
千萬企退人員多年合理訴求遲遲未落地!真實現狀深度解析

千萬企退人員多年合理訴求遲遲未落地!真實現狀深度解析

匹夫來搞笑
2026-04-25 15:26:44
遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

遇到這些奇葩的“中國好鄰居”,只想賣房走人,給大家曬曬

巢客HOME
2026-04-27 04:05:03
2026-04-27 20:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12544文章數 176458關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

頭條要聞

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

家居
健康
教育
時尚
本地

家居要聞

江景風格 流動的秩序

干細胞如何讓燒燙傷皮膚"再生"?

教育要聞

定了!北京又一所學校官宣放春假!部分學校今日開始連休9天

伊姐周日熱推:電視劇《重案解密》;電視劇《21世紀大君夫人》......

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

無障礙瀏覽 進入關懷版