![]()
500萬(wàn)年,這是人類語(yǔ)言在進(jìn)化史上的年齡。5.4億年,這是視覺和空間感知催生寒武紀(jì)生命大爆發(fā)的起點(diǎn)。
在硅谷幾乎所有頂級(jí)實(shí)驗(yàn)室都在卷語(yǔ)言模型的2025和2026年,斯坦福大學(xué)教授、World Labs創(chuàng)始人李飛飛反復(fù)拋出一個(gè)讓行業(yè)不得不抬頭的問(wèn)題:如果AI只會(huì)說(shuō)話和看圖片,它永遠(yuǎn)不會(huì)真正“理解”這個(gè)世界。
她在三次關(guān)鍵訪談中,包括2025年6月的a16z Podcast、2026年2月的思科AI峰會(huì)(Cisco AI Summit),以及2026年5月22日發(fā)布、長(zhǎng)達(dá)1小時(shí)19分鐘的Lenny's Podcast深度對(duì)話,系統(tǒng)闡述了一個(gè)正在被加速驗(yàn)證的判斷:空間智能(Spatial Intelligence),才是AI的下一個(gè)前沿。
其中a16z對(duì)話中“創(chuàng)造無(wú)限的宇宙”“生活在多元宇宙中”的表述,以及Lenny's Podcast中“世界模型才是下一個(gè)前沿”“AGI更像營(yíng)銷術(shù)語(yǔ)”等觀點(diǎn),最近在X平臺(tái)上再度被大量轉(zhuǎn)發(fā)。
“我們?nèi)币粋€(gè)世界模型”
據(jù)a16z合伙人Martin Casado回憶,在硅谷的一次午餐會(huì)上,滿桌AI從業(yè)者在興奮地談?wù)摯笳Z(yǔ)言模型。李飛飛坐在餐桌另一頭,突然轉(zhuǎn)頭問(wèn)他:
“你知道我們?nèi)笔裁磫幔课覀內(nèi)币粋€(gè)世界模型。”
Casado是World Labs的早期投資人,也是李飛飛在斯坦福時(shí)期就結(jié)識(shí)的老友。他回憶那一刻時(shí)說(shuō),“一切都對(duì)上了”。他當(dāng)時(shí)剛從大量圖像領(lǐng)域的投資中獨(dú)立得出類似結(jié)論:語(yǔ)言不是故事的終點(diǎn)。
但李飛飛對(duì)這個(gè)問(wèn)題的思考遠(yuǎn)比大多數(shù)人更久遠(yuǎn)。
2024年4月,她在TED大會(huì)上發(fā)表了一場(chǎng)15分鐘的演講,用進(jìn)化論做了破題:5.4億年前三葉蟲的出現(xiàn),第一次讓生命“看見”了世界。視覺的誕生引爆了智能的演化競(jìng)賽,神經(jīng)系統(tǒng)開始發(fā)育,動(dòng)物變得活躍,智能由此萌芽。而語(yǔ)言,不過(guò)是這場(chǎng)漫長(zhǎng)競(jìng)賽中非常晚近的產(chǎn)物。
這個(gè)判斷在三次訪談中被反復(fù)強(qiáng)化。在思科AI峰會(huì)上,她的表述更加直接:
“語(yǔ)言的歷史大概只有50萬(wàn)年。但在15億年前,動(dòng)物就開始感知光線并觸摸環(huán)境。在真實(shí)的3D、4D物理世界中進(jìn)行理解、推理、交互和導(dǎo)航的能力是基礎(chǔ)性的,與語(yǔ)言智能同樣重要。”
李飛飛并非否定語(yǔ)言智能的價(jià)值。她的核心論點(diǎn)是:語(yǔ)言在本質(zhì)上是一種“有信息損失的”對(duì)世界的編碼方式。
在a16z訪談中,Casado做了一個(gè)思維實(shí)驗(yàn):蒙上你的眼睛,用語(yǔ)言描述一個(gè)房間,然后讓你完成一項(xiàng)任務(wù),你成功的概率極低。因?yàn)檎Z(yǔ)言對(duì)現(xiàn)實(shí)的描述永遠(yuǎn)是粗糙的。拿掉眼罩,你的大腦瞬間重建3D空間,你就能操作、觸摸、移動(dòng)。
李飛飛補(bǔ)充了一個(gè)更極端的例子,即科學(xué)史上最著名的一次空間推理:羅莎琳德·富蘭克林拍攝的DNA X射線衍射照片是一張平面的二維影像,上面的結(jié)構(gòu)看起來(lái)像一個(gè)帶有衍射的十字。但沃森和克里克通過(guò)那張二維照片,在三維空間中推理出了DNA的雙螺旋結(jié)構(gòu)。“那個(gè)結(jié)構(gòu)不可能是二維的。你不能用二維的思維來(lái)推導(dǎo)出那個(gè)結(jié)構(gòu)。”
“如果你觀察人類智能,很多都超出了語(yǔ)言的范疇。語(yǔ)言是一種有信息損失的捕捉世界的方式。純粹的生成式‘語(yǔ)言’在自然界中并不存在;我們環(huán)顧四周,沒(méi)有現(xiàn)成的句子或單詞,而整個(gè)物理、感知、視覺世界卻真實(shí)存在。”
這是一個(gè)容易被忽視的視角:當(dāng)前大模型的大部分能力,建立在一種天然有損的信息壓縮格式之上。而在Lenny's Podcast中,她用一個(gè)更日常的測(cè)試戳穿了這個(gè)幻象:
“今天,你拿一個(gè)模型,讓它運(yùn)行一段包含幾個(gè)辦公室房間的視頻,然后要求模型數(shù)一下椅子的數(shù)量。這是幼兒就能做到的事情,而人工智能卻做不到。”
更不用說(shuō)從天體運(yùn)動(dòng)中推導(dǎo)出物理定律:“讓我們把所有的數(shù)據(jù)都給人工智能,包括牛頓沒(méi)有的現(xiàn)代儀器數(shù)據(jù),讓它創(chuàng)建一套17世紀(jì)關(guān)于物體運(yùn)動(dòng)規(guī)律的方程。今天的人工智能做不到。”
Marble:比GPT-5小幾個(gè)數(shù)量級(jí)
將這個(gè)判斷推向產(chǎn)品的是World Labs的第一代模型Marble,2024年底發(fā)布。
李飛飛在思科AI峰會(huì)上詳細(xì)拆解了Marble的技術(shù)定位:接收文本、圖片、視頻或簡(jiǎn)單3D輸入,生成一個(gè)“完全可導(dǎo)航、可交互且具有永久一致性的3D世界”。她特別強(qiáng)調(diào),這與Sora等視頻生成模型有本質(zhì)區(qū)別,Marble生成的環(huán)境擁有幾何結(jié)構(gòu),不是一段“看起來(lái)像”視頻的像素動(dòng)畫。
在Lenny's Podcast中,她用柏拉圖的洞穴寓言做了更深的闡釋:囚犯被綁在椅子上,只能看到墻上投射的二維影子,但真正的戲劇在背后三維空間中上演。視頻模型就是那些影子,而空間智能要做的,是創(chuàng)造和推理那個(gè)影子背后的真實(shí)世界。
一組對(duì)比:GPT-5的訓(xùn)練算力大約在10的26次方FLOPS量級(jí),而Marble在規(guī)模上小幾個(gè)數(shù)量級(jí)。原因有兩層:數(shù)據(jù)獲取難度完全不同(高質(zhì)量3D物理數(shù)據(jù)極其稀缺),且這個(gè)領(lǐng)域還處于“Scaling Law的上升曲線”的早期階段。
在Lenny's Podcast中,她進(jìn)一步解釋了為什么機(jī)器人學(xué)習(xí)無(wú)法簡(jiǎn)單復(fù)制語(yǔ)言模型的“苦澀的教訓(xùn)”。AI領(lǐng)域有一個(gè)著名的論斷:擁有海量數(shù)據(jù)的簡(jiǎn)單模型最終總能勝過(guò)復(fù)雜模型。但“語(yǔ)言模型擁有一個(gè)完美的設(shè)置:訓(xùn)練數(shù)據(jù)是單詞,輸出也是文字。”而機(jī)器人技術(shù)中,“你希望獲得行動(dòng),訓(xùn)練數(shù)據(jù)卻缺乏在3D世界中的行動(dòng)。”這種訓(xùn)練目標(biāo)與數(shù)據(jù)形態(tài)之間的根本錯(cuò)位,才是機(jī)器人學(xué)習(xí)的核心難題。
World Labs采取混合數(shù)據(jù)策略:互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻,加上仿真模擬數(shù)據(jù),再加上真實(shí)世界采集數(shù)據(jù)。李飛飛坦承,“我們?nèi)栽谔剿髂P图軜?gòu)的相對(duì)早期階段”,但她預(yù)計(jì)“接下來(lái)的幾年將會(huì)非常令人興奮”。
話音剛落,World Labs就在2026年2月完成10億美元融資,英偉達(dá)、AMD、a16z參投,估值從一年前的10億美元飆升至約50億美元。4月,團(tuán)隊(duì)開源了3D高斯濺射渲染引擎Spark 2.0,可在網(wǎng)頁(yè)端實(shí)現(xiàn)億級(jí)3D場(chǎng)景實(shí)時(shí)渲染,從閉源產(chǎn)品轉(zhuǎn)向“產(chǎn)品+開源生態(tài)”的雙軌策略,空間智能的技術(shù)門檻正在被快速拉低。
在Lenny's Podcast中,李飛飛也罕見地坦露了創(chuàng)業(yè)的艱辛:“如果我能對(duì)18個(gè)月前的自己耳語(yǔ)一句話:“這個(gè)領(lǐng)域的競(jìng)爭(zhēng)強(qiáng)度,無(wú)論是技術(shù)還是人才,遠(yuǎn)超你的想象。”
無(wú)限宇宙與多元宇宙
真正讓a16z那次訪談在X上反復(fù)出圈的,是李飛飛關(guān)于“無(wú)限宇宙”的表述:
“在整個(gè)人類文明歷史中,我們所有人都共同生活在一個(gè)3D世界里。只有少數(shù)人去過(guò)月球,但人數(shù)非常少。而這項(xiàng)技術(shù)讓數(shù)字虛擬世界變得無(wú)比精彩。突然間,我們實(shí)際上可以創(chuàng)造無(wú)限的宇宙,有些是為機(jī)器人創(chuàng)造的,有些是為創(chuàng)造力創(chuàng)造的,有些是為社交創(chuàng)造的,有些是為旅行創(chuàng)造的,有些是為講故事創(chuàng)造的。突然之間,我們能夠生活在一個(gè)多元宇宙中,想象的空間是無(wú)限的。”
Casado則從技術(shù)層面做了更具體的闡釋:通過(guò)一張二維照片,模型就能生成包括桌子背面在內(nèi)的完整360度3D表示。你可以操作、測(cè)量、堆疊,空間中能做的任何事都可以實(shí)現(xiàn)。
這不是科幻。在兩次訪談中,李飛飛列舉了Marble已經(jīng)落地的應(yīng)用:
? 游戲開發(fā)者用早期版本開發(fā)游戲 ? 與索尼合作的虛擬制作團(tuán)隊(duì)將電影制作周期縮短了40倍 ? 英偉達(dá)及多家學(xué)術(shù)實(shí)驗(yàn)室利用Marble訓(xùn)練機(jī)器人 ? 建筑師和設(shè)計(jì)師用它做室內(nèi)設(shè)計(jì) ? 臨床研究人員為強(qiáng)迫癥、恐高癥患者定制個(gè)性化的沉浸式觸發(fā)環(huán)境 ? 有人用它生成個(gè)性化的瑜伽訓(xùn)練空間
最后一個(gè)應(yīng)用尤其出人意料。李飛飛在峰會(huì)上提到,OCD患者會(huì)被非常具體的場(chǎng)景觸發(fā),“比如我個(gè)人會(huì)被堆積的臟衣服困擾,但每個(gè)人的觸發(fā)點(diǎn)各不相同”。在Lenny's Podcast中她補(bǔ)充道,發(fā)布后一位朋友連夜打電話問(wèn)她是否可以用Marble治療恐高癥。實(shí)體環(huán)境的搭建成本極高,而Marble只需輸入提示詞,幾分鐘就能生成各種環(huán)境。
柏拉圖的洞穴寓言,恰好也是理解2D與3D分歧的最佳入口。
李飛飛用這個(gè)寓言解釋:被綁在椅子上的囚犯,只能看到墻上投射的二維影子。當(dāng)前的語(yǔ)言模型和視頻模型,本質(zhì)上都是那些影子,從二維中猜測(cè)三維。空間智能的野心,是創(chuàng)造、推理和交互那個(gè)影子背后的真實(shí)世界。
在技術(shù)路線上,她用一個(gè)簡(jiǎn)潔的對(duì)比劃清了邊界:
“汽車可以被視作一個(gè)在二維平面上移動(dòng)的方塊機(jī)器人,它的目標(biāo)是不要碰到任何東西。而機(jī)器人是一個(gè)三維實(shí)體,在三維世界中運(yùn)行,通用機(jī)器人的目標(biāo)是必須接觸物體而不破壞它們。這是一個(gè)更高維度的問(wèn)題。”
她還給出了一個(gè)來(lái)自親身經(jīng)歷的時(shí)間刻度:2006年,她參與創(chuàng)造了第一輛在沙漠行駛138英里的自動(dòng)駕駛汽車,當(dāng)時(shí)預(yù)言20年后會(huì)有自動(dòng)駕駛汽車。直到2025年,Waymo才開始在城市街道大規(guī)模運(yùn)行。
“看清北極星并不意味著旅程會(huì)很短。”
Casado在a16z對(duì)話中補(bǔ)充了更具商業(yè)直覺的觀察:僅自動(dòng)駕駛一個(gè)賽道,行業(yè)就投入了大約1000億美元,20年才走到今天。“我們?cè)镜穆肪€是先解決世界導(dǎo)航問(wèn)題,但結(jié)果極其困難。”
李飛飛甚至在a16z訪談中分享了一段個(gè)人經(jīng)歷來(lái)強(qiáng)化論點(diǎn):大約五年前,她因眼角膜受傷失去了幾個(gè)月的立體視覺。“即使我非常清楚我的車有多大,也大概知道鄰居家停的車有多大,而且我在這條路上開了很多年,但我無(wú)法很好地判斷車和路邊停著的車之間的距離。我只能開到時(shí)速十英里,以免刮到其他車。”
一個(gè)終身研究視覺智能的科學(xué)家,用自己失去深度感知后的切身困境,回答了“為什么3D不可替代”這個(gè)問(wèn)題。
技術(shù)雙刃劍與文明標(biāo)尺
在技術(shù)樂(lè)觀主義和末日論之間,李飛飛選擇了一個(gè)更克制也更具操作性的站位。她在思科AI峰會(huì)上明確表達(dá)了對(duì)兩極化言論的擔(dān)憂:
“網(wǎng)絡(luò)上的討論往往是非黑即白的:要么是完全的技術(shù)烏托邦主義,忽略了技術(shù)是一把雙刃劍;要么就是末日論調(diào),仿佛人類時(shí)刻面臨生存危機(jī)。對(duì)于一項(xiàng)對(duì)人類文明如此深遠(yuǎn)的技術(shù),這種討論方式是不負(fù)責(zé)任的。”
她沒(méi)有停留在批評(píng)層面,而是給出了一個(gè)可量化的價(jià)值錨點(diǎn):電力。
“如果回?fù)芤话俣嗄辏胂螽?dāng)時(shí)人們?nèi)绾味x電力的成功。我希望那時(shí)的愿景是:學(xué)校燈火通明,家園溫暖如春,機(jī)器被賦予力量實(shí)現(xiàn)工業(yè)化,進(jìn)而延長(zhǎng)人類壽命,讓更多孩子接受教育。”
然后將這個(gè)錨點(diǎn)平移到AI:“成功的定義應(yīng)該是文明變得更加美好,而文明是由每一個(gè)追求幸福、繁榮且擁有尊嚴(yán)的個(gè)體組成的。這就是AI以及每一項(xiàng)技術(shù)成功的定義。”
在Lenny's Podcast的結(jié)尾,她把這份關(guān)切落到了具體的人身上。她說(shuō)自己每到一處都會(huì)被問(wèn)到同一個(gè)問(wèn)題:如果我是農(nóng)民、護(hù)士、音樂(lè)家,AI會(huì)取代我嗎?她的回答是:“歸根結(jié)底,AI是關(guān)于人的。任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊嚴(yán)和自主性應(yīng)該成為每項(xiàng)技術(shù)的開發(fā)、部署以及治理的核心。”
回顧三次訪談,一條清晰的脈絡(luò)浮出水面。
李飛飛對(duì)空間智能的思考,不是對(duì)大模型浪潮的反叛,而是在其基礎(chǔ)上的延伸。她比大多數(shù)人更早地看到了語(yǔ)言模型的極限,一種有損的信息壓縮格式能做的終究有限。而空間智能要解決的問(wèn)題是:讓AI從“談?wù)撌澜纭边M(jìn)化到“理解世界”,最終到“在世界中行動(dòng)”。
World Labs團(tuán)隊(duì)約30人,已融資超10億美元。Marble是第一代產(chǎn)品,規(guī)模遠(yuǎn)不及頂級(jí)語(yǔ)言模型。3D數(shù)據(jù)的稀缺和模型架構(gòu)的早期狀態(tài),決定了這不會(huì)是一條一蹴而就的路線。但李飛飛在Lenny's Podcast中說(shuō)了另一句話,或許是對(duì)這份耐心最好的注解:
“我們的大腦只消耗約20瓦,比房間里任何燈泡都暗,卻能做這么多事。我在AI領(lǐng)域工作得越多,越尊重人類。”
5.4億年的進(jìn)化,才讓碳基生命獲得了這份20瓦的空間智能。AI的這場(chǎng)進(jìn)化,正在被壓縮到幾年內(nèi)完成。
李飛飛在三次訪談中都沒(méi)有給出時(shí)間表。她只是反復(fù)回到那個(gè)從進(jìn)化論中提取的判斷:感知先于語(yǔ)言,空間先于符號(hào)。這場(chǎng)正在硅谷、斯坦福實(shí)驗(yàn)室和World Labs辦公室里發(fā)生的,不是一次技術(shù)迭代,而是一次進(jìn)化論的加速重演。(本文首發(fā)鈦媒體APP,作者 | 硅谷tech news,編輯 | 趙虹宇)
附:上述三場(chǎng)訪談文字實(shí)錄收錄地址【ima知識(shí)庫(kù)】李飛飛訪談 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.