網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從一張午餐桌到無(wú)限宇宙，李飛飛押注AI的下一個(gè)維度

2026-05-27 08:20:40　來(lái)源: 鈦媒體APP

北京舉報(bào)

分享至

500萬(wàn)年，這是人類語(yǔ)言在進(jìn)化史上的年齡。5.4億年，這是視覺和空間感知催生寒武紀(jì)生命大爆發(fā)的起點(diǎn)。

在硅谷幾乎所有頂級(jí)實(shí)驗(yàn)室都在卷語(yǔ)言模型的2025和2026年，斯坦福大學(xué)教授、World Labs創(chuàng)始人李飛飛反復(fù)拋出一個(gè)讓行業(yè)不得不抬頭的問(wèn)題：如果AI只會(huì)說(shuō)話和看圖片，它永遠(yuǎn)不會(huì)真正“理解”這個(gè)世界。

她在三次關(guān)鍵訪談中，包括2025年6月的a16z Podcast、2026年2月的思科AI峰會(huì)（Cisco AI Summit），以及2026年5月22日發(fā)布、長(zhǎng)達(dá)1小時(shí)19分鐘的Lenny's Podcast深度對(duì)話，系統(tǒng)闡述了一個(gè)正在被加速驗(yàn)證的判斷：空間智能（Spatial Intelligence），才是AI的下一個(gè)前沿。

其中a16z對(duì)話中“創(chuàng)造無(wú)限的宇宙”“生活在多元宇宙中”的表述，以及Lenny's Podcast中“世界模型才是下一個(gè)前沿”“AGI更像營(yíng)銷術(shù)語(yǔ)”等觀點(diǎn)，最近在X平臺(tái)上再度被大量轉(zhuǎn)發(fā)。

“我們?nèi)币粋€(gè)世界模型”

據(jù)a16z合伙人Martin Casado回憶，在硅谷的一次午餐會(huì)上，滿桌AI從業(yè)者在興奮地談?wù)摯笳Z(yǔ)言模型。李飛飛坐在餐桌另一頭，突然轉(zhuǎn)頭問(wèn)他：

“你知道我們?nèi)笔裁磫幔课覀內(nèi)币粋€(gè)世界模型。”

Casado是World Labs的早期投資人，也是李飛飛在斯坦福時(shí)期就結(jié)識(shí)的老友。他回憶那一刻時(shí)說(shuō)，“一切都對(duì)上了”。他當(dāng)時(shí)剛從大量圖像領(lǐng)域的投資中獨(dú)立得出類似結(jié)論：語(yǔ)言不是故事的終點(diǎn)。

但李飛飛對(duì)這個(gè)問(wèn)題的思考遠(yuǎn)比大多數(shù)人更久遠(yuǎn)。

2024年4月，她在TED大會(huì)上發(fā)表了一場(chǎng)15分鐘的演講，用進(jìn)化論做了破題：5.4億年前三葉蟲的出現(xiàn)，第一次讓生命“看見”了世界。視覺的誕生引爆了智能的演化競(jìng)賽，神經(jīng)系統(tǒng)開始發(fā)育，動(dòng)物變得活躍，智能由此萌芽。而語(yǔ)言，不過(guò)是這場(chǎng)漫長(zhǎng)競(jìng)賽中非常晚近的產(chǎn)物。

這個(gè)判斷在三次訪談中被反復(fù)強(qiáng)化。在思科AI峰會(huì)上，她的表述更加直接：

“語(yǔ)言的歷史大概只有50萬(wàn)年。但在15億年前，動(dòng)物就開始感知光線并觸摸環(huán)境。在真實(shí)的3D、4D物理世界中進(jìn)行理解、推理、交互和導(dǎo)航的能力是基礎(chǔ)性的，與語(yǔ)言智能同樣重要。”

李飛飛并非否定語(yǔ)言智能的價(jià)值。她的核心論點(diǎn)是：語(yǔ)言在本質(zhì)上是一種“有信息損失的”對(duì)世界的編碼方式。

在a16z訪談中，Casado做了一個(gè)思維實(shí)驗(yàn)：蒙上你的眼睛，用語(yǔ)言描述一個(gè)房間，然后讓你完成一項(xiàng)任務(wù)，你成功的概率極低。因?yàn)檎Z(yǔ)言對(duì)現(xiàn)實(shí)的描述永遠(yuǎn)是粗糙的。拿掉眼罩，你的大腦瞬間重建3D空間，你就能操作、觸摸、移動(dòng)。

李飛飛補(bǔ)充了一個(gè)更極端的例子，即科學(xué)史上最著名的一次空間推理：羅莎琳德·富蘭克林拍攝的DNA X射線衍射照片是一張平面的二維影像，上面的結(jié)構(gòu)看起來(lái)像一個(gè)帶有衍射的十字。但沃森和克里克通過(guò)那張二維照片，在三維空間中推理出了DNA的雙螺旋結(jié)構(gòu)。“那個(gè)結(jié)構(gòu)不可能是二維的。你不能用二維的思維來(lái)推導(dǎo)出那個(gè)結(jié)構(gòu)。”

“如果你觀察人類智能，很多都超出了語(yǔ)言的范疇。語(yǔ)言是一種有信息損失的捕捉世界的方式。純粹的生成式‘語(yǔ)言’在自然界中并不存在；我們環(huán)顧四周，沒(méi)有現(xiàn)成的句子或單詞，而整個(gè)物理、感知、視覺世界卻真實(shí)存在。”

這是一個(gè)容易被忽視的視角：當(dāng)前大模型的大部分能力，建立在一種天然有損的信息壓縮格式之上。而在Lenny's Podcast中，她用一個(gè)更日常的測(cè)試戳穿了這個(gè)幻象：

“今天，你拿一個(gè)模型，讓它運(yùn)行一段包含幾個(gè)辦公室房間的視頻，然后要求模型數(shù)一下椅子的數(shù)量。這是幼兒就能做到的事情，而人工智能卻做不到。”

更不用說(shuō)從天體運(yùn)動(dòng)中推導(dǎo)出物理定律：“讓我們把所有的數(shù)據(jù)都給人工智能，包括牛頓沒(méi)有的現(xiàn)代儀器數(shù)據(jù)，讓它創(chuàng)建一套17世紀(jì)關(guān)于物體運(yùn)動(dòng)規(guī)律的方程。今天的人工智能做不到。”

Marble：比GPT-5小幾個(gè)數(shù)量級(jí)

將這個(gè)判斷推向產(chǎn)品的是World Labs的第一代模型Marble，2024年底發(fā)布。

李飛飛在思科AI峰會(huì)上詳細(xì)拆解了Marble的技術(shù)定位：接收文本、圖片、視頻或簡(jiǎn)單3D輸入，生成一個(gè)“完全可導(dǎo)航、可交互且具有永久一致性的3D世界”。她特別強(qiáng)調(diào)，這與Sora等視頻生成模型有本質(zhì)區(qū)別，Marble生成的環(huán)境擁有幾何結(jié)構(gòu)，不是一段“看起來(lái)像”視頻的像素動(dòng)畫。

在Lenny's Podcast中，她用柏拉圖的洞穴寓言做了更深的闡釋：囚犯被綁在椅子上，只能看到墻上投射的二維影子，但真正的戲劇在背后三維空間中上演。視頻模型就是那些影子，而空間智能要做的，是創(chuàng)造和推理那個(gè)影子背后的真實(shí)世界。

一組對(duì)比：GPT-5的訓(xùn)練算力大約在10的26次方FLOPS量級(jí)，而Marble在規(guī)模上小幾個(gè)數(shù)量級(jí)。原因有兩層：數(shù)據(jù)獲取難度完全不同（高質(zhì)量3D物理數(shù)據(jù)極其稀缺），且這個(gè)領(lǐng)域還處于“Scaling Law的上升曲線”的早期階段。

在Lenny's Podcast中，她進(jìn)一步解釋了為什么機(jī)器人學(xué)習(xí)無(wú)法簡(jiǎn)單復(fù)制語(yǔ)言模型的“苦澀的教訓(xùn)”。AI領(lǐng)域有一個(gè)著名的論斷：擁有海量數(shù)據(jù)的簡(jiǎn)單模型最終總能勝過(guò)復(fù)雜模型。但“語(yǔ)言模型擁有一個(gè)完美的設(shè)置：訓(xùn)練數(shù)據(jù)是單詞，輸出也是文字。”而機(jī)器人技術(shù)中，“你希望獲得行動(dòng)，訓(xùn)練數(shù)據(jù)卻缺乏在3D世界中的行動(dòng)。”這種訓(xùn)練目標(biāo)與數(shù)據(jù)形態(tài)之間的根本錯(cuò)位，才是機(jī)器人學(xué)習(xí)的核心難題。

World Labs采取混合數(shù)據(jù)策略：互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻，加上仿真模擬數(shù)據(jù)，再加上真實(shí)世界采集數(shù)據(jù)。李飛飛坦承，“我們?nèi)栽谔剿髂Ｐ图軜?gòu)的相對(duì)早期階段”，但她預(yù)計(jì)“接下來(lái)的幾年將會(huì)非常令人興奮”。

話音剛落，World Labs就在2026年2月完成10億美元融資，英偉達(dá)、AMD、a16z參投，估值從一年前的10億美元飆升至約50億美元。4月，團(tuán)隊(duì)開源了3D高斯濺射渲染引擎Spark 2.0，可在網(wǎng)頁(yè)端實(shí)現(xiàn)億級(jí)3D場(chǎng)景實(shí)時(shí)渲染，從閉源產(chǎn)品轉(zhuǎn)向“產(chǎn)品+開源生態(tài)”的雙軌策略，空間智能的技術(shù)門檻正在被快速拉低。

在Lenny's Podcast中，李飛飛也罕見地坦露了創(chuàng)業(yè)的艱辛：“如果我能對(duì)18個(gè)月前的自己耳語(yǔ)一句話：“這個(gè)領(lǐng)域的競(jìng)爭(zhēng)強(qiáng)度，無(wú)論是技術(shù)還是人才，遠(yuǎn)超你的想象。”

無(wú)限宇宙與多元宇宙

真正讓a16z那次訪談在X上反復(fù)出圈的，是李飛飛關(guān)于“無(wú)限宇宙”的表述：

“在整個(gè)人類文明歷史中，我們所有人都共同生活在一個(gè)3D世界里。只有少數(shù)人去過(guò)月球，但人數(shù)非常少。而這項(xiàng)技術(shù)讓數(shù)字虛擬世界變得無(wú)比精彩。突然間，我們實(shí)際上可以創(chuàng)造無(wú)限的宇宙，有些是為機(jī)器人創(chuàng)造的，有些是為創(chuàng)造力創(chuàng)造的，有些是為社交創(chuàng)造的，有些是為旅行創(chuàng)造的，有些是為講故事創(chuàng)造的。突然之間，我們能夠生活在一個(gè)多元宇宙中，想象的空間是無(wú)限的。”

Casado則從技術(shù)層面做了更具體的闡釋：通過(guò)一張二維照片，模型就能生成包括桌子背面在內(nèi)的完整360度3D表示。你可以操作、測(cè)量、堆疊，空間中能做的任何事都可以實(shí)現(xiàn)。

這不是科幻。在兩次訪談中，李飛飛列舉了Marble已經(jīng)落地的應(yīng)用：

? 游戲開發(fā)者用早期版本開發(fā)游戲 ? 與索尼合作的虛擬制作團(tuán)隊(duì)將電影制作周期縮短了40倍 ? 英偉達(dá)及多家學(xué)術(shù)實(shí)驗(yàn)室利用Marble訓(xùn)練機(jī)器人 ? 建筑師和設(shè)計(jì)師用它做室內(nèi)設(shè)計(jì) ? 臨床研究人員為強(qiáng)迫癥、恐高癥患者定制個(gè)性化的沉浸式觸發(fā)環(huán)境 ? 有人用它生成個(gè)性化的瑜伽訓(xùn)練空間

最后一個(gè)應(yīng)用尤其出人意料。李飛飛在峰會(huì)上提到，OCD患者會(huì)被非常具體的場(chǎng)景觸發(fā)，“比如我個(gè)人會(huì)被堆積的臟衣服困擾，但每個(gè)人的觸發(fā)點(diǎn)各不相同”。在Lenny's Podcast中她補(bǔ)充道，發(fā)布后一位朋友連夜打電話問(wèn)她是否可以用Marble治療恐高癥。實(shí)體環(huán)境的搭建成本極高，而Marble只需輸入提示詞，幾分鐘就能生成各種環(huán)境。

柏拉圖的洞穴寓言，恰好也是理解2D與3D分歧的最佳入口。

李飛飛用這個(gè)寓言解釋：被綁在椅子上的囚犯，只能看到墻上投射的二維影子。當(dāng)前的語(yǔ)言模型和視頻模型，本質(zhì)上都是那些影子，從二維中猜測(cè)三維。空間智能的野心，是創(chuàng)造、推理和交互那個(gè)影子背后的真實(shí)世界。

在技術(shù)路線上，她用一個(gè)簡(jiǎn)潔的對(duì)比劃清了邊界：

“汽車可以被視作一個(gè)在二維平面上移動(dòng)的方塊機(jī)器人，它的目標(biāo)是不要碰到任何東西。而機(jī)器人是一個(gè)三維實(shí)體，在三維世界中運(yùn)行，通用機(jī)器人的目標(biāo)是必須接觸物體而不破壞它們。這是一個(gè)更高維度的問(wèn)題。”

她還給出了一個(gè)來(lái)自親身經(jīng)歷的時(shí)間刻度：2006年，她參與創(chuàng)造了第一輛在沙漠行駛138英里的自動(dòng)駕駛汽車，當(dāng)時(shí)預(yù)言20年后會(huì)有自動(dòng)駕駛汽車。直到2025年，Waymo才開始在城市街道大規(guī)模運(yùn)行。

“看清北極星并不意味著旅程會(huì)很短。”

Casado在a16z對(duì)話中補(bǔ)充了更具商業(yè)直覺的觀察：僅自動(dòng)駕駛一個(gè)賽道，行業(yè)就投入了大約1000億美元，20年才走到今天。“我們?cè)镜穆肪€是先解決世界導(dǎo)航問(wèn)題，但結(jié)果極其困難。”

李飛飛甚至在a16z訪談中分享了一段個(gè)人經(jīng)歷來(lái)強(qiáng)化論點(diǎn)：大約五年前，她因眼角膜受傷失去了幾個(gè)月的立體視覺。“即使我非常清楚我的車有多大，也大概知道鄰居家停的車有多大，而且我在這條路上開了很多年，但我無(wú)法很好地判斷車和路邊停著的車之間的距離。我只能開到時(shí)速十英里，以免刮到其他車。”

一個(gè)終身研究視覺智能的科學(xué)家，用自己失去深度感知后的切身困境，回答了“為什么3D不可替代”這個(gè)問(wèn)題。

技術(shù)雙刃劍與文明標(biāo)尺

在技術(shù)樂(lè)觀主義和末日論之間，李飛飛選擇了一個(gè)更克制也更具操作性的站位。她在思科AI峰會(huì)上明確表達(dá)了對(duì)兩極化言論的擔(dān)憂：

“網(wǎng)絡(luò)上的討論往往是非黑即白的：要么是完全的技術(shù)烏托邦主義，忽略了技術(shù)是一把雙刃劍；要么就是末日論調(diào)，仿佛人類時(shí)刻面臨生存危機(jī)。對(duì)于一項(xiàng)對(duì)人類文明如此深遠(yuǎn)的技術(shù)，這種討論方式是不負(fù)責(zé)任的。”

她沒(méi)有停留在批評(píng)層面，而是給出了一個(gè)可量化的價(jià)值錨點(diǎn)：電力。

“如果回?fù)芤话俣嗄辏胂螽?dāng)時(shí)人們?nèi)绾味x電力的成功。我希望那時(shí)的愿景是：學(xué)校燈火通明，家園溫暖如春，機(jī)器被賦予力量實(shí)現(xiàn)工業(yè)化，進(jìn)而延長(zhǎng)人類壽命，讓更多孩子接受教育。”

然后將這個(gè)錨點(diǎn)平移到AI：“成功的定義應(yīng)該是文明變得更加美好，而文明是由每一個(gè)追求幸福、繁榮且擁有尊嚴(yán)的個(gè)體組成的。這就是AI以及每一項(xiàng)技術(shù)成功的定義。”

在Lenny's Podcast的結(jié)尾，她把這份關(guān)切落到了具體的人身上。她說(shuō)自己每到一處都會(huì)被問(wèn)到同一個(gè)問(wèn)題：如果我是農(nóng)民、護(hù)士、音樂(lè)家，AI會(huì)取代我嗎？她的回答是：“歸根結(jié)底，AI是關(guān)于人的。任何技術(shù)都不應(yīng)該剝奪人的尊嚴(yán)。人類的尊嚴(yán)和自主性應(yīng)該成為每項(xiàng)技術(shù)的開發(fā)、部署以及治理的核心。”

回顧三次訪談，一條清晰的脈絡(luò)浮出水面。

李飛飛對(duì)空間智能的思考，不是對(duì)大模型浪潮的反叛，而是在其基礎(chǔ)上的延伸。她比大多數(shù)人更早地看到了語(yǔ)言模型的極限，一種有損的信息壓縮格式能做的終究有限。而空間智能要解決的問(wèn)題是：讓AI從“談?wù)撌澜纭边M(jìn)化到“理解世界”，最終到“在世界中行動(dòng)”。

World Labs團(tuán)隊(duì)約30人，已融資超10億美元。Marble是第一代產(chǎn)品，規(guī)模遠(yuǎn)不及頂級(jí)語(yǔ)言模型。3D數(shù)據(jù)的稀缺和模型架構(gòu)的早期狀態(tài)，決定了這不會(huì)是一條一蹴而就的路線。但李飛飛在Lenny's Podcast中說(shuō)了另一句話，或許是對(duì)這份耐心最好的注解：

“我們的大腦只消耗約20瓦，比房間里任何燈泡都暗，卻能做這么多事。我在AI領(lǐng)域工作得越多，越尊重人類。”

5.4億年的進(jìn)化，才讓碳基生命獲得了這份20瓦的空間智能。AI的這場(chǎng)進(jìn)化，正在被壓縮到幾年內(nèi)完成。

李飛飛在三次訪談中都沒(méi)有給出時(shí)間表。她只是反復(fù)回到那個(gè)從進(jìn)化論中提取的判斷：感知先于語(yǔ)言，空間先于符號(hào)。這場(chǎng)正在硅谷、斯坦福實(shí)驗(yàn)室和World Labs辦公室里發(fā)生的，不是一次技術(shù)迭代，而是一次進(jìn)化論的加速重演。(本文首發(fā)鈦媒體APP，作者 | 硅谷tech news，編輯 | 趙虹宇)

附：上述三場(chǎng)訪談文字實(shí)錄收錄地址【ima知識(shí)庫(kù)】李飛飛訪談 https://ima.qq.com/wiki/?shareId=3f1d4b4c0d6cb2aeca250e2c5d068390e2d45895816ad607309820e25cb2e9c5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.