![]()
眼下AI圈里“世界模型”成了熱門熱詞,但OpenAI、谷歌、英偉達等廠商的產品叫法相同、內核卻天差地別。
6月4日,李飛飛攜World Labs發布長文,用一套清晰分類厘清行業亂象,把五花八門的世界模型劃分為渲染、模擬、規劃三類,也點出行業容易忽略的核心:
不起眼的模擬器,才是通往物理AI的關鍵底座。
放眼全球,目前行業分化出四條主流研發路線:
OpenAI主打視頻生成類渲染方案,DeepMind深耕交互式動作模型,李飛飛團隊聚焦3D空間智能,楊立昆JEPA走嵌入預測路線,英偉達則依托Omniverse、Cosall布局仿真基建。
各家產品全都冠以世界模型名號,但落地邏輯完全不一樣。
李飛飛從經典智能交互理論出發,把市面產品拆成三大功能。
第一類是渲染器,以Sora、谷歌Genie為代表,核心輸出畫面,只追求視覺觀感逼真。
這類技術商業化進度最快,相關產品已經落地普通用戶終端,但缺陷明顯:
生成畫面看著精致,虛擬建筑無法在仿真里正常通行,只做到“看著像世界”,不懂客觀物理規律。
第二類是規劃器,多用于機器人產品,功能是給AI生成下一步行動指令。
如今各類機器人演示視頻效果亮眼,但大多局限在實驗室受控環境,放到真實多變的倉庫、家居場景很難穩定運行,從演示到商用仍存在巨大鴻溝。
第三類便是模擬器,輸出物體幾何參數、物理規則,不產出好看畫面,卻是三者的底層根基。
簡單舉例:能精準掌握杯子尺寸、材質與受力規律的模型,既能多角度渲染圖像,也能模擬傾倒過程、規劃抓取動作;反過來,只會渲染畫面的AI,做不到后兩項功能。
不過模擬器發展阻力不小,高精度三維標注數據遠少于互聯網視頻,多物理場同步仿真的算力成本居高不下,也是行業長期難題。
文章發布后在硅谷科技圈引發廣泛討論,不少從業者表示,當下行業過度追捧畫面與機器人演示效果,忽視仿真基建的重要性。多數智能體產品卡在精彩Demo階段,正是缺少成熟模擬器做底層支撐。
李飛飛同時預判行業走向:
渲染、模擬、規劃三條技術線正在逐步融合,未來統一世界模型有望自由切換三類輸出。
AI的進化終點不再是無限堆大語言模型,而是讓機器依托物理規律理解真實世界,這也將重新定義通用人工智能的落地路徑。
如果想親身感受硅谷AI的真實節奏,近距離觀察Meta等巨頭的戰略布局與產品邏輯。
不妨跟著創業黑馬走進硅谷產業一線,直觀感受全球科技前沿的真實生態與發展趨勢。
9月13日-19日,我們將帶著30名同學,開啟7天硅谷·洛杉磯高階交流。
直面谷歌、英偉達、Meta、TikTok等全球核心玩家,對話斯坦福學術大咖、硅谷頂級投資人與出海頂尖操盤手。
還會學習TikTok、SHEIN等標桿的出海實戰打法,鏈接全球產業資源,找準專屬的AI升級與全球化增長航道。
目前僅剩1個名額,文末掃碼,即可報名
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.