當世界模型從「理解語言」進化為「理解物理世界」,英偉達正在用一套完整的生態體系,重新定義機器人與自動駕駛時代的算力基礎設施角色。
但這場宏大敘事之下,數據鴻溝、仿真精度與商業落地之間的張力,依然值得深思。
![]()
01.
Cosmos 3:新的物理世界操作系統
6月1日,英偉達宣布可在Hugging Face上下載Cosmos 3 ,并借助GitHub上的資源定制模型并生成合成數據。從官方表述來看,這一舉動被定性為「在物理AI基準測試上取得了領先的結果」,其涵蓋視覺推理、圖像生成、世界生成、物理精準度與機器人動作生成五大維度。
但如果將其理解為一次常規的模型迭代,大講堂認為,明顯低估了英偉達的戰略野心。
Cosmos 3的核心基于NVIDIA混合Transformer(Mixture-of-Transformers)架構,該架構融合了Transformer與擴散模型(Diffusion Model)兩條技術路線:前者負責從指令、觀察與動作的混合輸入中進行推理與規劃;后者則由前者驅動,負責生成「接下來會發生什么」。這一雙引擎設計,使Cosmos從本質上超越了傳統意義上的視覺語言模型(VLM),成為一個能夠在時序維度上感知、預測并生成物理世界的「世界模型」。
更關鍵的是,英偉達為Cosmos賦予了四重功能身份。作為世界推理器(World Reasoner),它能從視頻與文本中理解場景并做出判斷;作為世界模型(World Model),它能生成具備物理精準度的合成訓練數據;作為仿真器(Simulator),它能在閉環中測試機器人策略,展示動作結果并預測后續狀態;而作為世界動作模型(World Action Model),它甚至能直接為不同機器人本體生成動作指令。
![]()
這四重身份并列共存,意味著Cosmos不是任何單一環節的工具,而是整個物理AI開發流程的基礎設施層。英偉達的意圖已經相當清晰:它要成為機器人時代的「操作系統」,而Cosmos就是這個操作系統的內核。
02.
從VLM到世界動作模型如何演進
世界動作模型的出現,是否意味著VLM將被取代?英偉達機器人業務負責人Spencer的回答,提供了一個理解當前AI架構演進的重要視角。
他的邏輯是,我們最初從語言模型出發,是因為語言是人類理解世界的語義接口,但機器人需要的是空間智能與動作智能,而非語言智能。VLM加上動作頭(Action Head),誕生了VLA(視覺語言動作模型);在此基礎上,加入對世界物理規律的建模,誕生了世界模型;最終,將視覺感知與動作生成真正置于同等優先級并融合,才得到世界動作模型。
這條進化鏈條非常清晰。LLM→VLM→VLA→World Model→World Action Model,這并非偶然涌現,而是一條被英偉達刻意規劃的技術路徑。因為其每一步都在拓展AI對「真實世界」的感知與干預能力,最終目的是形成一個感知世界、理解物理規律、生成動作、驗證結果、迭代策略的閉環。
這一路徑的戰略意義在于,它為英偉達Omniverse(數字孿生平臺)、Isaac(機器人開發平臺)和Cosmos(世界模型)三大產品線,提供了一個統一的技術敘事框架。開發者無論是做仿真、訓練還是部署,無論處于哪個環節,都能在英偉達的生態中找到對應工具,且這些工具之間有著清晰的協作關系與數據流轉邏輯。
這種從底層算力、世界模型到開發框架的縱向整合能力,也正在使英偉達逐漸形成物理 AI 領域具有行業影響力的全棧生態優勢。
03.
數據鴻溝才是真正的「大挑戰」
如果說世界動作模型的概念令人興奮,那么現實中「數據鴻溝」(Data Gap)的問題則讓人清醒。英偉達Spencer在會議中坦言,機器人領域目前最大的挑戰,依然是無法捕獲每一種長尾場景。真實世界的邊緣情況,既無法在現實中安全采集,又難以在仿真中精確還原。
針對這一核心矛盾,英偉達給出的答案是「Omniverse與Cosmos的共生」。這一判斷相當務實,也相當微妙。因為Omniverse代表基于物理引擎的精確仿真,能夠為特定場景提供有物理依據的數據;Cosmos則通過預訓練學習物理動力學,能夠生成大規模的多樣化場景。兩者不是替代關系,而是分工協作:Omniverse提供「物理錨點」,Cosmos提供「規模擴展」。
但這里存在一個尚未解決的深層矛盾,Cosmos模型的物理精度受限于預訓練數據的覆蓋范圍。一個典型的案例是精細操作任務,例如電子產品的精密裝配所需的物理精度,目前的世界模型尚未完全達到。Spencer的原話是:「我們沒有足夠的、已完整標注且覆蓋所需技能與交互類型的預訓練數據。」
這意味著,在高精度操作場景下,開發者仍然必須依賴傳統仿真器(如Omniverse)來生成物理精確的訓練數據,再將其喂給Cosmos以豐富其物理先驗。這是一個循環依賴的結構,Cosmos需要Omniverse的數據來提升物理精度;而Omniverse的數據生產效率,又需要Cosmos的泛化能力來擴展場景多樣性。
這種共生關系短期內無法被打破,但也恰恰成就了英偉達生態的護城河:兩套系統的深度耦合,使得開發者很難只選其一,而舍棄另一個。
04.
把人形機器人的研究權還給大學
英偉達本次發布最具話題性的硬件產品,是英偉達與Unitree合作推出的參考人形機器人Unitree H2 Plus。
這款機器人身高約1.8米、體重約68公斤,搭載本體計算平臺 NVIDIA Jetson Thor,預裝1.7版本機器人模型,具備 Sharpa 五指靈巧手,并集成RGB攝像頭與腕部傳感器。
同時,英偉達宣布推出 NVIDIA Isaac? GR00T 人形機器人參考平臺,這是首款基于 NVIDIA Jetson Thor? 和 NVIDIA Isaac? GR00T 開放開發平臺打造的開放人形機器人參考設計。
![]()
英偉達真正的戰略意圖,并不在于自己造機器人,而在于降低頂級人形機器人研究平臺的準入門檻。Spencer的表述直白而有力:「把機器人研究從少數富有AI實驗室的專屬,還給全球所有大學研究者。」斯坦福、蘇黎世聯邦理工、加州大學圣地亞哥分校、艾倫人工智能研究所均已宣布采用該平臺。
這一舉措的產業邏輯十分清晰,當更多的大學研究團隊基于英偉達的人形機器人開發全棧Isaac GR00T平臺進行研究,就會有更多的模型、算法和數據在英偉達生態中生長;這些成果反過來又會加速Cosmos的預訓練數據積累,填補上文所述的「數據鴻溝」。學術生態的開放,本質上是英偉達對自身數據飛輪的戰略性投資。
目前Unitree H2 plus 的商業化路徑通過海外分銷商進行,定價尚未公布,預計2026年底面向商業客戶開放。這意味著至少在未來一年內,該機器人仍以研究用途為主要場景,英偉達并不急于將其推向大規模商業部署。這種克制,恰恰體現了其「平臺優先」而非「硬件優先」的一貫戰略取向。
05.
結語與未來
綜觀英偉達在Cosmos、Isaac GR00T 平臺等方向上的整體布局,一條清晰的戰略主軸已經浮現:英偉達正在將自己從「AI芯片供應商」轉型為「物理AI基礎設施提供商」。它不再只是賣GPU,而是在出售一整套從數據生成、模型訓練、仿真驗證到邊緣部署的完整工作流。
這一戰略的成功,高度依賴于生態的網絡效應:越多的開發者基于Omniverse生成數據、越多的研究者在Isaac平臺上訓練模型、越多的工廠在Fox框架下部署代理,整個Cosmos數據飛輪就轉得越快,英偉達的技術護城河就越深。
但生態鎖定是一把雙刃劍。對于產業鏈上的參與者而言,深度接入英偉達平臺帶來的不僅是效率提升,還有日益增加的依賴風險。當「Cosmos成為行業基線」成為共識,當「Isaac GR00T成為人形機器人開發標準」,這些產業參與者必然未來一定程度強捆綁英偉達生態。
更值得關注的是,英偉達所有這些布局,最終都依賴于一個前提,那就是它能夠持續維持算力層面的技術優勢。一旦替代芯片架構在性能上形成實質競爭,當前以GPU算力為錨點構建起的整個生態體系,都將面臨重新定價的壓力。
物理AI的時代正在加速到來,英偉達的Cosmos生態或許是目前最完整、最系統的布局。但「最完整生態」與「最終勝出」之間的距離,從來不由技術路線圖決定,而由真實落地中的每一個細節來丈量。未來會如何,人類依然在不斷探索,而英偉達已經給出了他們的路線圖。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.