網易首頁 > 網易號 > 正文申請入駐

物理AI的范式躍遷?英偉達Cosmos生態和機器人布局邏輯解讀

2026-06-04 23:00:03　來源: 機器人大講堂

安徽舉報

分享至

當世界模型從「理解語言」進化為「理解物理世界」，英偉達正在用一套完整的生態體系，重新定義機器人與自動駕駛時代的算力基礎設施角色。

但這場宏大敘事之下，數據鴻溝、仿真精度與商業落地之間的張力，依然值得深思。

01.

Cosmos 3：新的物理世界操作系統

6月1日，英偉達宣布可在Hugging Face上下載Cosmos 3 ，并借助GitHub上的資源定制模型并生成合成數據。從官方表述來看，這一舉動被定性為「在物理AI基準測試上取得了領先的結果」，其涵蓋視覺推理、圖像生成、世界生成、物理精準度與機器人動作生成五大維度。

但如果將其理解為一次常規的模型迭代，大講堂認為，明顯低估了英偉達的戰略野心。

Cosmos 3的核心基于NVIDIA混合Transformer（Mixture-of-Transformers）架構，該架構融合了Transformer與擴散模型（Diffusion Model）兩條技術路線：前者負責從指令、觀察與動作的混合輸入中進行推理與規劃；后者則由前者驅動，負責生成「接下來會發生什么」。這一雙引擎設計，使Cosmos從本質上超越了傳統意義上的視覺語言模型（VLM），成為一個能夠在時序維度上感知、預測并生成物理世界的「世界模型」。

更關鍵的是，英偉達為Cosmos賦予了四重功能身份。作為世界推理器（World Reasoner），它能從視頻與文本中理解場景并做出判斷；作為世界模型（World Model），它能生成具備物理精準度的合成訓練數據；作為仿真器（Simulator），它能在閉環中測試機器人策略，展示動作結果并預測后續狀態；而作為世界動作模型（World Action Model），它甚至能直接為不同機器人本體生成動作指令。

這四重身份并列共存，意味著Cosmos不是任何單一環節的工具，而是整個物理AI開發流程的基礎設施層。英偉達的意圖已經相當清晰：它要成為機器人時代的「操作系統」，而Cosmos就是這個操作系統的內核。

02.

從VLM到世界動作模型如何演進

世界動作模型的出現，是否意味著VLM將被取代？英偉達機器人業務負責人Spencer的回答，提供了一個理解當前AI架構演進的重要視角。

他的邏輯是，我們最初從語言模型出發，是因為語言是人類理解世界的語義接口，但機器人需要的是空間智能與動作智能，而非語言智能。VLM加上動作頭（Action Head），誕生了VLA（視覺語言動作模型）；在此基礎上，加入對世界物理規律的建模，誕生了世界模型；最終，將視覺感知與動作生成真正置于同等優先級并融合，才得到世界動作模型。

這條進化鏈條非常清晰。LLM→VLM→VLA→World Model→World Action Model，這并非偶然涌現，而是一條被英偉達刻意規劃的技術路徑。因為其每一步都在拓展AI對「真實世界」的感知與干預能力，最終目的是形成一個感知世界、理解物理規律、生成動作、驗證結果、迭代策略的閉環。

這一路徑的戰略意義在于，它為英偉達Omniverse（數字孿生平臺）、Isaac（機器人開發平臺）和Cosmos（世界模型）三大產品線，提供了一個統一的技術敘事框架。開發者無論是做仿真、訓練還是部署，無論處于哪個環節，都能在英偉達的生態中找到對應工具，且這些工具之間有著清晰的協作關系與數據流轉邏輯。

這種從底層算力、世界模型到開發框架的縱向整合能力，也正在使英偉達逐漸形成物理 AI 領域具有行業影響力的全棧生態優勢。

03.

數據鴻溝才是真正的「大挑戰」

如果說世界動作模型的概念令人興奮，那么現實中「數據鴻溝」（Data Gap）的問題則讓人清醒。英偉達Spencer在會議中坦言，機器人領域目前最大的挑戰，依然是無法捕獲每一種長尾場景。真實世界的邊緣情況，既無法在現實中安全采集，又難以在仿真中精確還原。

針對這一核心矛盾，英偉達給出的答案是「Omniverse與Cosmos的共生」。這一判斷相當務實，也相當微妙。因為Omniverse代表基于物理引擎的精確仿真，能夠為特定場景提供有物理依據的數據；Cosmos則通過預訓練學習物理動力學，能夠生成大規模的多樣化場景。兩者不是替代關系，而是分工協作：Omniverse提供「物理錨點」，Cosmos提供「規模擴展」。

但這里存在一個尚未解決的深層矛盾，Cosmos模型的物理精度受限于預訓練數據的覆蓋范圍。一個典型的案例是精細操作任務，例如電子產品的精密裝配所需的物理精度，目前的世界模型尚未完全達到。Spencer的原話是：「我們沒有足夠的、已完整標注且覆蓋所需技能與交互類型的預訓練數據。」

這意味著，在高精度操作場景下，開發者仍然必須依賴傳統仿真器（如Omniverse）來生成物理精確的訓練數據，再將其喂給Cosmos以豐富其物理先驗。這是一個循環依賴的結構，Cosmos需要Omniverse的數據來提升物理精度；而Omniverse的數據生產效率，又需要Cosmos的泛化能力來擴展場景多樣性。

這種共生關系短期內無法被打破，但也恰恰成就了英偉達生態的護城河：兩套系統的深度耦合，使得開發者很難只選其一，而舍棄另一個。

04.

把人形機器人的研究權還給大學

英偉達本次發布最具話題性的硬件產品，是英偉達與Unitree合作推出的參考人形機器人Unitree H2 Plus。

這款機器人身高約1.8米、體重約68公斤，搭載本體計算平臺 NVIDIA Jetson Thor，預裝1.7版本機器人模型，具備 Sharpa 五指靈巧手，并集成RGB攝像頭與腕部傳感器。

同時，英偉達宣布推出 NVIDIA Isaac? GR00T 人形機器人參考平臺，這是首款基于 NVIDIA Jetson Thor? 和 NVIDIA Isaac? GR00T 開放開發平臺打造的開放人形機器人參考設計。

英偉達真正的戰略意圖，并不在于自己造機器人，而在于降低頂級人形機器人研究平臺的準入門檻。Spencer的表述直白而有力：「把機器人研究從少數富有AI實驗室的專屬，還給全球所有大學研究者。」斯坦福、蘇黎世聯邦理工、加州大學圣地亞哥分校、艾倫人工智能研究所均已宣布采用該平臺。

這一舉措的產業邏輯十分清晰，當更多的大學研究團隊基于英偉達的人形機器人開發全棧Isaac GR00T平臺進行研究，就會有更多的模型、算法和數據在英偉達生態中生長；這些成果反過來又會加速Cosmos的預訓練數據積累，填補上文所述的「數據鴻溝」。學術生態的開放，本質上是英偉達對自身數據飛輪的戰略性投資。

目前Unitree H2 plus 的商業化路徑通過海外分銷商進行，定價尚未公布，預計2026年底面向商業客戶開放。這意味著至少在未來一年內，該機器人仍以研究用途為主要場景，英偉達并不急于將其推向大規模商業部署。這種克制，恰恰體現了其「平臺優先」而非「硬件優先」的一貫戰略取向。

05.

結語與未來

綜觀英偉達在Cosmos、Isaac GR00T 平臺等方向上的整體布局，一條清晰的戰略主軸已經浮現：英偉達正在將自己從「AI芯片供應商」轉型為「物理AI基礎設施提供商」。它不再只是賣GPU，而是在出售一整套從數據生成、模型訓練、仿真驗證到邊緣部署的完整工作流。

這一戰略的成功，高度依賴于生態的網絡效應：越多的開發者基于Omniverse生成數據、越多的研究者在Isaac平臺上訓練模型、越多的工廠在Fox框架下部署代理，整個Cosmos數據飛輪就轉得越快，英偉達的技術護城河就越深。

但生態鎖定是一把雙刃劍。對于產業鏈上的參與者而言，深度接入英偉達平臺帶來的不僅是效率提升，還有日益增加的依賴風險。當「Cosmos成為行業基線」成為共識，當「Isaac GR00T成為人形機器人開發標準」，這些產業參與者必然未來一定程度強捆綁英偉達生態。

更值得關注的是，英偉達所有這些布局，最終都依賴于一個前提，那就是它能夠持續維持算力層面的技術優勢。一旦替代芯片架構在性能上形成實質競爭，當前以GPU算力為錨點構建起的整個生態體系，都將面臨重新定價的壓力。

物理AI的時代正在加速到來，英偉達的Cosmos生態或許是目前最完整、最系統的布局。但「最完整生態」與「最終勝出」之間的距離，從來不由技術路線圖決定，而由真實落地中的每一個細節來丈量。未來會如何，人類依然在不斷探索，而英偉達已經給出了他們的路線圖。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.