![]()
作者 | 冬梅
大模型的競爭,正從純文本、多模態內容生成,徹底轉向物理世界的智能落地。
昨天,在 2026 中國臺北 GTC 大會上,英偉達正式官宣重磅產品——NVIDIA Cosmos 3,這款面向物理 AI 的開放世界基礎模型,憑借全新混合 Transformer 架構,打通視覺推理、世界生成、動作預測三大核心能力,成為全球首款完全開放的全模態物理 AI 模型。與此同時,英偉達牽頭成立全球開發者協作聯盟,正式拉起物理 AI 生態陣營,宣告物理 AI 規模化落地時代加速到來。
不同于當下主流聚焦內容創作的多模態大模型,Cosmos 3 的核心定位精準錨定真實物理世界,原生支持文本、圖像、視頻、環境音、動作五大模態的理解與生成,且具備頂尖的物理規律精準度。
最關鍵的是,它徹底重構了物理 AI 的開發效率,將行業傳統數月的訓練、評估周期,直接壓縮至數天,為機器人、智能汽車、工業視覺 AI 等領域帶來代際升級可能。
架構革新:破解物理 AI 落地核心痛點
長期以來,物理 AI 落地始終受制于兩大行業難題:一是真實場景訓練數據稀缺,二是仿真系統碎片化,導致模型難以在復雜現實環境中泛化適配,無法穩定落地。而 Cosmos 3 的核心價值,正是通過架構創新破解這一行業瓶頸。
此次全新搭載的混合 Transformer(Mixture-of-Transformers)架構,是英偉達的突破性技術沉淀。該架構創新性融合推理 Transformer 與專家生成 Transformer 雙模塊,先通過推理模塊精準解析現實場景中物體交互、時空運動、環境關聯等核心物理邏輯,再依托生成模塊輸出貼合物理規律的視頻畫面與動作軌跡,徹底改變了傳統模型“生成優先、邏輯缺失”的弊端。
訓練層面,Cosmos 3 依托海量高質量數據集完成迭代,囊括數十億條文本、圖像、視頻、環境音及機器人動作軌跡樣本,構建起完備的物理世界知識體系。對開發者而言,這意味著無需海量定制化數據、無需高額訓練算力成本,就能基于預訓練模型快速搭建穩定、可泛化的物理 AI 系統,大幅降低行業落地門檻。
憑借硬核技術實力,Cosmos 3 已拿下多項權威基準測試榜首。
在開放模型賽道中,其包攬 Artificial Analysis、Physics-IQ 等榜單的世界生成精度第一,RoboLab、RoboArena 動作策略測評第一,以及 VANTAGE-Bench、TAR 視覺理解排行榜首位,全方位領跑物理 AI 核心能力。
為適配不同開發者、不同落地場景的差異化需求,英偉達推出分層版 Cosmos 3 產品矩陣,覆蓋高精度研發、快速迭代、邊緣實時推理全流程:
Cosmos 3 Super:定位高端高精度場景,主打極致物理仿真精度與生成質量,適配機器人、智能汽車等對安全性、精準度要求嚴苛的模型后訓練研發場景;
Cosmos 3 Nano:主打輕量化高效迭代,可在極短時間內完成高質量視頻生成與動作推理,適合開發者快速驗證算法、迭代原型方案;
Cosmos 3 Edge(即將上線):聚焦終端落地,專為實時邊緣推理優化,將打通物理 AI 從云端訓練到終端部署的最后一環。
功能層面,Cosmos 3 可一站式充當三大核心工具:具備全模態跨維度推理的視覺語言模型、可模擬物理環境、預測世界狀態的仿真訓練模型、支撐機器人定制任務訓練的動作骨干網絡,全方位覆蓋物理 AI 開發全流程。
技術突破之外,英偉達同步祭出生態大招,正式成立NVIDIA Cosmos Coalition 全球協作聯盟,集結全球頂尖世界模型研發團隊與 AI 開發者,共同推動下一代開放世界模型的技術迭代與落地普及。
首批創始成員陣容堪稱行業頂配,涵蓋 Agile Robots、Black Forest Labs、Runway、Skild AI 等全球知名 AI 與機器人企業。聯盟將搭建開放共享的技術生態,成員可雙向輸出模型、算法與測評技術,同時共享 Cosmos 3 核心技術、專屬訓練工具與 NVIDIA DGX Cloud 云端算力基礎設施,開展大規模模型訓練與迭代。
這種開放協作模式,將有效解決當前物理 AI 行業技術分散、兼容性差、迭代緩慢的痛點,通過生態合力加速技術創新,統一行業技術標準,推動物理 AI 從單點技術突破走向規模化落地。
目前,英偉達 Cosmos 平臺已形成成熟的產業落地能力,平臺內置機器人動力學、人體運動、輔助駕駛、空間推理等多領域專項數據集,同時搭載神經場景重建、缺陷圖像生成、視頻增強等全新 AI 智能體技能,全面賦能工業、出行、機器人等場景。
產業端已有大量頭部企業率先入局落地:機器人領域集結三星、LG 電子、Doosan Robotics、Agile Robots 等知名廠商;智能汽車領域,理想汽車已依托該平臺開展相關技術研發;視覺 AI 領域,Centific、Milestone Systems 等企業已基于其搭建工業 AI 與智能空間應用方案,物理 AI 的商業化圖景愈發清晰。
補齊工具短板,推出開源 Agent Toolkit
基礎模型之外,英偉達進一步補齊開發工具短板,正式推出NVIDIA 物理 AI 智能體技能(歸入 NVIDIA Agent Toolkit 體系),完成“基礎模型 + 自動化開發工具”的雙層布局。隨著 AI 智能體從單純編寫代碼,升級為統籌全流程開發任務的核心載體,這套工具鏈讓智能體可直接調用英偉達全系技術資產,實現物理 AI 開發全鏈路自動化。
NVIDIA 創始人兼 CEO 黃仁勛對此表示:“AI 智能體正在徹底改變軟件開發,而這一轉變正邁向物理 AI,并進一步擴展到那些將改變交通、制造、醫療和機器人技術的系統中。當智能體可以直接使用 NVIDIA 庫、模型和框架時,物理 AI 開發速度將大幅提升,使開發者能夠以驚人的速度構建未來的機器人、智能汽車和工業系統。”
英偉達已完成全棧物理 AI 技術的“智能體適配改造”,構建起一套可被 AI 智能體調用的完整技術矩陣:以 Cosmos 世界基礎模型承載物理推理與場景生成,以 Omniverse 支撐仿真與數字孿生,以 Isaac 賦能機器人仿真與學習,以 Metropolis 賦能視覺 AI、Alpamayo 適配輔助駕駛場景,再結合 Jetson 平臺打通邊緣 AI 部署,形成端到端技術閉環。
此次全新上線的物理 AI 智能體技能,核心價值是標準化、自動化工作流。它將復雜的物理 AI 開發流程,拆解為 AI 智能體可重復執行的標準化指令,明確工具調用規則、輸出標準與驗證邏輯,無需人工反復調試。同時,開發者可依托 NVIDIA NemoClaw 藍圖與 OpenShell 運行時,安全搭建、部署自主智能體,依托本地與云端的策略管控機制,保障開發過程的安全與隱私合規。
英偉達鎖定物理 AI 時代話語權
從底層Cosmos 3 世界基礎模型,到Agent Toolkit 智能體自動化工具鏈,再到 Omniverse、Isaac、Jetson 等全棧技術底座,疊加全球開發者聯盟生態與各行業頭部企業的落地實踐,英偉達已構建起完整的物理 AI 產業閉環。
當行業還在聚焦多模態內容生成、虛擬 AI 迭代時,英偉達已經完成物理 AI 從技術理論、模型創新、工具賦能到產業落地的全鏈條布局。這套開放、高效、可規模化的解決方案,將推動 AI 徹底走出虛擬場景,深度融入制造、交通、醫療、機器人等實體產業,開啟具身智能賦能實體經濟的全新周期。
會議推薦
企業級 Agent 落地,繞不開 4 個真實的工程問題!如何在 Agent 安全性和可用性之間找到平衡點?Agent 需要什么樣的記憶系統才能真正理解上下文?如何通過算法壓榨實現智力增量與成本控制的極致平衡?多 Agent 協作,如何做到可觀測、可治理、可控制?6.26-27 AICon 上海站,國內頭部公司的 Agent 實踐,一次說透。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.