百度Create 2026具身智能專場論壇成功舉辦共探技術落地新路徑

2026-05-19 16:40:32　來源: 機器人大講堂

安徽舉報

分享至

2026年5月14日，百度AI開發(fā)者大會Create 2026?具身智能專題論壇在北京國家會議中心盛大啟幕。本次論壇由百度智能云、機器人大講堂聯(lián)合主辦，BV百度風投、一葦資本、原點學堂、清華MBA具身智能俱樂部等機構共同支持，匯聚北京大學、上海交通大學、英偉達、星動紀元、智平方等海內外頂尖高校、行業(yè)龍頭企業(yè)的技術專家與創(chuàng)業(yè)者，圍繞具身模型、數(shù)據(jù)體系、場景落地、產(chǎn)業(yè)生態(tài)等核心議題，深度剖析行業(yè)發(fā)展現(xiàn)狀，共商技術規(guī)模化落地最優(yōu)解，助力AI從數(shù)字世界全面走向物理世界。

01.

行業(yè)邁入關鍵拐點具身智能成未來產(chǎn)業(yè)核心抓手

論壇伊始，百度集團副總裁袁佛玉發(fā)表致辭，她指出，過去兩年大模型重塑了文本、圖像、辦公等數(shù)字世界，而當下全球AI產(chǎn)業(yè)的核心命題，已轉向“讓AI在物理世界安全、可靠、低成本行動”，產(chǎn)業(yè)機會從軟件延伸至制造、物流、交通、民生服務等國計民生產(chǎn)業(yè)。

袁佛玉強調，具身智能并非單點技術突破，而是涵蓋模型、數(shù)據(jù)、本體、芯片、傳感器、控制、安全及供應鏈的系統(tǒng)工程，是一場 “知行合一” 的技術革命。百度智能云將從三大維度持續(xù)深耕：一是夯實AI Infra基礎設施，優(yōu)化VLA模型、世界模型訓練推理性能，提供真機遙操、數(shù)據(jù)采集、語音交互、云邊端協(xié)同等全棧能力，正助力啟元研究院、星動紀元、智平方等企業(yè)開展具身模型研發(fā)；二是深化場景鏈接，開放行業(yè)Know-how、客戶資源與落地經(jīng)驗，聯(lián)合企業(yè)挖掘可規(guī)模化商業(yè)化場景；三是推動行業(yè)標準建設，作為工信部人形機器人與具身智能標準化技術委員會唯一入選云廠商，牽頭數(shù)據(jù)采集、模型評測、整機安全等標準制定，降低產(chǎn)業(yè)協(xié)同成本。

02.

陳建宇：全棧系統(tǒng)驅動人形機器人規(guī)模化落地

星動紀元CEO、創(chuàng)始人陳建宇在主題分享中指出，人形機器人從“可用”邁向“可規(guī)模”，單點技術突破遠遠不夠，必須構建AI Native全棧系統(tǒng)，覆蓋數(shù)據(jù)、大腦、本體、應用四層閉環(huán)體系。他明確，場景價值、產(chǎn)品市場匹配（PMF）、穩(wěn)定交付能力、可控成本，是規(guī)模化落地的四大核心前提；模型能力決定機器人性能上限，本體與工程能力決定實際落地下限。

在數(shù)據(jù)層面，星動紀元構建五級數(shù)據(jù)金字塔，從低到高依次為互聯(lián)網(wǎng)數(shù)據(jù)、EgoCentric第一人稱數(shù)據(jù)、物理世界生成數(shù)據(jù)、遙操數(shù)據(jù)、真機數(shù)據(jù)。陳建宇特別指出，長尾故障數(shù)據(jù)價值遠超常規(guī)成功數(shù)據(jù)，而真實場景閉環(huán)產(chǎn)生的真機數(shù)據(jù)，是支撐模型持續(xù)迭代、本體不斷優(yōu)化的最高質量數(shù)據(jù)源。

在技術核心層面，陳建宇提出兩大關鍵判斷：大腦端，傳統(tǒng)VLA模型存在天然泛化邊界，世界模型是突破泛化上限的核心，核心價值是學習物理世界統(tǒng)一規(guī)律，而非簡單模仿單一動作；本體端，星動紀元堅持核心硬件全棧自研、模塊化產(chǎn)品設計，重點突破五指靈巧手技術，讓硬件深度適配模型需求，為規(guī)模化落地筑牢硬件根基。

03.

張鵬：VLA 范式持續(xù)進化，類腦融合賦能通用智能

智平方合伙人、副總裁張鵬認為，VLA（視覺-語言-行為）并非具身智能的終點，而是連接數(shù)字世界與物理世界的核心航道，其范式正持續(xù)迭代、能力不斷增強。他指出，VLA本質是語言、視覺、行為三要素的端到端對齊，未來智平方將持續(xù)融合世界模型、類腦計算、神經(jīng)形態(tài)技術，逐步從專用場景適配走向通用場景覆蓋，推動機器人成為第四代智能終端。

智平方自研NeuroVLA模型，創(chuàng)新性地將類腦計算與VLA深度融合，打破傳統(tǒng)VLA響應延遲高、推理能力弱的瓶頸。該模型可實現(xiàn)毫秒級實時響應、強邏輯推理能力，適配物理世界動態(tài)、復雜、不確定的交互需求，為機器人在工業(yè)、公共服務等半結構化場景商業(yè)化落地提供核心技術支撐。

張鵬同時宣布，智平方聯(lián)合百度智能云開源AlphaBrain Platform，開放自研VLA模型、測評工具、數(shù)據(jù)服務及場景化工具鏈。平臺旨在降低行業(yè)研發(fā)門檻，將少數(shù)團隊掌握的復雜系統(tǒng)能力轉化為行業(yè)共有資源。他強調，具身智能落地離不開AI、硬件、場景三大要素的深度融合，只有構建完整商業(yè)閉環(huán)與數(shù)據(jù)閉環(huán)，才能實現(xiàn)行業(yè)可持續(xù)發(fā)展。

04.

熊蓉：SPIRE 知行融貫，大小腦分層攻克高精度難題

浙江大學求是特聘教授、浙江人形機器人創(chuàng)新中心首席科學家熊蓉提出SPIRE知行融貫發(fā)育體系，創(chuàng)新構建“大腦+小腦”分層架構，精準破解當前 VLM（視覺語言模型）識別不準、物理交互薄弱、算力依賴高、跨場景泛化不足四大行業(yè)痛點。大腦聚焦高維認知、空間關系推理、任務失敗反思；小腦負責實時感知、精準動作執(zhí)行、零樣本泛化適配，二者協(xié)同實現(xiàn)端到端智能閉環(huán)。

熊蓉強調，力、觸、重量、摩擦力等物理信息，無法通過視覺感知替代，必須納入模型訓練核心環(huán)節(jié)。團隊通過高保真環(huán)境重構、人-機操作數(shù)據(jù)遷移、分層強化學習、緊湊拓撲感知等技術，讓機器人實現(xiàn)亞毫米級操作精度，同時大幅降低算力依賴。

熊蓉介紹，SPIRE 體系已完成多場景規(guī)模化落地驗證：工業(yè)場景中，攻克柔性布料高精度操作難題，與杰克科技已簽訂 2000 臺訂單，成為全球服裝業(yè)首個批量化落地項目；家庭場景中，聯(lián)合方太發(fā)布全球首個機器人總廚，實現(xiàn)烹飪輔助；康養(yǎng)場景中，完成語音交互下的喂飯、喂水、陪護等服務。她表示，后續(xù)將持續(xù)優(yōu)化模型泛化性、降低硬件成本，推動具身智能從工業(yè)向家庭、康養(yǎng)等更多民生場景滲透。

05.

應茹：百舸AI Infra全棧支撐，適配三大研發(fā)范式

逆矩陣首創(chuàng)世界模型W0至W5分級理論，清晰界定行業(yè)演進層級：W0為單純追求視覺流暢度的視頻生成階段，W5則是能夠吃透物理規(guī)律、自主完成復雜任務的真實世界通用推理階段。陳博遠指出，類比自動駕駛從L0到L5的演進，世界模型存在W0至W5的演化進程，W0為單純追求視覺流暢度的視頻生成階段，W5則是AI自主探索發(fā)現(xiàn)新物理規(guī)律、自主完成復雜任務的真實世界通用推理階段。

百度智能云主任架構師應茹表示，百度百舸已從服務通用大模型的基礎設施，全面升級為具身智能專屬全棧AI Infra，覆蓋數(shù)據(jù)準備、分布式訓練、仿真評測、推理加速、真機部署全鏈路，精準適配當前行業(yè)三大主流研發(fā)范式：操作類VLA模型、世界模型、運動控制策略。

應茹指出，2026年具身智能行業(yè)呈現(xiàn)兩大核心技術趨勢：一是世界模型分布式訓練進入爆發(fā)期，行業(yè)探索多種 VLA 與世界模型融合架構；二是運動控制策略從獨立分散走向統(tǒng)一范式，從小規(guī)模訓練向大規(guī)模 Scaling 演進。百舸針對性優(yōu)化核心技術：提供5B–20B 中型模型并行訓練高性價比算力配置，解決世界模型Diffusion結構推理延遲瓶頸，優(yōu)化運動控制策略多機訓練的通信與顯存占用、并支持一鍵擴展至128卡集群。

應茹介紹，百度百舸已深度服務行業(yè)，累計支撐30余家具身企業(yè)完成模型研發(fā)、迭代與真機落地。平臺預置智源雙臂真機數(shù)據(jù)集、主流仿真環(huán)境、開源強化學習框架，集成英偉達 Isaac生態(tài)、SONIC全身控制底座、GR00T N 系列 VLA 模型，提供開箱即用的研發(fā)環(huán)境，大幅降低企業(yè)研發(fā)門檻、縮短迭代周期、降低試錯成本。

06.

陳博遠：世界模型核心在Action，因果建模決定物理理解

逆矩陣科技創(chuàng)始人兼首席研發(fā)官陳博遠，從認知科學與人工智能雙重視角溯源解讀世界模型。他指出，世界模型的核心價值不在于生成逼真視頻畫面，而在于搭建物理世界的因果推理體系，動作正是建立因果關聯(lián)、解構物理規(guī)律的關鍵核心。在他看來，物理規(guī)律蘊藏于物體動態(tài)交互過程，而非靜態(tài)像素畫面；人工智能想要真正理解現(xiàn)實世界，不能只依靠被動觀察，更要通過主動行動感知推演。

陳博遠認為，通用世界基座模型是各垂直場景規(guī)模化落地的核心基礎。工業(yè)仿真、具身智能、游戲創(chuàng)作等領域遵循同一套物理規(guī)則，真實采樣成本極高則是它們共同的產(chǎn)業(yè)痛點。各類真機數(shù)據(jù)與仿真數(shù)據(jù)可跨場景互補賦能、交叉訓練，沉淀出對物理世界的通用認知，物理規(guī)律的通用性向上輸出、垂直場景反哺物理深度向下沉淀，構成了世界基座模型的雙向飛輪。

07.

戴亞奇：構建全模態(tài)表征，真實世界RL催生ChatGPT時刻

日冕機器人聯(lián)合創(chuàng)始人戴亞奇以ChatGPT的發(fā)展路徑為類比，提出具身世界模型的 Scaling 飛輪：表征、數(shù)據(jù)、訓練范式，三者相互驅動、形成閉環(huán)，是實現(xiàn)技術躍遷、迎來行業(yè) ChatGPT 時刻的關鍵。

日冕機器人認為，表征是探索具身世界模型Scaling飛輪的第一步工作。行業(yè)從VLA到WAM，其背后本質是嘗試從“表征動作”到“表征世界”。當前主流的VLA模型已經(jīng)能夠通過將動作對齊到視覺語言空間來完成機器人動作生成，而為了應對真實世界天然的接觸復雜性、任務多樣性和長時因果關系，具身智能需要原生的“Token”級別表征體系創(chuàng)新。日冕認為下一代表征體系需要具備“離散性、普世性、結構性”，進而通過表征體系降低對“重人力采集”數(shù)據(jù)的依賴，真正開啟具身數(shù)據(jù)的Scaling曲線，以期在Scaling過程中最終實現(xiàn)GPT級別的模型范式創(chuàng)新。

在模型體系上，日冕機器人將世界模型的泛化性優(yōu)勢融入真機世界強化學習（Real-World RL），提出了世界模型獎勵系統(tǒng)（World Model Reward System）的方案。日冕的WMRS方案通過“泛化的策略模型嘗試任務、泛化的監(jiān)督模型評價糾錯”的閉環(huán)機制，一方面大幅降低了此前具身強化學習對現(xiàn)場部署訓練和人在環(huán)（Human in the loop）的依賴，另一方面也大幅降低了在產(chǎn)品部署過程中具身強化學習帶來的回退風險，進而為大規(guī)模商業(yè)化后的交付閉環(huán)系統(tǒng)做好準備。

場景選擇方面，日冕機器人將高速增長的 AI 基礎設施制造業(yè)作為當前重點突破方向之一。該行業(yè)具備“多批量快迭代、精細操作豐富、擴產(chǎn)需求旺盛”三大特征，為日冕上述提出的世界模型范式和系統(tǒng)進入真實工業(yè)場景提供了高質量的驗證土壤和量產(chǎn)基礎，深度契合了日冕“在高速發(fā)展的產(chǎn)業(yè)中與人類協(xié)作、在精細交互的場景中突破人類極限”的目標。

最后，戴亞奇強調了“具身智能不是單打獨斗的行業(yè)”，日冕一方面將在后續(xù)持續(xù)開源全模態(tài)表征工具和多場景全模態(tài)精細操作數(shù)據(jù)集，另一方面也期待聯(lián)合行業(yè)伙伴共建數(shù)據(jù)和硬件生態(tài)，持續(xù)探索更多的優(yōu)質場景和重要產(chǎn)業(yè)方，共同加速具身智能ChatGPT時刻的到來。

08.

王宇杰：Compute is Data，Cosmos世界模型賦能物理AI

英偉達解決方案架構師王宇杰圍繞 GTC 2026 的“Compute is Data”核心表述展開分享，指出面向 Physical AI，行業(yè)正從“計算資源處理數(shù)據(jù)”走向“以高性能計算驅動高質量數(shù)據(jù)生產(chǎn)”的新范式。NVIDIA 的Physical AI Data Factory Blueprint 旨在統(tǒng)一并自動化訓練數(shù)據(jù)的生成、增廣與評估流程，幫助開發(fā)者將有限數(shù)據(jù)擴展為大規(guī)模、多樣化的數(shù)據(jù)集。

王宇杰介紹，Cosmos 在 Physical AI 開發(fā)中可用于合成數(shù)據(jù)生成、視覺推理和動作仿真，以加速通用機器人智能在復雜環(huán)境中的開發(fā)與驗證。

王宇杰表示，NVIDIA 已圍繞具身智能構建較為完整的產(chǎn)品棧，包括 Isaac Sim、Isaac Lab、Newton、Cosmos、Isaac GR00T N 系列模型、Jetson Thor，以及用于機器人評測的 Isaac Lab-Arena，覆蓋從仿真、訓練、評測到部署的關鍵環(huán)節(jié)。

目前Isaac Sim/Lab和GR00T模型已在百度智能云上線，助力企業(yè)快速構建物理 AI 能力、加速機器人落地應用。

09.

任容瑋：開源生態(tài)持續(xù)擴容北京人形×百度智能云共啟具身智能黑客松

北京人形機器人創(chuàng)新中心知產(chǎn)與科研合作部負責人任容瑋發(fā)表主題分享，系統(tǒng)介紹中心在開源開放領域的布局成果。作為具身智能領域的國家隊，北京人形持續(xù)推動技術普惠，已開放天工 1.0 通用人形機器人硬件設計、RoboMIND 多模態(tài)數(shù)據(jù)集（累計 40 萬條，下載量600W+）、運動控制框架TienKung-Lab，VLA 模型及世界模型等核心資產(chǎn)，構建起覆蓋硬件、數(shù)據(jù)、模型、平臺等全鏈路開源生態(tài)。

任容瑋重點發(fā)布最新技術成果，包括基于通用具身智能平臺“慧思開物”的低代碼開發(fā)平臺、行業(yè)領先的 VLA 仿真平臺，大幅降低開發(fā)者使用門檻，助力快速實現(xiàn)技術驗證與場景落地。依托上萬平方米中試基地，中心為行業(yè)提供標準測試、快速試錯及規(guī)模化驗證服務，加速具身智能技術從實驗室走向產(chǎn)業(yè)應用。

本次具身智能專場論壇上，北京人形機器人創(chuàng)新中心聯(lián)合百度智能云，正式開啟首屆具身智能黑客松大賽。賽事聚焦行業(yè)核心技術難點，設立運動控制、VLA 模型微調兩大賽道，面向企業(yè)、高校、科研團隊及開發(fā)者全面開放報名。

賽事周期從5月延續(xù)至9月，整體分為啟動發(fā)布、線上初賽、線下決賽、成果推廣四個階段。主辦方將開放天工系列機器人硬件、RoboMIND開源數(shù)據(jù)集、XR-1仿真平臺與百度百舸算力資源，為參賽團隊提供全鏈路技術支持。

大賽評審陣容由北京人形機器人創(chuàng)新中心、百度智能云及清華、北大、浙大等高校專家共同組成，同時配套設置獎金、硬件資源和生態(tài)扶持等多項獎勵。活動以賽促研、以賽促產(chǎn)，打通技術研發(fā)與真實應用場景的壁壘，推動具身智能走出實驗室、實現(xiàn)規(guī)模化落地，持續(xù)帶動整個產(chǎn)業(yè)生態(tài)加速成長。

10.

匯聚行業(yè)智慧共話具身智能技術瓶頸與落地之道

本次論壇壓軸圓桌以“The Hard Part”為主題，集結學界專家與企業(yè)創(chuàng)始人、高管，圍繞技術路線、落地瓶頸、硬件形態(tài)收斂、人才培養(yǎng)、場景突破等核心議題展開深度交流，碰撞觀點、凝聚產(chǎn)業(yè)共識。

上海交通大學助理教授穆堯、大曉機器人副總裁周泉、微分智飛首席科學家周鑫、四川具身科技CEO馮振宇、深樸智能聯(lián)合創(chuàng)始人兼副總裁張迪、歐拉萬象COO張靖、蘿博派對CEO黃一、智域基石CEO楊哲軒共同參與本場圓桌對話。

穆堯從學術視角分析，具身智能已走完從0到1的原始突破，正邁入從1到100的規(guī)模化發(fā)展周期，整體行業(yè)發(fā)展勢頭向好。他提到，世界模型與VLA并非相互割裂，JAPA與PIXEL兩條技術路線可以融合互補，后續(xù)會逐步演進為可插拔的統(tǒng)一技術范式。面對少樣本遷移難題，可通過云端通用推理搭配輕量級動作模型、依托智能體自動化采集數(shù)據(jù)兩條路徑，減少行業(yè)對真機實測數(shù)據(jù)的依賴。

周泉判斷2026年將迎來行業(yè)格局劇變，技術路線從多元分散走向逐步收斂，應用場景也從零散試點轉向規(guī)模化落地，搭建完整數(shù)據(jù)閉環(huán)是驅動技術持續(xù)迭代的核心。他表示，零樣本遷移是商業(yè)化落地的重要抓手，但長程任務仍存在泛化能力不足的問題，借助世界模型強化預測能力，才能讓技術更好適配實際應用場景。

周鑫聚焦任務邊界與數(shù)據(jù)閉環(huán)兩大核心，明確清晰的任務界定、輕量化評測體系，是搭建數(shù)據(jù)閉環(huán)、支撐技術規(guī)模化發(fā)展的基礎。在他看來，各類技術路線的差異，本質源于任務顆粒度不同：精細操作類場景需要高顆粒度世界模型支撐，飛行等粗粒度任務則可依靠底層表征完成推演，行業(yè)需根據(jù)不同場景匹配適配的技術方案。

馮振宇認為，情感共生已成為行業(yè)普遍共識，人形機器人的終極落點面向消費端。產(chǎn)品除了替代人力完成基礎體力工作，更要承載情感陪伴的核心價值。他堅持硬件形態(tài)終將收斂到仿人構型，非仿人形態(tài)很難形成真正的通用智能；而真機實測數(shù)據(jù)是模型迭代的核心根基，可依托省級實訓基地持續(xù)沉淀夯實數(shù)據(jù)儲備。

張迪表示行業(yè)正處在技術迭代攻堅階段，尚未形成統(tǒng)一發(fā)展路徑，但業(yè)內已形成共識，首要解決泛化能力弱、優(yōu)質數(shù)據(jù)稀缺、物理世界理解不足等行業(yè)痛點。商業(yè)化落地遵循循序漸進節(jié)奏，先從類家庭周邊場景切入，逐步積累數(shù)據(jù)、打磨技術能力，再向完整家庭場景滲透，通過快速試錯實現(xiàn)持續(xù)迭代升級。

張靖將真實落地、持續(xù)迭代視作行業(yè)發(fā)展核心關鍵詞，把2026年定義為具身智能落地元年。他主張從開發(fā)者生態(tài)場景切入，打造具備成長進化能力的機器人產(chǎn)品，不必一味追求一步到位的完美形態(tài)。家庭場景優(yōu)先守住安全底線，對高頻日常任務進行漸進式優(yōu)化，依托用戶反饋形成正向循環(huán)，帶動技術與產(chǎn)品同步成長。

黃一強調規(guī)模化發(fā)展與基礎設施建設相輔相成，當前行業(yè)正同步推進規(guī)模擴張與底層基建完善。硬件形態(tài)會逐步向人體構型靠攏，輪式底盤則更適配工業(yè)專屬場景；開源本體搭配小腦系統(tǒng)與底層基建，能夠有效降低行業(yè)準入門檻、培育專業(yè)人才，同時行業(yè)應堅持先打磨至頂尖水準，再進行開源共享。

楊哲軒指出，具身智能本質是復雜系統(tǒng)工程，絕非單一模型可以定義，物理場景容不下算法幻覺，全鏈路協(xié)同配合才是發(fā)展關鍵。他提出，數(shù)據(jù)加工的重要性遠超原始采集，高質量的數(shù)據(jù)編譯是模型訓練輸入的核心；以第一視角數(shù)據(jù)可降低采集成本，跨本體通用訓練則能提升模型泛化表現(xiàn)，為行業(yè)長期發(fā)展筑牢數(shù)據(jù)根基。

11.

結語與未來：

百度AI開發(fā)者大會Create 2026具身智能專場圓滿落幕，集結產(chǎn)學研多方力量，梳理行業(yè)技術前沿、產(chǎn)業(yè)痛點與落地路徑，為整個行業(yè)提振信心、明確發(fā)展方向。

從模型迭代、數(shù)據(jù)創(chuàng)新，到硬件自研、場景落地，全產(chǎn)業(yè)鏈協(xié)同節(jié)奏持續(xù)加快，行業(yè)共識逐步凝聚，發(fā)展路徑愈發(fā)清晰。依托政策扶持、技術突破與生態(tài)完善，具身智能正加快走出實驗室，走進真實應用場景，邁入規(guī)模化落地新階段。

百度智能云將持續(xù)聯(lián)合行業(yè)伙伴，深耕核心技術、賦能產(chǎn)業(yè)發(fā)展，攜手推進具身智能創(chuàng)新演進，助力國內AI產(chǎn)業(yè)提質升級，以科技實力賦能實體經(jīng)濟，共建全新智能產(chǎn)業(yè)生態(tài)。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.