无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

具身智能的設施之戰:百度百舸AI Infra如何重塑具身模型研發范式

0
分享至

人形機器人正在以肉眼可見的速度進入公眾視野,春晚舞臺、工廠流水線、家庭場景的討論接連出現。外界的目光大多聚焦在機器人本體的靈巧程度、模型的泛化能力,以及哪家公司的演示視頻更令人驚艷。然而在這場熱鬧的競賽背后,有一個層面長期處于公眾視野的盲區:支撐具身智能模型高速迭代的AI基礎設施,正在經歷一場同樣深刻的技術重構。



百度智能云主任架構師應茹近日在第三屆中國具身智能與人形機器人產業大會上發表了《百度百舸全棧AI Infra助力具身智能模型加速迭代》的主題分享,并在會后接受機器人大講堂專訪,從云端AI Infra的視角,系統梳理了當前具身智能研發的技術現狀與工程痛點。

01.

具身智能模型技術路線尚未收斂

理解具身智能的當前處境,需要先厘清它的技術分層。應茹將云上客戶的具身研發歸為兩大方向:操控類模型與運動控制策略。前者面向長程的精細操作任務,如家務、拆快遞、折衣服;后者面向平衡控制與敏捷反應,如舞蹈動作、武術套路等高難度全身協同運動。兩個方向在技術路線、訓練規模、工程需求上差異顯著,但都在近期迎來了各自的范式轉折點。



操控類模型目前存在兩條主流范式并行推進。一條是 VLA(視覺-語言-動作)路線,常見的架構是雙系統分層結構和單體結構。以雙系統分層架構為例:上層通過極大規模參數量(如大于200B的 MoE結構)的視覺語言模型(VLM)構建“通用大腦”,進行高層語義推理與長程任務拆解;下層通過高頻策略進行實時動作映射。而單體結構中的 VLM backbone 相對較小,通常在 10B 以內。另一條則是引入世界模型(World Model)的路線。它旨在讓模型于內部建立對物理規律的理解,賦予機器人內在的“物理直覺”,使其不僅能感知當前的世界,更能在腦海中預演動作交互后的環境變化。

從公開論文成果的統計趨勢來看,兩條路線目前都在快速推進。特別是 WAM方向,最近4、5個月內出現的云端大規模訓練需求,整體處于快速試錯與范式探索階段。這意味著具身智能模型尚未完成底層技術路線的收斂,各家頭部企業仍在用真金白銀的研發算力,多路徑押注不同的通向 AGI 之道。



運動控制策略的范式轉移也值得關注。過去,運控策略的主流做法是為每一套動作單獨設計訓練所需的獎勵函數,彼此割裂,無法做規模化擴展。但近期,英偉達開源的Sonic項目用大量人類動捕數據替代手工設計reward,將運動策略從1M參數量擴展到40多M,實現了統一的全身控制策略。Figure AI的Helix02在發布時也明確提出了“System 0”概念,指向同一個方向:用統一全身控制底座取代碎片化的獨立reward范式。



學術界與工業界在這一點上思路非常一致:運控策略正在走向統一化與規模化。這個判斷的工程含義是直接的——原來兩臺服務器就能搞定的訓練任務,現在需要擴展到128卡、幾十臺機器的集群化部署。訓練規模的躍升,推動了運控方向大規模上云的需求。

02.

數據瓶頸仍是核心卡點

技術路線的方向已經清晰,但支撐這些路線持續迭代的燃料——數據,卻面臨嚴重的工程化瓶頸。

在具身智能的研發鏈條中,算力往往是最容易被量化、最容易被討論的資源。但應茹明確指出,當前行業最迫切卻尚未被很好解決的痛點之一,是規模化Ego數據的處理能力滯后。



Ego數據,即第一人稱視角視頻數據,正在成為具身大模型規模化訓練的核心數據來源。這一趨勢在最近一年明顯加速:Apple發布EgoDex數據集,驗證了第一視角視頻用于機器人訓練的潛力;Tesla明確將Optimus的訓練策略從遙操作全面轉向人類視頻采集;NVIDIA推出EgoScale,基于超兩萬小時第一視角視頻進一步驗證了Ego數據的縮放定律——數據規模越大,機器人的智能操作能力越能持續提升。

這一趨勢的背后邏輯并不復雜:傳統遙操作數據的采集成本高、規?;款i明顯,難以支撐模型持續泛化迭代;而人類日常操作的第一視角視頻,天然具備高擴展性,且更貼近真實的人機操作邏輯。

然而,從原始Ego視頻到可直接用于模型訓練的標準數據集之間,存在一條尚未被系統性打通的工程鴻溝:大量的清洗、標注、結構化后處理工作,目前缺乏規模化、標準化的處理管線。這不純粹是算法問題,也包含大量工程問題,它實實在在地卡住了模型迭代的速度。

這個觀察揭示了具身智能產業的一個結構性矛盾:研發力量高度集中在模型架構和訓練范式的創新上,但支撐這些創新所需的數據工程基礎設施,建設進度明顯滯后。模型再先進,如果喂不進去足夠質量和規模的數據,迭代速度就會受制于數據供給端的瓶頸。

03.

模型范式仍未收斂情況下的算力選型困境

數據問題之外,算力的適配性同樣是一道關鍵命題。具身智能領域有一個容易被忽視的現實:當前主流的VLA或WAM 模型,其參數量級多集中在 5B 至 20B 之間,而非千億規模的極限參數。這種中等規模的模型特性,決定了其對算力的需求并非簡單的“暴力堆疊”,而是更看重各維度硬件資源的極致平衡。這便引出了一個核心思考:在當前的算力背景下,什么樣的算力配置,才是具身智能規?;涞氐摹白顑灲狻保?/p>

應茹引用了DeepSeek V4技術報告中的一個論點:卡間或機器間每GB互聯帶寬所能支撐的模型算力存在一個合理值,如果模型尺寸沒有達到這個算力值,超配的帶寬就是浪費。這個邏輯的實踐含義是:對于20B量級以下的VLA或WAM模型,盲目堆砌最高端的硬件配置,不僅不會帶來等比例的性能提升,反而會造成顯存、帶寬、算力等多個維度的資源錯配,推高研發成本。百度百舸面向這個階段的具身模型,專門提供了高性價比的算力配置以及配套的多機并行加速套件,在合理成本下實現最高效的訓練產出,讓每一算力單元都能精準服務于模型的快速迭代。

與此同時,多模態架構中還存在另一個隱性浪費:視覺編碼器ViT與語言大模型LLM天然異構,極易出現算力負載失衡。百度百舸開源了全模態訓練框架 LoongForge,專為多模態模型訓練提供高效解決方案。LoongForge引入模型異構并行、DP負載均衡等多模態專屬優化技術,將多模態模型訓練性能整體提升15%至45%。這個數字背后,同樣是對“隱性浪費”的系統性清理。

從更宏觀的視角看,這背后折射出具身智能產業的一個現實約束:大多數具身企業并非資金無限的科技巨頭,研發預算有限,算力成本的控制直接影響迭代速度和生存周期。如何在有限預算內最大化模型迭代效率,是這個行業大多數參與者面臨的真實問題,而不是一個可以用“買更好的卡”來簡單回答的問題。

04.

靈活性與性能的兩難是工程化的核心矛盾

解決了數據和算力配置的問題,還有一個更深層的工程矛盾橫亙在研發團隊面前:開源框架靈活,支持底層代碼的快速變更,但性能優化程度有限;高度優化的框架性能極致,但往往不支持敏捷變更。

這個矛盾在具身智能領域尤為突出。當前具身模型的架構仍處于快速演化期,VLA引入World Model作為backbone的方式在持續迭代,訓練范式也在頻繁調整。對于研發團隊而言,今天跑通的訓練流程,明天可能就需要做底層修改。如果底層框架不夠靈活,每一次架構調整都意味著巨大的工程成本;但如果為了靈活性犧牲性能,訓練效率的損失同樣難以承受。

應茹將百度百舸的應對策略描述為:在開源的、相對靈活的框架上提供加速套件,讓研發團隊能夠在靈活性和效率之間找到平衡點。這不是一個聽起來很炫的技術方案,但它直接對應了研發團隊的真實痛點。



World Model的引入帶來了一個新的具體問題:World Model本身通常采用擴散結構,在推理端存在明顯的效率瓶頸,實時性不足。百度百舸針對WMA、WAM、VA等主流開源世界模型做了一輪工程化加速,推理延遲最低可降至原有水平的四分之一。這個加速效果的實現路徑,并非依賴某種神秘的算法突破,而是建立在對底層硬件的深度理解之上,精準拆解模型的資源占用特征,結合對芯片緩沖區大小、指令周期、硬件并行度等底層參數的深度理解,做針對性適配優化。

這種“沉淀復用”的能力,是云端AI Infra提供商相對于單一企業自建基礎設施的核心優勢之一。單個具身企業很難為了優化一個推理框架投入專門的底層工程團隊,但云端平臺可以將這種優化能力攤薄到所有客戶身上。

05.

基礎設施的價值,在產業加速期才真正顯現

將上述四個維度的問題串聯起來,可以得出一個整體判斷:具身智能產業目前所處的階段,與大語言模型爆發前夕有幾分相似,技術路線尚未收斂,多種范式并行競爭,工程化程度參差不齊,大量研發資源消耗在重復建設基礎設施上。



在這個階段,基礎設施的價值往往被低估。具身智能的產業迭代閉環,涵蓋數據處理、模型訓練、仿真評測、部署推理的全鏈路工作流,任一環節的效率滯后都會拖累整體進度。對于大多數具身企業而言,核心競爭力在于模型架構的創新和場景的深度理解,而不在于自己搭建和維護一套完整的AI基礎設施。將基礎設施外包給專業平臺,讓自己的工程資源聚焦在真正有差異化價值的地方,是一個理性的資源配置選擇。

值得注意的是,應茹特別強調了國產芯片的適配問題。通過LoongForge框架實現一套代碼同時兼容通用GPU與昆侖芯XPU,這在當前的地緣政治背景下具有超出純技術層面的意義。具身智能的產業化進程,不可能脫離算力供給的現實約束。如何在國產算力底座上實現與國際主流平臺相當的訓練效率,是整個行業必須面對的工程課題,而不是一個可以回避的選項。

當然,這種判斷也有其邊界條件。對于少數具備足夠規模和技術深度的頭部企業,自建基礎設施可能仍然是更優選擇,因為定制化程度和數據安全的考量會超過外包的效率收益。但對于產業中的大多數參與者,尤其是處于快速迭代期、需要在有限資源內最大化研發效率的中小型具身企業,成熟的云端AI Infra平臺提供的不只是算力,而是一套經過大規模驗證的工程方法論。

從這個角度看,百度百舸在具身智能方向的布局,既是一個商業決策,也是一個產業基礎設施建設的組成部分。具身智能能否在中國實現真正的產業化落地,不僅取決于模型算法的突破,也取決于支撐這些突破的工程基礎設施是否足夠完善、足夠高效、足夠可及。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股截至昨日有3618只個股創年內新低,其中超800只創“9·24”新低

A股截至昨日有3618只個股創年內新低,其中超800只創“9·24”新低

聞號說經濟
2026-06-10 10:16:03
突發!特朗普發帖:伊朗現在必須付出代價!美媒:他將下令打擊伊朗發電廠和橋梁;國際油價直線拉升,金銀跳水

突發!特朗普發帖:伊朗現在必須付出代價!美媒:他將下令打擊伊朗發電廠和橋梁;國際油價直線拉升,金銀跳水

每日經濟新聞
2026-06-10 20:31:07
巴基斯坦軍機墜毀,機上人員全部遇難

巴基斯坦軍機墜毀,機上人員全部遇難

揚子晚報
2026-06-10 20:37:09
內塔尼亞胡:以色列已準備好拋棄美國獨自攻擊伊朗

內塔尼亞胡:以色列已準備好拋棄美國獨自攻擊伊朗

一種觀點
2026-06-10 15:53:34
陳宇劍折戟上海灘

陳宇劍折戟上海灘

新銳研究
2026-06-10 21:40:15
股民哽咽詢問比亞迪股價,王傳福回應

界面新聞
2026-06-10 13:35:07

紫牛頭條|湖北大冶離婚當晚殺害前妻案二審開庭,被害人女兒哭訴:想夢到媽媽,又怕夢到

紫牛頭條|湖北大冶離婚當晚殺害前妻案二審開庭,被害人女兒哭訴:想夢到媽媽,又怕夢到

揚子晚報
2026-06-10 21:11:22
杭州店主回應“2188元天價面”爭議:遭持續網暴,一天近200個騷擾電話“不分晝夜地罵”,店里也有68元一碗拌川,很自豪自己的燒面技術

杭州店主回應“2188元天價面”爭議:遭持續網暴,一天近200個騷擾電話“不分晝夜地罵”,店里也有68元一碗拌川,很自豪自己的燒面技術

極目新聞
2026-06-10 21:57:36
悲催!理發店橫幅“40歲以上老人剪發10元”上熱搜,80后集體破防

悲催!理發店橫幅“40歲以上老人剪發10元”上熱搜,80后集體破防

火山詩話
2026-06-10 11:26:31
演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

演都不演了?楊振寧離世7月,翁帆近況被爆,懷孕傳聞已真相大白

大眼妹妹
2026-06-10 21:05:38
山東渣土車側翻致女老師死亡事故調查報告:貨車超載407%,公司法定代表人被批捕

山東渣土車側翻致女老師死亡事故調查報告:貨車超載407%,公司法定代表人被批捕

封面新聞
2026-06-10 16:38:09
曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

曝宋珍珍前后對比照!手握三個選美冠軍,最終一無所有,豪門夢碎

一盅情懷
2026-06-10 17:41:25
活久見!4人在上海國際KTV消費52990元引關注,酒水消費達44940元

活久見!4人在上海國際KTV消費52990元引關注,酒水消費達44940元

火山詩話
2026-06-09 15:00:41
相關部門已抵達鵝腿阿姨后廚,其后廚位于一名為“巴鄉石鍋魚”的飯店內,有買家稱后廚不干凈;所售實為鴨腿,稱鵝腿僅售賣兩月斷貨15年

相關部門已抵達鵝腿阿姨后廚,其后廚位于一名為“巴鄉石鍋魚”的飯店內,有買家稱后廚不干凈;所售實為鴨腿,稱鵝腿僅售賣兩月斷貨15年

大象新聞
2026-06-10 20:51:04
6歲男孩吞50顆棋子,醫生:不用治回家吧!第二天媽媽翻大便狂喜

6歲男孩吞50顆棋子,醫生:不用治回家吧!第二天媽媽翻大便狂喜

菁媽育兒
2026-06-10 12:00:51
舉報成風,正在毀掉中國教育的根基!

舉報成風,正在毀掉中國教育的根基!

霹靂炮
2026-06-09 22:40:49
670 億美元越南南北高鐵競標大戲落幕!

670 億美元越南南北高鐵競標大戲落幕!

安安說
2026-06-10 16:01:09
實探“鵝腿阿姨”后廚,相關部門已進入現場

實探“鵝腿阿姨”后廚,相關部門已進入現場

界面新聞
2026-06-10 22:19:49
調查認定:“張涵泊”與“李沂澤”為同一人

調查認定:“張涵泊”與“李沂澤”為同一人

南方都市報
2026-06-10 11:00:37
深圳樓市,爆了!

深圳樓市,爆了!

睿見投資
2026-06-10 12:03:53
2026-06-10 23:35:00
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
6687文章數 4590關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

一紙研報引"光"速下跌 CPO落地節奏有變?

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

房產
數碼
親子
公開課
軍事航空

房產要聞

方案曝光,三亞又一地王級豪宅要出!

數碼要聞

vivo黃韜:X Fold系列將深度綁定AI長賽道

親子要聞

擺爛不上學、令你痛苦萬分的孩子,是家里的大恩人!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗襲擊美軍第五艦隊

無障礙瀏覽 進入關懷版