網易首頁 > 網易號 > 正文申請入駐

具身智能驗證期：馬拉松探小腦能力，機器人奧林匹克驗證大腦能力

2026-04-16 17:57:08　來源: 具身研習社

北京舉報

分享至

作者：呂鑫燚出品：具身研習社

近半個月，堪稱具身智能“高考季”

一件是模型能力的“高考”，即星動紀元在全球頂級具身靈巧操作智能真機賽事 Benjie’s Olympics（全稱:Benjie’s Humanoid Olympics)，一舉拿下三項賽道第一；另一件是小腦能力的“高考”，第二屆中國人形機器人馬拉松即將鳴槍開跑。賽事設置自主、遙控雙組別，為行業提供了又一次集中的小腦技術驗證場景。

這兩件事，看似毫無關系，實則指向同一個行業核心趨勢：具身智能產業正通過公開技術驗證加速兌現產業價值。

先從這場行業關注度拉滿的人形機器人馬拉松說起。和去年的首屆賽事相比，今年有兩個非常核心的變化。首先是參賽主體的大幅擴容，從去年十余家廠商的試水探索，到今年數十家企業同臺競技，這背后，是國內具身智能產業生態的快速完善，從少數企業的單點探索，進入到更多玩家規模化入局的新階段。其次，是自主模式正式成為核心競賽組別，機器人不再依賴人工遙控的輔助，全程依靠自身的環境感知、自主導航、實時運動規劃能力完成賽程。

這也意味著，行業的競爭焦點，已經從 “實現雙足穩定行走” 的基礎能力，轉向 “脫離人工干預” 的進階能力，而這正是人形機器人走向商業化落地的核心前提。

如果說人形機器人馬拉松，是國內具身智能行業集中展示生態活力、完成集體技術校驗的平臺，那么星動紀元在全球最難具身靈巧操作頂尖真機賽事 Benjie’s Olympics 上的成績，則是在國際賽事上，展現中國具身模型能力。

這里值得一提的是，Benjie’s Olympics 是全球具身智能領域公認的高含金量競技平臺，常被評價為是全球具身靈巧操作最難頂尖真機賽事，也是 Physical Intelligence（簡稱PI）PI 迄今為止唯一主動報名參賽的國際頂級賽事，其派出的閉源模型PI*0.6，代表了 PI 當前的最高技術水準。即便在這樣的前提下，面對全球最強具身大腦公司的最高技術壓力，星動紀元依然拿下三項第一。

此時，掌聲不知道是該給星動紀元還是該給中國具身智能，畢竟不聲不響挑戰最難的，很符合星動紀元的風格，但是從產業維度看，這絕非單家企業的單次賽事突圍，更印證了國內廠商在具身智能大模型的核心能力上，已經穩穩躋身全球第一梯隊。

此前海外常提及的國內具身智能 “大腦能力缺位” 的論調，也隨著星動紀元這三塊金牌的落地，徹底成為了歷史。

“It’s theonly contest that forces generalizationnot just replication. Most teams can’t pass Bronze; Gold is near-miraculous.”

（這是唯一強制泛化而非復現的比賽。多數隊伍連銅牌都過不了；金牌近乎奇跡。）

這是海外業內專家對Benjie’s Olympics賽事的評價，也是對該賽事難度的精準提煉。畢竟Benjie’s Olympics不受客觀因素制約，也沒有太花哨的初心，單純是前Google資深機器人專家Benjie Holson，“看不上”市面上簡單的人形機器人賽事挑戰，因此用自己名字命名，并通過一系列嚴格的要求給全行業下戰書。

賽事創始人曾預測，完成全部挑戰至少需要1年。從某種角度來看，與其說Benjie’s Olympics是一場比賽，不如說其是一場具身模型的“挑刺”大賞。

Benjie’s Olympics有15個比賽項目，參賽規則嚴苛到寫下來比賽事項目都長（略夸張版），且主打一個“真”！

首先，必須是全自主、無遙控、無人工介入、無遠程修正，是機器人真自己在干活；

其次是，必須在真實家庭場景下操作，要完全還原光照、紋理、摩擦和噪音等環境因素；

最后是真考試，沒有預設考題杜絕了提前偷偷練習的可能性，更不能預掃描地圖，環境和物體完全隨機。

一套規則組合拳，打斷了所有投機取巧的模型，留下的是真正考驗機器人在真實復雜環境中的自適應、自決策能力。

從具體賽事來看，Benjie’s Olympics 的核心設計，完全錨定了橫亙在具身智能領域最核心的 “莫拉維克悖論”。即人類憑借本能就能輕松完成的日常感知與動作，對機器人而言卻是極高難度的技術壁壘，而人類覺得復雜的高階推理，機器反而更容易實現。

基于這個核心，賽事沒有設置任何脫離落地場景的極限炫技項目， 15 項賽事均是貼近家庭、工業真實場景的日常實戰任務，分屬開門、洗衣、基礎工具使用、指尖操作、濕滑路面 5 大場景模塊，并按難度梯度劃分為金牌、銀牌、銅牌三個等級，且要求多次重復穩定完成，而非“賭運氣成功”。

其中剝橘子、插鑰匙開鎖屬于最高難度的金牌任務，翻襪子、清洗油膩平底鍋屬于銀牌任務，T 恤翻轉折疊則屬于銅牌任務。這些看似簡單的日常動作，每一項都在考驗機器人感知、決策、控制的全鏈路通用能力，清洗出單一能力強，全棧能力弱的團隊；且只要有一環出現失誤，則全鏈條崩塌，僅1-3mm 的誤差就可能導致任務失敗。為了能讓選手更好理解任務流，本杰還親自示范任務。

這里插播一句，T 恤翻轉折疊任務被大部分企業描述為難度極高的任務，常出現在證明模型能力的DEMO中。而在Benjie’s Olympics這只能算是個簡單任務。這也是很多專家說多數隊伍連銅牌都過不了的原因，有參賽團隊耗費6個月打磨Demo，在任務挑戰中遭遇“滑鐵盧”，3天內失敗率高達90%。

更有趣的是，Benjie’s Olympics并不存在“險勝”而是參賽選手的成績比上一個冠軍的成績至少提高25%，才能獲得獎牌，這不是在簡單地找冠軍，而是找一個碾壓式的領先。

通過比賽所有安排來看，更能理解為什么Benjie’s Olympics被視為具身智能模型靈巧操作賽事的“奧林匹克”，原因很簡單，二者都是在檢驗模型靈巧操作能力的邊界。

但若深層探內核，Benjie’s Olympics的含金量遠不止于奧林匹克級別，畢竟奧林匹克是在人類與生俱來的運動、感知、身體協調能力基底上，沖擊生理機能的上限；而 Benjie’s Olympics 要解的核心命題，從來不止是單一能力的峰值突破，更是要直面并攻克橫亙在具身智能領域最底層的「莫拉維克悖論」。讓機器人完成這些任務，其難度無異于讓人類去挑戰基因底層代碼里從未預設過的能力邊界。

也正因如此，這場賽事沒有任何參數注水、場景取巧的空間，每一份成績，都是對具身智能大模型通用能力最硬核的實機驗證。

Benjie’s Olympics是PI主動第一次參加比賽。對，這次是PI“本PI”，而且拿的是還沒舍得開源的模型，來的原因很簡單，PI團隊認為該比賽沒有其他比賽能比肩。

不得不說，PI作為現階段全球最強具身大腦其閉源模型能力毫無疑問，也是該比賽拿下最多獎項的團隊。但在三個項目，星動紀元的表現讓PI只能望其項背。

先從最難的剝橘子（金牌任務）來看，比賽要求機器人精準區分果皮與果肉的細微視覺特征，稍有不慎就會捏爛果肉，需要實時跟蹤剝制過程中的果皮形變，要求視覺感知有極高的魯棒性。PI在這個項目中借助削皮刀耗時2分46秒完成，而星動紀元動作干凈利落，不僅在速度上提升了35%，用時1分47秒完成，更是成為賽事首個實現完全無工具純手剝操作的團隊。

在同為金牌任務的開鎖項目上，機器人要精準識別只有幾毫米的鑰匙孔位置和角度，并實時理解鑰匙的姿態插入毫米級的鑰匙孔。在這個過程中，還要克服光照的變化，和反光的金屬以及操作視角偏差。對視覺感知的精度和魯棒性要求極為嚴格，別說機器人開鎖了，我經常需要反復對齊才能開鎖成功。

PI完成開鎖用了66秒，而星動紀元僅用49 秒完成，速度提升 25 %。

更有代表性的碾壓在銀級任務翻襪子上，這是家庭場景中最常見的任務，也是考驗泛化能力的標桿任務。畢竟襪子是一個柔性物體，且在操作中會發生毫無規則的復雜形變，屬于柔性物體操作、樣本泛化、效率敏感的典型場景。這便要求機器人實時跟蹤形變，精準區分襪子的內外側、開口位置，對視覺感知、柔性物體跟蹤能力要求極高。

PI 用時1 分 33 秒完成，星動紀元比 PI 速度提升 30%。更為重要也是碾壓的在于對樣本量的訴求，PI用了 176 個樣本，而星動紀元只用了120 個樣本，樣本量減少 32%。

面對不規則、復雜形變的操作任務，對樣本量需求更低表明星動紀元的在復雜任務中展現了極強的泛化性，和落地可行性。正如Benjie’s Olympics考驗的一樣，不是運氣而是真實力。

從這條線中就能看出，星動紀元不只是拿了幾塊獎牌回來，而是在比賽中，沉淀出了模型更高效落地的方法論。

除了，翻襪子中體現的小樣本泛化能力，證明了基礎模型的知識遷移能力，大幅提升了數據利用效率外，在開鎖等高精度操作任務中，星動紀元通過自適應視覺注意力機制，實現了對鑰匙、鎖孔等微小目標的動態聚焦與特征增強，顯著提升了精細操作對象的感知精度。這套邏輯不僅僅是能拿獎牌，更是證明工業場景中毫米級操作，有了可靠的感知基礎。

此外，星動紀元采用異步推理架構，通過提升推理與動作執行頻率、縮短運動規劃時域，有效抑制了累計動作誤差，大幅提升了任務執行的成功率與穩定性。如圖所示：VLA 模型通常以特定頻率生成單次時長超過 1 秒的小段運動軌跡，為了提高模型對環境動態的實時反應能力和執行精度，在當前運動軌跡沒有執行完成時就同時預測下一段軌跡,新軌跡生成后，系統將直接切換至新軌跡執行。

機器人關節沿第 1 段規劃軌跡（Chunk 1）運動，當第 2 段新軌跡生成時（對應圖中豎線分隔時刻），系統切換至第 2 段軌跡執行，以此類推。向模型發起軌跡規劃請求的頻率越高（即圖中豎線間距越近），機器人對非預期擾動（如襪子堆疊狀態偏離預設）的實時響應與應變能力越強。

星動紀元這套技術，說白了就是給機器人裝上了 “邊動邊看邊改路線” 的超快反應系統,不用等當前動作做完再規劃下一步，而是動作執行的同時就提前算好新路線，新路線一出來立刻切換，改得越勤、越快，機器人應對突發狀況就越靈活，動作越不容易走歪，干活的成功率和穩定性也就越高。

整體而言，星動紀元獲獎的三個任務，體現的是從柔性操作到長程任務的通用智能潛力：能夠精準應對柔性物體的形態變化，完成細膩精細操作；可靈活協調雙手完成復雜協同操作，打破單臂執行的局限；對工具應用的深度理解與靈活運用能力，適配不同場景需求；能夠高效處理多步驟、長時間規劃的復雜任務，具備向更廣泛真實場景延伸的潛力。

如果不是星動紀元參賽，Benjie’s Olympics在國內的還屬于“小眾”圈層談論的比賽。

但說實話，這種舉動很星動紀元。

只要了解星動紀元，絲毫不會對這件事產生疑惑。

縱觀星動紀元的發展，你會發現其創始人陳建宇低調的底色早已浸透于這家企業中。此前曾有聲音表示，很難看懂星動紀元，原因在于星動紀元好像一直在做些和產業主流步調不同頻的事。

從一個中立視角來看，這種聲音或者說看不懂，并不是外界的誤讀，而是星動紀元的認知使然，業內還在炫DEMO翻跟頭的時候，其靈巧手已經成為海外追捧的產品，但這件事在國內鮮少有人了解；當更小尺寸的人形機器人以靈活姿態踹開表演大門時，星動紀元又在專研全尺寸雙足大人形，并致力于在真實場景中當個廠工，看起來沒有跳舞那么炫酷但卻是實打實的提質增效；當模型廠商斬獲大額融資時，星動紀元雖然沒掉隊，但又不聲不響去挑戰最高賽事，好像絲毫不顧及如果失敗了，投資人該怎么看。

你看，這些所謂的和產業不同頻其實是有一條主線的：星動紀元始終在圍繞生產力深耕，且主動屏蔽了噪音。

是的，并不是礙于客觀因素制約讓星動紀元不同頻，而是其主動選擇了一條人跡罕至的路。

在產業早期就死磕五指靈巧手，讓星動紀元的操作能力跳出簡單的“抓取&放置”演示，真正去做些復雜任務；而大人形雖然難落地看起來也不討巧，但其能無縫融入到生產環境中，更不用說星動紀元用大人形還完成了難度更高的“舞劍”；參加最難模型比賽，通過三塊金牌檢驗了其模型能在柔性、高精度的復雜操作能力。

再舉個更具體的兩件事情：其一，今年2月陳建宇團隊聯合斯坦福 Chelsea Finn 團隊（PI 聯合創始人）研發的Ctrl-World 可控生成世界模型，在全球具身智能頂級世界模型權威評測World Arena榜單中，具身任務能力全球第一、一舉擊敗谷歌、英偉達等國際頂尖模型，且在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度全部登頂。

其二，星動紀元具身大腦ERA-42已在物流、制造、商業服務等多個領域落地，形成了“場景越豐富，模型越智能” 的正向循環。在物流領域，可自主完成不同形狀、不同顏色、不同材質、不同大小藥品、日化品、包裹、藥品、日化品的分揀及掃碼，效率已達人工效率80%以上；在制造領域，重點突破 “零部件抓取 - 高精度裝配 - 質量檢測” 等場景任務；在商業服務領域，可完成門店客座清潔、物品遞送、導游導覽等。其中，部分場景效率當前達到70%。

這表明，星動紀元已經不是第一次在國際賽事中摘得桂冠，“搞點最難的”一直是這家低調企業的基因，讓更前沿的技術在場景中釋放生產價值，是這家企業的主旋律。

讀懂了這些抉擇，就讀懂了星動紀元，也能從中窺見拋開情緒資本、外部噪音后具身智能真實的模樣。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.