網易首頁 > 網易號 > 正文申請入駐

極佳視界物理AGI雙金字塔體系：數據與算法如何撐起Scaling Law？

2026-05-22 21:27:28　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

過去兩年，具身智能賽道討論最多的兩個方向，一是「世界模型」，二是「VLA / 動作模型」。

前者以 NVIDIA Cosmos、Google Genie 為代表，主張通過生成式世界模型擴展數據供給；后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等為代表，主張依靠大規模真機數據獲得通用動作能力。

兩條路線各自取得了顯著進展，但誰也沒有真正回答一個問題 ——當我們把「物理 AGI」當作目標時，到底需要什么樣的算法體系和數據體系，才能跑通 Scaling？

5 月 20 日，武漢光谷。極佳視界（GigaAI）在「家庭場景子品牌發布會暨物理通用智能技術發布會」上，給出了一份相對完整的答案。

極佳視界 5.20 發布會現場

這場發布會公布了五件事：全球首個物理 AGI「雙金字塔」體系；家庭場景子品牌「拾光 SeeLight」與首款家庭通用人形機器人「拾光 S1」同步亮相；國內首個真實家庭場景百臺部署落地武漢，Q3 起規模化運營；下一代產品「拾光 S2」三季度發布，真實家庭創始版預定通道即日起開啟；最后是一份 12 個月的路線圖 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發三代基礎模型，目標是物理 AGI 的「GPT-3 時刻」。

信息量很大，其中我們最關注的，是物理 AGI 的「雙金字塔」體系。

從 Scaling 的瓶頸說起

具身智能為什么至今沒能跑通 Scaling Law？極佳視界合伙人、研發副總裁葉云在發布會上把問題歸結為兩條。

第一條在數據側。真機數據精度最高，卻受制于高成本與小規模；互聯網視頻規模龐大，卻缺乏動作監督信號；仿真數據可無限擴展，卻難以跨越 sim-to-real gap。任何單一來源，都無法同時滿足 Scaling Law 所要求的規模、信息密度與真實性。

第二條在算法側。當前以語言為主導的 VLA 范式，本質上是把視覺、動作 token 化后送入語言模型，并不擅長編碼 3D 信息、物理因果與連續動作。換句話說，即便堆夠了數據，目前的主流模型架構也未必能高效消化它們。

極佳視界合伙人、研發副總裁葉云

圍繞這兩條卡點，極佳視界提出的解決路徑是把數據和算法分別按層次結構展開，一座面向數據的金字塔，一座面向算法的金字塔，二者耦合，缺一不可。這就是「雙金字塔」體系的來源。

全球首個物理 AGI 「雙金字塔」體系

從底層邏輯來看，這是物理 AGI 賽道第一次有公司把 Scaling 路徑系統化展開。

五層數據金字塔

數據金字塔從底到頂依次為：互聯網視頻數據、真人數據、世界模型模擬器、仿真合成數據、真機數據

這一劃分本身并不令人意外 —— 它基本對應了學術界過去兩年關于具身數據來源的主要討論：真機數據在金字塔頂端，精度最高、覆蓋最窄；互聯網視頻在底部，規模最大、監督最弱；中間三層（真人示范、仿真、世界模型生成數據）則是最具工程化空間、也最被低估的部分。

真正值得注意的，是極佳視界在每一層都拿出了對應的工程化產品

真機數據由家庭版輪臂機器人「拾光 S1」和低成本真機數采硬件「Maker M01」協同采集；仿真合成數據與世界模型模擬器數據由自研具身世界模型平臺「GigaWorld-0」系統化生成；真人數據由低成本手持數采硬件「U-01」和低成本 Ego 數采硬件「E-01」大規模采集；互聯網視頻數據則復用 YouTube、Panda-70M 等公開來源。

極佳視界「數據金字塔」

U-01、E-01 這種「低成本、非本體綁定」的數據采集硬件，類似 Stanford 團隊 UMI 與 EgoMimic 的研究思路，被學術界公認是突破真機數據瓶頸的可行方向之一。

區別在于，極佳視界把它和自研機器人本體（S1）、世界模型平臺（GigaWorld-0）一起做成了一套完整的全棧采集體系。單點研究并不稀奇，全棧跑通且每一層都有自研硬件做支撐，在國內具身智能公司中目前并不多見。

三層算法金字塔

算法金字塔從底到頂分為：世界模擬、動作對齊、經驗強化。

極佳視界把這三層分別落到具體的模型上。

世界模擬層的代表是具身世界模型GigaWorld-1。它在世界模型領域權威評測 WorldArena 上以綜合得分 62.34 擊敗 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型獲得全球第一，是榜單中首個綜合得分突破 60 分大關的具身世界模型。

動作對齊層包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路線的具身基礎模型，在全球規模最大的真機評測 RoboChallenge 中以 51.67% 任務成功率位列全球第一，領先 π0.5 接近 10 個百分點；后者是世界動作模型，在面向家庭場景的全球權威評測平臺 RoboCasa365 上擊敗 NVIDIA GR00T N1.5 與 π0.5 獲得全球第一，成為榜單首個登頂的世界動作模型。

經驗強化層是GigaBrain-0.5M*，通過「世界模型 + 強化學習」實現具身基模的自我進化。

極佳視界「算法金字塔」

單一榜單第一在具身智能賽道并不罕見，但同時在「世界模型 + 模仿學習 + 強化學習」三個方向上拿到全球權威評測第一，并把三層之間的數據流轉關系打通，目前國內只有極佳視界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大權威評測結果分別證明了其在感知 - 生成、真機操作、家庭場景泛化領域的三種核心能力。這三個「全球第一」也有力證明了「雙金字塔」體系背后深厚的技術支撐。

跑通技術體系之后，下一站家庭

技術體系跑通之后，問題變成 —— 去哪里驗證 Scaling 是否真的成立。極佳視界給出的答案是：真實家庭。

發布會上，極佳視界聯合創始人、首席科學家朱政博士正式發布公司面向家庭場景的全新子品牌 ——「拾光 SeeLight」，定位「國內首個家庭通用機器人品牌」，由朱政擔任品牌 CEO。

極佳視界聯合創始人 & 首席科學家、拾光品牌 CEO 朱政

朱政在發布會上表示：「AGI 不該只停留在屏幕里。我們不是在講一個遙遠的未來故事，而是在把骨子里對物理 AGI 的信仰變成真實的產品，讓物理 AGI 服務每一個人。」

品牌發布同期推出的第一代產品「拾光 S1」，被定義為「全球首個進入真實家庭場景的通用人形機器人」。S1 采用家庭版輪臂構型，搭載極佳視界自研的具身基礎模型，具備從感知、理解到行動的完整閉環能力。

選擇家庭、而不是工業線或物流作為物理 AGI 的首發場景，從技術角度看是一個值得討論的決策。家庭場景的開放性、長尾性、人機交互復雜度，都遠超工業場景 —— 正因為如此，它是驗證「通用性」最嚴苛的試金石。極佳視界這種「先難后易」的場景選擇，與它在算法側的技術演進路徑，應該是同一種思路。

視頻鏈接：https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg

百臺部署：第一筆可被驗證的訂單

具身智能賽道過去一年最被詬病的問題之一，是「發布會演示與真實場景使用之間的鴻溝」 —— 幾乎所有公司都會展示樣機能做什么，但鮮有公司能證明它在家里怎么用，能用多久。本次發布會上極佳視界給出的回應，是一筆已經落地的訂單。

極佳視界宣布拾光 S1 已獲得真實家庭場景百臺訂單，將率先部署于武漢光谷之寓社區（位于武漢光谷的真實居住社區），Q3 起開啟規模化運營。這是公開信息中規模化家庭通用機器人部署的首例 —— 此前 Figure、1X 等海外廠商雖然披露過家庭試用，但都停留在個位數訂單或員工家庭體驗。

100 臺 + 真實居住社區 + Q3 規模化運營這一組合，意味著一筆重要資產將開始積累：真實家庭的長期使用數據。

機器人進入武漢光谷之寓真實場景

這是 Scaling Law 在物理智能領域真正成立的關鍵。極佳方面在發布會透露：拾光 S1 的家庭場景展示體驗空間將于 2026 年 5 月 31 日起開放參觀。

拾光 S2：本體側的系統性重構

發布會還預告了第二代產品「拾光 S2」將于 2026 年三季度正式發布。從披露的本體參數看，這不是一次小迭代：

底盤體積減少 60%，更適應家庭狹窄空間；電池續航提升 70%，并支持熱換電，直接決定真實服務中的連續工作能力；操作范圍擴大 40%，支持 2.2 米高度內任務執行。朱政在發布會上表示：「S2 的核心，不是某個參數變得更漂亮，而是整機開始更接近真實家庭所需要的『可用性』。」

拾光 S2 全新設計構型，定價、發售政策將于三季度全面揭曉

從產業視角，機器人本體側的關鍵瓶頸其實是「能不能在真實家庭里長期穩定工作」—— 續航、熱管理、關節壽命、安全冗余、維護成本。S2 的三項升級都直接對應這條線，工程取向相對克制。同時，真實家庭創始版預定通道，自即日起正式開啟。

12 個月，三代基礎模型

劍指「GPT-3 時刻」

發布會的最后一個部分，是極佳視界首次公布物理 AGI 基礎模型的 12 個月路線圖—— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發三代。

GigaBrain-1 將于 2026 年第三季度發布，是全球首個基于「雙金字塔」體系打造的物理 AGI 基礎模型，目標是在物理智能泛化性上達到新高度。其后 GigaBrain-2 與 GigaBrain-3 加速 Scaling，其中 GigaBrain-3 將基于 1000 萬小時視頻數據 + 100 萬小時世界 - 動作數據進行訓練，劍指物理 AGI 的「GPT-3 時刻」。

GigaBrain-3 劍指物理 AGI 的「GPT-3 時刻」

GPT-3 在數字 AGI 歷史上的意義，不在模型本身，而在「首次讓 Scaling Law 顯現涌現能力」的那個臨界點 —— 當模型規模與數據規模到達某個閾值后，能力從量變躍遷為質變。物理 AGI 的「GPT-3 時刻」在理論上應該是同構的：數據規模（1000W + 100W 小時）和算法范式（雙金字塔）到達某個臨界點后，物理智能體表現出真正意義上的通用性。

這是一個可被檢驗的假設。未來 12 個月后，行業就會看到這個臨界點是否真的存在、極佳視界給出的具體數字是否落在臨界點之上。在具身智能賽道當前階段，這種「用明確技術節點回應根本問題」的姿態并不常見 —— 同行的回答大多停留在「即將」、「快了」、「五年內」這一類時間模糊化的表態。

極佳視界把「物理 AGI 何時到來」拆解為「需要什么樣的體系」 + 「什么時候到達」兩個具體的技術命題，這是這場發布會真正區別于其他同類發布的地方。

三件事值得繼續追蹤

一場發布會，把過去三年的技術積累、當下的產品兌現、未來 12 個月的技術路線圖，一次性鋪開。

從技術圈的角度，接下來有三件事最值得追蹤：

第一，「雙金字塔」體系是否真的能跑通 Scaling Law —— 五層數據 + 三層算法的耦合關系是否成立，將由 GigaBrain-1（Q3 發布）與 GigaBrain-3（GPT-3 時刻）兩次驗證。

第二，百臺家庭部署是否真的產生有效的數據閉環 —— 真實家庭長期使用數據是物理智能領域目前最稀缺的資產，如果閉環跑通，極佳視界在數據側的護城河會隨時間快速變深。

第三，GPT-3 時刻是否真的會在 12 個月內到來 —— 這是物理 AGI 賽道當前最具爭議、也最有兌現價值的判斷。

過去半年，關于「物理 AGI 何時到來」的討論已成為行業高頻話題，英偉達、Figure、Physical Intelligence、銀河通用、智元…… 每一家都給出過自己的回答。但截至目前，沒有任何一家公司像極佳視界這樣，把這個問題拆解為「算法 + 數據體系」和時間表。

系統性方法論 + 可驗證時間表的組合，這是這次發布會真正區別于其他同類發布的地方。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.