機器之心發布
過去兩年,具身智能賽道討論最多的兩個方向,一是「世界模型」,二是「VLA / 動作模型」。
前者以 NVIDIA Cosmos、Google Genie 為代表,主張通過生成式世界模型擴展數據供給;后者以 Physical Intelligence 的 π 系列、Diffusion Policy 等為代表,主張依靠大規模真機數據獲得通用動作能力。
兩條路線各自取得了顯著進展,但誰也沒有真正回答一個問題 ——當我們把「物理 AGI」當作目標時,到底需要什么樣的算法體系和數據體系,才能跑通 Scaling?
5 月 20 日,武漢光谷。極佳視界(GigaAI)在「家庭場景子品牌發布會暨物理通用智能技術發布會」上,給出了一份相對完整的答案。
![]()
極佳視界 5.20 發布會現場
這場發布會公布了五件事:全球首個物理 AGI「雙金字塔」體系;家庭場景子品牌「拾光 SeeLight」與首款家庭通用人形機器人「拾光 S1」同步亮相;國內首個真實家庭場景百臺部署落地武漢,Q3 起規模化運營;下一代產品「拾光 S2」三季度發布,真實家庭創始版預定通道即日起開啟;最后是一份 12 個月的路線圖 —— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發三代基礎模型,目標是物理 AGI 的「GPT-3 時刻」。
信息量很大,其中我們最關注的,是物理 AGI 的「雙金字塔」體系。
從 Scaling 的瓶頸說起
具身智能為什么至今沒能跑通 Scaling Law?極佳視界合伙人、研發副總裁葉云在發布會上把問題歸結為兩條。
第一條在數據側。真機數據精度最高,卻受制于高成本與小規模;互聯網視頻規模龐大,卻缺乏動作監督信號;仿真數據可無限擴展,卻難以跨越 sim-to-real gap。任何單一來源,都無法同時滿足 Scaling Law 所要求的規模、信息密度與真實性。
第二條在算法側。當前以語言為主導的 VLA 范式,本質上是把視覺、動作 token 化后送入語言模型,并不擅長編碼 3D 信息、物理因果與連續動作。換句話說,即便堆夠了數據,目前的主流模型架構也未必能高效消化它們。
![]()
極佳視界合伙人、研發副總裁 葉云
圍繞這兩條卡點,極佳視界提出的解決路徑是把數據和算法分別按層次結構展開, 一座面向數據的金字塔,一座面向算法的金字塔,二者耦合,缺一不可。這就是「雙金字塔」體系的來源。
![]()
全球首個物理 AGI 「雙金字塔」體系
從底層邏輯來看,這是物理 AGI 賽道第一次有公司把 Scaling 路徑系統化展開。
五層數據金字塔
數據金字塔從底到頂依次為:互聯網視頻數據、真人數據、世界模型模擬器、仿真合成數據、真機數據
這一劃分本身并不令人意外 —— 它基本對應了學術界過去兩年關于具身數據來源的主要討論:真機數據在金字塔頂端,精度最高、覆蓋最窄;互聯網視頻在底部,規模最大、監督最弱;中間三層(真人示范、仿真、世界模型生成數據)則是最具工程化空間、也最被低估的部分。
真正值得注意的,是極佳視界在每一層都拿出了對應的工程化產品
真機數據由家庭版輪臂機器人「拾光 S1」和低成本真機數采硬件「Maker M01」協同采集;仿真合成數據與世界模型模擬器數據由自研具身世界模型平臺「GigaWorld-0」系統化生成;真人數據由低成本手持數采硬件「U-01」和低成本 Ego 數采硬件「E-01」大規模采集;互聯網視頻數據則復用 YouTube、Panda-70M 等公開來源。
![]()
極佳視界「數據金字塔」
U-01、E-01 這種「低成本、非本體綁定」的數據采集硬件,類似 Stanford 團隊 UMI 與 EgoMimic 的研究思路,被學術界公認是突破真機數據瓶頸的可行方向之一。
區別在于,極佳視界把它和自研機器人本體(S1)、世界模型平臺(GigaWorld-0)一起做成了一套完整的全棧采集體系。單點研究并不稀奇,全棧跑通且每一層都有自研硬件做支撐,在國內具身智能公司中目前并不多見。
三層算法金字塔
算法金字塔從底到頂分為:世界模擬、動作對齊、經驗強化。
極佳視界把這三層分別落到具體的模型上。
世界模擬層的代表是具身世界模型GigaWorld-1。它在世界模型領域權威評測 WorldArena 上以綜合得分 62.34 擊敗 Wan、CogVideoX、Veo 3.1、Cosmos-Predict 等模型獲得全球第一,是榜單中首個綜合得分突破 60 分大關的具身世界模型。
動作對齊層包括GigaBrain-0 系列GigaWorld-Policy。前者是 VLA 路線的具身基礎模型,在全球規模最大的真機評測 RoboChallenge 中以 51.67% 任務成功率位列全球第一,領先 π0.5 接近 10 個百分點;后者是世界動作模型,在面向家庭場景的全球權威評測平臺 RoboCasa365 上擊敗 NVIDIA GR00T N1.5 與 π0.5 獲得全球第一,成為榜單首個登頂的世界動作模型。
經驗強化層是GigaBrain-0.5M*,通過「世界模型 + 強化學習」實現具身基模的自我進化。
![]()
極佳視界「算法金字塔」
單一榜單第一在具身智能賽道并不罕見,但同時在「世界模型 + 模仿學習 + 強化學習」三個方向上拿到全球權威評測第一,并把三層之間的數據流轉關系打通,目前國內只有極佳視界一家做到。WorldArena、RoboChallenge、RoboCasa365 三大權威評測結果分別證明了其在感知 - 生成、真機操作、家庭場景泛化領域的三種核心能力 。 這三個「全球第一」也有力證明了「雙金字塔」體系背后深厚的技術支撐。
跑通技術體系之后,下一站家庭
技術體系跑通之后,問題變成 —— 去哪里驗證 Scaling 是否真的成立。極佳視界給出的答案是:真實家庭。
發布會上,極佳視界聯合創始人、首席科學家朱政博士正式發布公司面向家庭場景的全新子品牌 ——「拾光 SeeLight」,定位「國內首個家庭通用機器人品牌」,由朱政擔任品牌 CEO。
![]()
極佳視界聯合創始人 & 首席科學家、拾光品牌 CEO 朱政
朱政在發布會上表示:「AGI 不該只停留在屏幕里。我們不是在講一個遙遠的未來故事,而是在把骨子里對物理 AGI 的信仰變成真實的產品,讓物理 AGI 服務每一個人。」
品牌發布同期推出的第一代產品「拾光 S1」,被定義為「全球首個進入真實家庭場景的通用人形機器人」。S1 采用家庭版輪臂構型,搭載極佳視界自研的具身基礎模型,具備從感知、理解到行動的完整閉環能力。
選擇家庭、而不是工業線或物流作為物理 AGI 的首發場景,從技術角度看是一個值得討論的決策。家庭場景的開放性、長尾性、人機交互復雜度,都遠超工業場景 —— 正因為如此,它是驗證「通用性」最嚴苛的試金石。極佳視界這種「先難后易」的場景選擇,與它在算法側的技術演進路徑,應該是同一種思路。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/7UE0h6WvlWgYEHJQjOVivg
百臺部署:第一筆可被驗證的訂單
具身智能賽道過去一年最被詬病的問題之一,是「發布會演示與真實場景使用之間的鴻溝」 —— 幾乎所有公司都會展示樣機能做什么,但鮮有公司能證明它在家里怎么用,能用多久。本次發布會上極佳視界給出的回應,是一筆已經落地的訂單。
極佳視界宣布拾光 S1 已獲得真實家庭場景百臺訂單,將率先部署于武漢光谷之寓社區(位于武漢光谷的真實居住社區),Q3 起開啟規模化運營。這是公開信息中規模化家庭通用機器人部署的首例 —— 此前 Figure、1X 等海外廠商雖然披露過家庭試用,但都停留在個位數訂單或員工家庭體驗。
100 臺 + 真實居住社區 + Q3 規模化運營這一組合,意味著一筆重要資產將開始積累:真實家庭的長期使用數據。
![]()
機器人進入武漢光谷之寓真實場景
這是 Scaling Law 在物理智能領域真正成立的關鍵。極佳方面在發布會透露:拾光 S1 的家庭場景展示體驗空間將于 2026 年 5 月 31 日起開放參觀。
拾光 S2:本體側的系統性重構
發布會還預告了第二代產品「拾光 S2」將于 2026 年三季度正式發布。從披露的本體參數看,這不是一次小迭代:
底盤體積減少 60%,更適應家庭狹窄空間;電池續航提升 70%,并支持熱換電,直接決定真實服務中的連續工作能力;操作范圍擴大 40%,支持 2.2 米高度內任務執行。朱政在發布會上表示:「S2 的核心,不是某個參數變得更漂亮,而是整機開始更接近真實家庭所需要的『可用性』。」
![]()
拾光 S2 全新設計構型,定價、發售政策將于三季度全面揭曉
從產業視角,機器人本體側的關鍵瓶頸其實是「能不能在真實家庭里長期穩定工作」—— 續航、熱管理、關節壽命、安全冗余、維護成本。S2 的三項升級都直接對應這條線,工程取向相對克制。同時,真實家庭創始版預定通道,自即日起正式開啟。
12 個月,三代基礎模型
劍指「GPT-3 時刻」
發布會的最后一個部分,是極佳視界首次公布物理 AGI 基礎模型的 12 個月路線圖—— GigaBrain-1、GigaBrain-2、GigaBrain-3 連發三代。
GigaBrain-1 將于 2026 年第三季度發布,是全球首個基于「雙金字塔」體系打造的物理 AGI 基礎模型,目標是在物理智能泛化性上達到新高度。其后 GigaBrain-2 與 GigaBrain-3 加速 Scaling,其中 GigaBrain-3 將基于 1000 萬小時視頻數據 + 100 萬小時世界 - 動作數據進行訓練,劍指物理 AGI 的「GPT-3 時刻」。
![]()
GigaBrain-3 劍指物理 AGI 的「GPT-3 時刻」
GPT-3 在數字 AGI 歷史上的意義,不在模型本身,而在「首次讓 Scaling Law 顯現涌現能力」的那個臨界點 —— 當模型規模與數據規模到達某個閾值后,能力從量變躍遷為質變。物理 AGI 的「GPT-3 時刻」在理論上應該是同構的:數據規模(1000W + 100W 小時)和算法范式(雙金字塔)到達某個臨界點后,物理智能體表現出真正意義上的通用性。
這是一個可被檢驗的假設。未來 12 個月后,行業就會看到這個臨界點是否真的存在、極佳視界給出的具體數字是否落在臨界點之上。在具身智能賽道當前階段,這種「用明確技術節點回應根本問題」的姿態并不常見 —— 同行的回答大多停留在「即將」、「快了」、「五年內」這一類時間模糊化的表態。
極佳視界把「物理 AGI 何時到來」拆解為「需要什么樣的體系」 + 「什么時候到達」兩個具體的技術命題,這是這場發布會真正區別于其他同類發布的地方。
三件事值得繼續追蹤
一場發布會,把過去三年的技術積累、當下的產品兌現、未來 12 個月的技術路線圖,一次性鋪開。
從技術圈的角度,接下來有三件事最值得追蹤:
第一,「雙金字塔」體系是否真的能跑通 Scaling Law —— 五層數據 + 三層算法的耦合關系是否成立,將由 GigaBrain-1(Q3 發布)與 GigaBrain-3(GPT-3 時刻)兩次驗證。
第二,百臺家庭部署是否真的產生有效的數據閉環 —— 真實家庭長期使用數據是物理智能領域目前最稀缺的資產,如果閉環跑通,極佳視界在數據側的護城河會隨時間快速變深。
第三,GPT-3 時刻是否真的會在 12 個月內到來 —— 這是物理 AGI 賽道當前最具爭議、也最有兌現價值的判斷。
過去半年,關于「物理 AGI 何時到來」的討論已成為行業高頻話題,英偉達、Figure、Physical Intelligence、銀河通用、智元…… 每一家都給出過自己的回答。但截至目前,沒有任何一家公司像極佳視界這樣,把這個問題拆解為「算法 + 數據體系」和時間表。
系統性方法論 + 可驗證時間表的組合,這是這次發布會真正區別于其他同類發布的地方。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.