2025年02月14日,中國人形機器人公司「逐際動力LimX Dynamics」公布具身智能操作最新突破,發布基于視頻生成大模型的具身操作算法(VideoGenMotion),簡稱LimX VGM。
LimX VGM通過人類操作視頻數據對現有的視頻生成大模型進行后訓練,僅需將場景圖片和操作任務指令作為提示Prompts,即可實現任務理解與拆分、物體操作軌跡生成以及機器人操作執行的全流程,全過程零真機樣本數據,并且可實現多平臺泛化。這是國內首次實現將人類操作數據直接應用于機器人操作。
具身智能的目標是替代人類完成改變物理世界的任務,為此需要大量、多樣化且高質量的數據進行訓練,數據來源包括真實數據、仿真數據和互聯網數據。
相較于需要耗費巨額成本獲取的真機及仿真數據,互聯網及視頻大模型中已有海量的人類操作視頻,獲取成本最低,且包含豐富的物理常識、行為軌跡及操作決策路徑。
然而,如何把這些數據用起來,行業仍然在尋找行之有效的方法。主要挑戰包括:人類操作視頻無法直接應用于機器人操作;大模型雖然能夠根據這些視頻生成行為軌跡和操作數據,但往往存在精度不足、偏離物理規律、存在幻覺等缺陷,即使數據準確,仍然無法直接應用于機器人操作。
通過LimX VGM,逐際動力實現了對人類操作視頻中操作任務本質的理解和信息提取,從而彌合了人類操作與機器人操作之間的巨大差異,并創造性地提出了「數據-性能ROI」這一數據效率評估方法。
LimX VGM的工作流程包括三個關鍵步驟:
1. 訓練階段:采集若干真實人類操作的視頻,對現有的視頻生成大模型進行后訓練。
2. 推理階段:以初始場景結合任務操作指令作為提示Prompts,利用經過后訓練的視頻生成大模型生成帶深度信息的人類操作視頻,進而根據人類操作視頻,生成機器人操作的行為。
3. 執行階段:算法輸出符合機器人操作邏輯的行為解算,由機器人執行相應的操作軌跡。
LimX VGM背后是逐際動力三大具身技術核心創新點:人類操作視頻到機器人操作策略及行為的橋接、空間智能的引入、算法與機器人本體的解耦。
人類操作視頻到機器人操作策略及行為的橋接
LimX VGM不做視頻生成大模型,而是利用當前已有的大模型框架,極其豐富的知識和超越人類的智力。因為視頻生成大模型本質是歷史數據的壓縮,包括視頻、圖像、文本、合成等數據,其中包含的人類操作行為數據規模巨大、內容豐富。通過有效訓練,LimX VGM能夠從中提取對執行操作任務有用的關鍵信息,轉化為機器人操作策略及行為。
具備這一能力后,LimX VGM只需額外采集少量的人類操作視頻數據,即可用于機器人操作,全程零真機數據,讓數據采集工作變得簡單、成本低,且效率高。隨著大模型這個“知識庫”的不斷升級,LimX VGM將具備更加豐富、全面的操作知識,生成更有效的操作策略,進一步提升算法的泛化性。
引入空間智能,突破2D生成視頻的局限
通過引入空間智能Spatial Intelligence模塊,LimX VGM對視頻生成大模型進行后訓練時,引入深度信息,讓生成的操作視頻直接包含三維空間數據,這是讓機器人能夠進行物理空間操作的關鍵。LimX VGM深度信息的采集過程簡單、易得且高效,僅需通過深度相機捕捉人手真實的操作過程即可。
算法與機器人本體的解耦,可跨平臺部署
LimX VGM的整個訓練過程僅依靠人類操作視頻,不涉及任何機器人本體;算法的真機部署僅需進行簡單適配,便可實現跨硬件平臺的直接操作執行。LimX VGM實現了算法與執行器的解耦,從根本上解決了算法與機器人本體耦合才能發揮作用的局限。
本次演示使用了KUKA、UR和求之三種機械臂,它們在構型、參數、能力等方面的差異巨大。對于同類的場景和操作,比如演示中的疊積木,同一個算法在三個機械臂上都能簡單快速部署,并實現了一致的操作效果。
LimX VGM與機器本體解耦,即使機器人硬件不斷推陳出新,也無需再對算法進行大幅調整及數據重新采集,實現操作能力在設備上的泛化性。
以數據驅動為核心,關注數據效能提升
數據是具身智能廣泛應用的最大壁壘。依賴真機或仿真數據采集這一方法,雖然獲取的數據質量較高,但是效率低、成本高,同時需要解決場景固定、物體類別單一、Sim2Real差距大、本體耦合等多重挑戰。因此,實現具身智能不僅需要找到采集有效數據的方法,數據利用率也是一個不可忽視的重要問題。
通過增加數據規模來提升泛化性能是行業的共識,逐際動力則更進一步,聚焦于數據成本到操作性能轉化率的提升,不單一追求數據規模,或者數據質量,創造性地提出了「數據-性能ROI」這一評估方法,提升「數據-性能ROI」是具身操作大模型算法領先性的關鍵評價標準。
視頻生成大模型本身是巨量人類操作數據的壓縮和物理知識的儲存和擴展,LimX VGM能夠把視頻數據應用在機器人操作上,等同于僅用極低成本,就擁有了海量的操作數據和一流的操作決策能力。
生成的視頻帶有深度信息,能夠直接在三維物理空間應用。空間智能的引入,不僅讓數據更容易獲取,也進一步拓寬了操作自由度。
LimX VGM率先將人類的操作從三維空間抽象為機器人操作,讓算法原本只能使用機器人操作數據拓寬到人類操作數據。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.