![]()
PhyAgentOS:零代碼跨本體遷移,從算法模型到真機(jī)部署只需幾小時(shí)。
論文讀了三遍,復(fù)現(xiàn)實(shí)驗(yàn)環(huán)境配了一周,真機(jī)上小車終于動(dòng)了一下,然后不動(dòng)了……
做過(guò)具身智能或機(jī)器人項(xiàng)目的人,應(yīng)該都碰上過(guò)這種情況,馬上心急火燎地開始上手檢查,把所有配置文件都看過(guò)了一遍,發(fā)現(xiàn)是某個(gè)驅(qū)動(dòng)版本不兼容。
好不容易解決了這個(gè)問(wèn)題,再來(lái)一遍,小車這次堅(jiān)持得長(zhǎng)一點(diǎn),動(dòng)了兩下。這次花了一小時(shí),才找到是某段 ROS 節(jié)點(diǎn)沒對(duì)上話題。
一天過(guò)去了,進(jìn)度幾乎為零。大家不得不連夜查 issue、反復(fù)重裝環(huán)境。第二天同一套流程換到另一臺(tái)機(jī)器人,又要從頭踩一次坑,心態(tài)是崩了再重建,重建了再崩。
現(xiàn)在,救星終于要來(lái)了,中山大學(xué)HCP實(shí)驗(yàn)室這次重磅發(fā)布 PhyAgentOS,要把每一個(gè)開發(fā)者從可怕的“調(diào)參地獄”中拯救出來(lái)。
PyAgentOS已全面開源,歡迎算法貢獻(xiàn)、機(jī)器人適配、文檔完善和問(wèn)題反饋。 GitHub倉(cāng)庫(kù):https://github.com/SYSU-HCP-EAI/PhyAgentOS
![]()
01
這一次,讓機(jī)器人開發(fā)回歸“智能”本身
端到端 VLA 模型在demo視頻里表現(xiàn)驚艷不?
太驚艷了!
我想把它部署到我的機(jī)子上,行不?
99%的情況就是,你就試吧,“試試就逝世”。論文一看就懂,真機(jī)一跑就廢,單機(jī)部署只是一場(chǎng)簡(jiǎn)單的折磨,多個(gè)機(jī)器人在復(fù)雜場(chǎng)景中協(xié)同作業(yè)是“真正的地獄”。
所謂做具身智能,最后往往成了“具身調(diào)參”——調(diào)完模型調(diào)驅(qū)動(dòng),調(diào)完驅(qū)動(dòng)調(diào)環(huán)境。每天不是在Debug工具鏈,就是在去Debug工具鏈的路上,活活把自己干成了“機(jī)器人接線員”:讓驅(qū)動(dòng)對(duì)上版本、讓話題對(duì)上名字、讓仿真和真機(jī)對(duì)上脾氣。
為了解決這個(gè)問(wèn)題,現(xiàn)在Physical Agent Operating System(PhyAgentOS)正式開源,幾小時(shí)就能讓機(jī)器人跑起來(lái),從機(jī)械臂切到四足改個(gè)配置就行,多臺(tái)機(jī)器協(xié)作跟拉群聊一樣簡(jiǎn)單,每一步?jīng)Q策都攤在桌面上給你看。
幾小時(shí)而非幾天,從代碼克隆到機(jī)器人動(dòng)起來(lái),全鏈路腳手架開箱即用; 零代碼而非重訓(xùn)練,從四軸機(jī)械臂切換到四足機(jī)器人,只需切換配置而非重寫控制棧; 群體協(xié)同而非單機(jī)孤島:作為多智能體(Multi-Agent)的核心中樞,PhyAgentOS 賦予多機(jī)器人系統(tǒng)在實(shí)際場(chǎng)景任務(wù)中動(dòng)態(tài)分工、無(wú)縫合作的能力,并在持續(xù)的物理交互中實(shí)現(xiàn)經(jīng)驗(yàn)共享與群體自進(jìn)化; 白盒而非黑盒,每一行決策都可追溯、可調(diào)試、可教學(xué),讓Agent 在想什么、為什么這么做變得肉眼可見。
看來(lái),這不僅是一個(gè)具身智能體框架,更是一個(gè)“讓物理具身本體真正跑起來(lái),并讓群體智能涌現(xiàn)”的開源操作系統(tǒng)。
Showcase!真機(jī)部署,開箱即用
PhyAgentOS 已在多種主流機(jī)器人平臺(tái)完成真機(jī)驗(yàn)證,支持一鍵部署、零代碼遷移:
Demo 1: AgileX PIPER 一鍵部署
無(wú)需編寫底層驅(qū)動(dòng)代碼,通過(guò)hal_watchdog.py自動(dòng)識(shí)別并加載配置文件,從開箱到首次運(yùn)行可在數(shù)小時(shí)內(nèi)完成。
Demo 2: 基于SAM3的自然語(yǔ)言抓取
通過(guò)自然語(yǔ)言指令"抓取桌子上的蘋果",Agent自動(dòng)解析語(yǔ)義、定位目標(biāo)、生成約束并執(zhí)行抓取。
Demo 3: 基于ReKep的約束求解抓取(Dobot Nova 2)
使用ReKep(Relational Keypoint Consraints)進(jìn)行幾何約束求解,實(shí)現(xiàn)精確的位姿控制,高效完成操縱任務(wù)。
02
核心革新:
從"端到端黑盒"到"協(xié)議化白盒"的范式轉(zhuǎn)移
傳統(tǒng)視覺語(yǔ)言動(dòng)作模型(VLA)將感知、推理、控制壓縮進(jìn)單一神經(jīng)網(wǎng)絡(luò),如同一個(gè)黑盒大腦——效果好但不可解釋,遷移難且調(diào)試痛苦。PhyAgentOS選擇了一條截然不同的路徑:用結(jié)構(gòu)化協(xié)議取代隱式神經(jīng)網(wǎng)絡(luò)。
"文檔即接口"(Docs as API)的六層協(xié)議
PhyAgentOS定義了六層結(jié)構(gòu)化協(xié)議,云端Agent與邊緣硬件通過(guò)讀寫Markdown文件交互:
? TASK.md:全局任務(wù)黑板,用DAG編排多Agent協(xié)作
? ENVIRONMENT.md:場(chǎng)景圖化的環(huán)境表征,解決"符號(hào)落地"難題
? SKILL.md:與硬件無(wú)關(guān)的抽象工作流(如"抓取"的通用狀態(tài)機(jī))
? ACTION.md:實(shí)例化的物理約束目標(biāo)(而非具體軌跡)
? LESSONS.md: 過(guò)往任務(wù)執(zhí)行的經(jīng)驗(yàn),幫助Agent從歷史經(jīng)驗(yàn)學(xué)習(xí)
? EMBODIED.md:硬件本體的"自我說(shuō)明書",包含運(yùn)動(dòng)學(xué)極限
這種設(shè)計(jì)的革命性在于:云端LLM不再直接輸出關(guān)節(jié)角度,而是生成幾何約束與語(yǔ)義意圖(如"保持杯口在容器上方")。邊緣側(cè)的約束求解器實(shí)時(shí)將這些意圖轉(zhuǎn)化為最優(yōu)軌跡——這類似于自動(dòng)駕駛領(lǐng)域的"決策-規(guī)劃"分離,但PhyAgentOS將其提升到了系統(tǒng)架構(gòu)層面。
![]()
圖:PhyAgentOS架構(gòu)圖 - 認(rèn)知層(Track A)與物理執(zhí)行層(Track B)通過(guò)文件系統(tǒng)協(xié)議空間解耦
四層架構(gòu):模塊化、可插拔、易教學(xué)
PhyAgentOS采用清晰的分層設(shè)計(jì),每一層都可獨(dú)立替換、快速迭代:
?感知層(Perception)
從傳感器獲取環(huán)境信息,支持多模態(tài)輸入(圖像、文本、點(diǎn)云)。內(nèi)置PerceptionService融合幾何與語(yǔ)義信息,構(gòu)建場(chǎng)景圖寫入ENVIRONMENT.md。
?決策層(Decision)
統(tǒng)一接口接入OpenAI、Claude、Qwen-VL、Kimi等各大模型。Planner Agent理解指令并生成任務(wù)計(jì)劃,Critic Agent獨(dú)立校驗(yàn)物理可行性。
?規(guī)劃層(Planning)
將自然語(yǔ)言指令分解為技能序列,支持動(dòng)態(tài)重規(guī)劃。SKILL.md定義與硬件無(wú)關(guān)的抽象工作流,ACTION.md承載實(shí)例化的物理約束。
?執(zhí)行層(Execution)
通過(guò)極輕量框架(可部署于單片機(jī)或工控機(jī))調(diào)用硬件SDK。hal_watchdog看門狗進(jìn)程作為認(rèn)知與物理的唯一橋梁,通過(guò)異步文件輪詢實(shí)現(xiàn)時(shí)序解耦。
![]()
03
最重要的問(wèn)題:PhyAgentOS適合誰(shuí)?
答案其實(shí)很簡(jiǎn)單:所有想讓機(jī)器人真正“跑起來(lái)”的人。
對(duì)高校教師而言,它是一套可以講透“感知-決策-控制”全鏈條的教學(xué)利器。
告別過(guò)去一門課東拼西湊多套工具鏈的窘境,PhyAgentOS提供開箱即用的教學(xué)套件:清晰的代碼結(jié)構(gòu)、詳細(xì)的中文文檔、可視化調(diào)試工具——抽象的“Agent思維”變成了看得見的文檔流,ACTION.md實(shí)時(shí)變化,學(xué)生不再對(duì)著黑盒發(fā)呆。
更重要的是,從仿真到真機(jī)的無(wú)縫遷移,讓學(xué)生可以在幾小時(shí)內(nèi)看到機(jī)器人完成“整理桌面”這樣的完整任務(wù)。一個(gè)平臺(tái),從課程設(shè)計(jì)到畢業(yè)設(shè)計(jì)再到科研項(xiàng)目,學(xué)生無(wú)需頻繁切換環(huán)境,老師也不用再為“學(xué)生跑不通環(huán)境”而頭疼。
對(duì)于研究者來(lái)說(shuō),PhyAgentOS意味著告別重復(fù)造輪子,專注真正的創(chuàng)新。
標(biāo)準(zhǔn)化的接口與評(píng)估工具,讓新算法接入即可與現(xiàn)有方法公平對(duì)比;模塊化設(shè)計(jì)支持即插即用,想換規(guī)劃算法?改SKILL.md的生成邏輯就行。
約束求解范式帶來(lái)的可解釋性,讓失敗時(shí)可以精準(zhǔn)定位“是哪條幾何約束沖突了”,而不是在參數(shù)海里盲目調(diào)參。
甚至還有沙盒演進(jìn)管線,Agent可以在隔離環(huán)境中生成并驗(yàn)證新工具,自動(dòng)封裝為系統(tǒng)能力,支持長(zhǎng)期自進(jìn)化——這不僅僅是框架,更是研究創(chuàng)新的加速器。
再看工程團(tuán)隊(duì),PhyAgentOS扮演的是“具身智能中間層”的角色,上接多模態(tài)大模型,下接現(xiàn)有機(jī)器人與自動(dòng)化平臺(tái)。
幾小時(shí)而非幾周完成技術(shù)預(yù)研,快速驗(yàn)證“能理解任務(wù)、自主決策”的產(chǎn)品概念;真機(jī)部署無(wú)需昂貴的邊緣算力,普通工控機(jī)甚至單片機(jī)就能跑起來(lái);Multi-Agent Critic校驗(yàn)機(jī)制在物理執(zhí)行前攔截幻覺動(dòng)作,有效降低碰撞風(fēng)險(xiǎn)。
低成本、高效率、更安全,讓具身智能產(chǎn)品從概念到落地不再遙不可及。
而對(duì)于硬件廠商,PhyAgentOS提供的是“開箱即用”的智能注入能力。
通過(guò)標(biāo)準(zhǔn)化的BaseDriver接口,快速完成硬件適配,無(wú)需從零開發(fā)上層智能系統(tǒng);為客戶提供統(tǒng)一開發(fā)框架和豐富示例,幫助他們基于你的硬件快速開發(fā)應(yīng)用;加入PhyAgentOS社區(qū),還能讓更多開發(fā)者基于你的硬件進(jìn)行創(chuàng)新,共建生態(tài)。
目前已支持的硬件包括AgileX PIPER、Dobot Nova 2、Unitree Go2、XLeRobot雙臂系統(tǒng)等,F(xiàn)ranka Research 3也在協(xié)議對(duì)接中——這個(gè)清單,還在持續(xù)擴(kuò)展。
無(wú)論是教書育人、科研創(chuàng)新、產(chǎn)品落地,還是硬件賦能,PhyAgentOS都想做那個(gè)“讓事情變簡(jiǎn)單”的角色。因?yàn)槲覀兌记宄簷C(jī)器人的未來(lái),不該被配置環(huán)境、驅(qū)動(dòng)兼容、工具鏈拼接這些瑣碎拖慢腳步。
快速開始:三步讓機(jī)器人動(dòng)起來(lái)
代碼塊
# 1. 克隆倉(cāng)庫(kù)并安裝依賴(一條命令自動(dòng)配置)
git clone
https://github.com/SYSU-HCP-EAI/PhyAgentOS.git
cd PhyAgentOS
pip install -e .
# 2. 初始化工作區(qū)(生成Markdown協(xié)議文件)
python scripts/init_workspace.py
# 3. 啟動(dòng)系統(tǒng)
# 終端1:?jiǎn)?dòng)硬件看門狗(Track B)
python hal/hal_watchdog.py --driver simulation
# 或使用真實(shí)硬件驅(qū)動(dòng)
# 終端2:?jiǎn)?dòng)認(rèn)知Agent(Track A)
python PhyAgentOS/agent/main.py
▎仿真VS真機(jī),這次不再對(duì)立
仿真與真機(jī)無(wú)縫統(tǒng)一,是PhyAgentOS最讓人心動(dòng)的一點(diǎn)。
你在PyBullet、Mujoco、Isaac Sim里反復(fù)調(diào)試、精心打磨的Agent,不再是只能活在虛擬世界里的“數(shù)字玩具”。現(xiàn)在只需輕輕切換一個(gè)--driver參數(shù),智能就能立刻轉(zhuǎn)移到到真實(shí)的機(jī)械臂、四足機(jī)器人身上,所有業(yè)務(wù)邏輯一字不改。
這意味著什么?意味著開發(fā)者可以在仿真中大膽試錯(cuò)、暴力迭代,把碰撞風(fēng)險(xiǎn)、硬件損耗都擋在世界之外,等到一切就緒,一鍵“下凡”到真機(jī)執(zhí)行。
從此,“仿真只是仿真,真機(jī)還要重寫”的噩夢(mèng)徹底成為過(guò)去,真正實(shí)現(xiàn)一次開發(fā),兩處運(yùn)行。
最后,展示一下PhyAgentOS處理復(fù)雜長(zhǎng)程任務(wù)的demo吧
![]()
![]()
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.