![]()
編輯|Panda
2026 年初,成都一家商場里,一臺正在表演的人形機(jī)器人與圍觀的一位老人意外發(fā)生碰撞,兩者雙雙倒地,老人隨即被送醫(yī),確診為軟組織挫傷。事后,獵豹移動董事長傅盛公開評論稱,這并非人形機(jī)器人第一次傷人,也不會是最后一次;以現(xiàn)在大模型的能力,兩三年內(nèi)都很難妥善解決人形機(jī)器人的安全問題。
事實(shí)上,機(jī)器人在現(xiàn)實(shí)生活一直都狀況不斷,而這類事件表明:實(shí)驗(yàn)室和發(fā)布會上行云流水的演示,一旦進(jìn)入不可預(yù)測的真實(shí)世界,經(jīng)常說不準(zhǔn)下一步會發(fā)生什么。
這背后藏著一個(gè)更深的規(guī)律:讓 AI 在模擬器里學(xué)會一件事,和讓它在真實(shí)世界里把這件事做穩(wěn),完全是兩道不同的難關(guān),差距往往比想象中更大。
哪怕是同一套算法、同一個(gè)任務(wù),模擬環(huán)境和真實(shí)環(huán)境之間的任何細(xì)微差異(光線、地面摩擦力、機(jī)器人身體本身的公差),都可能讓一套訓(xùn)練好的策略瞬間失靈。
而就在人形機(jī)器人行業(yè)為「能不能站穩(wěn)」反復(fù)交學(xué)費(fèi)的同一時(shí)期,由傳奇程序員約翰·卡馬克(John Carmack)領(lǐng)導(dǎo)的 Keen Technologies,聯(lián)合阿爾伯塔大學(xué)和 Openmind 研究所的研究者們,發(fā)布了一篇論文,從一個(gè)更基礎(chǔ)的角度回應(yīng)了這個(gè)問題:能不能讓強(qiáng)化學(xué)習(xí)算法,在真實(shí)世界里,真刀真槍地、長時(shí)間不間斷地自己學(xué)習(xí),而不需要人在旁邊照看,也不需要一上來就指望它一次成功?
為了回答這個(gè)問題,他們造了一套系統(tǒng),專門用來「打 Atari 游戲」。這套系統(tǒng),名曰Physical Atari
![]()
- 論文標(biāo)題:Physical Atari: A Robust and Accessible Platform for Real-time Reinforcement Learning on Robots
- 論文地址:https://arxiv.org/abs/2606.19357v1
強(qiáng)化學(xué)習(xí)的「真實(shí)世界」難題
Atari 游戲在 AI 圈并不陌生。早在 2013 年,DeepMind 用深度強(qiáng)化學(xué)習(xí)算法在模擬器里學(xué)會了打 Atari 游戲,這被視為深度強(qiáng)化學(xué)習(xí)崛起的標(biāo)志性時(shí)刻之一,此后 Rainbow、MuZero 等一系列經(jīng)典算法也都拿 Atari 游戲當(dāng)作標(biāo)準(zhǔn)考場。但這些考場清一色是模擬器:游戲世界會乖乖等著算法做完決定,再繼續(xù)往下走。
真實(shí)世界完全不是這樣。比如你開車時(shí),前方出現(xiàn)狀況,哪怕你正在思考要不要踩剎車,車依然在繼續(xù)往前開——世界不會等你。
論文把這種「世界不等你」的設(shè)定稱為「實(shí)時(shí)強(qiáng)化學(xué)習(xí)」,并指出這恰恰是機(jī)器人所面臨的真實(shí)處境。
目前機(jī)器人領(lǐng)域訓(xùn)練 AI 主要靠三條路:
- 第一條是在模擬器里練好了再搬到真機(jī)器人上,這也是現(xiàn)在大多數(shù)人形機(jī)器人廠商的主流做法,但模擬器和真實(shí)世界之間的差異,正是前面那些摔倒事件的根源;
- 第二條是靠人類遠(yuǎn)程操控機(jī)器人采集大量示范數(shù)據(jù),再用這些數(shù)據(jù)離線訓(xùn)練
- 第三條,也是最少人走的一條路,是讓機(jī)器人直接在真實(shí)世界里邊干邊學(xué)
第三條路省掉了建模擬器、省掉了雇人采數(shù)據(jù)的成本,也從根本上避免了「模擬器和現(xiàn)實(shí)不一樣」這個(gè)老大難問題,但代價(jià)是,你需要一臺足夠耐用、足夠便宜、能被普通研究者負(fù)擔(dān)得起,還能撐住幾周不間斷高強(qiáng)度運(yùn)轉(zhuǎn)的機(jī)器人。
Physical Atari就是沖著這個(gè)空白做出來的答案。
團(tuán)隊(duì)簡介
這支團(tuán)隊(duì)的第一作者是 Keen Technologies 的研究科學(xué)家Khurram Javed
而其作者名單中還出現(xiàn)了兩位大神的名字:約翰·卡馬克(John Carmack)理查德·薩頓(Richard S. Sutton)
![]()
卡馬克是 id Software 的聯(lián)合創(chuàng)始人,曾主導(dǎo)開發(fā)了《毀滅戰(zhàn)士》、《雷神之錘》等劃時(shí)代游戲,并因發(fā)明多項(xiàng) 3D 圖形算法被寫入計(jì)算機(jī)圖形學(xué)教科書。2013 年加入 Oculus 擔(dān)任 CTO 后,他又把虛擬現(xiàn)實(shí)從概念變成了量產(chǎn)產(chǎn)品。
2022 年,他離開 Oculus,創(chuàng)立 Keen Technologies,把目標(biāo)對準(zhǔn)了通用人工智能(AGI)。
第二年,他邀請了強(qiáng)化學(xué)習(xí)領(lǐng)域的奠基人之一、阿爾伯塔大學(xué)教授 Richard S. Sutton 加入 Keen Technologies,兩人此后一直專注于研究能在真實(shí)世界中持續(xù)學(xué)習(xí)、持續(xù)適應(yīng)的智能體。
而 Sutton 本人也是這篇論文的作者之一。這意味著,眼前這臺機(jī)械手不只是工程團(tuán)隊(duì)的動手實(shí)踐,也直接體現(xiàn)了這位強(qiáng)化學(xué)習(xí)理論奠基人對「智能體該怎么學(xué)」這件事的判斷。
Physical Atari 正是這套理念的一次具體落地:與其在論文里空談「智能體應(yīng)該在現(xiàn)實(shí)中學(xué)習(xí)」,不如先把硬件造出來,讓算法真的跑起來
用一臺「機(jī)械手」打游戲,是怎么造出來的
整套系統(tǒng)其實(shí)只有兩個(gè)核心部件。一個(gè)叫Atari Devbox,本質(zhì)是一臺塞進(jìn) 3D 打印外殼里的樹莓派 5,接上一塊 5 英寸屏幕,跑著經(jīng)典的 Arcade Learning Environment 模擬器,以 60 幀每秒的速度渲染 Atari 游戲畫面。
![]()
另一個(gè)叫Robotroller,是一只專門用來按真實(shí)搖桿的機(jī)械手:它不會去觸碰任何電路或代碼,只是像人一樣,握住一支沒有經(jīng)過任何改裝的 AtariCX40+搖桿,通過三個(gè)伺服電機(jī)分別控制搖桿的上下、左右移動和開火按鈕。
一臺攝像頭對著屏幕拍下游戲畫面,運(yùn)行強(qiáng)化學(xué)習(xí)算法的電腦根據(jù)畫面做決策,再把指令發(fā)給 Robotroller,后者負(fù)責(zé)把這個(gè)決策變成真實(shí)的手部動作。
這個(gè)設(shè)計(jì)思路的關(guān)鍵是讓 AI 完全通過「看屏幕、動搖桿」這種最樸素的人類交互方式跟游戲?qū)υ?/strong>,不開任何后門,也因此能直接復(fù)用游戲機(jī)制本身、不用額外搭建仿真接口。
聽起來簡單,但論文里花了大量篇幅講的,其實(shí)是「怎么讓一只機(jī)械手在幾周內(nèi)不壞」。
研究者最早遇到的問題是螺絲會松動,解決辦法是改用螺紋鎖固膠;接著發(fā)現(xiàn)伺服電機(jī)內(nèi)部的塑料齒輪會磨損,于是換成了金屬齒輪版本的伺服電機(jī);再后來發(fā)現(xiàn)搖桿本身被這套機(jī)械手「用壞了」,追根溯源,是因?yàn)殡姍C(jī)的運(yùn)動太「猛」,給搖桿造成了不必要的應(yīng)力,于是團(tuán)隊(duì)重新調(diào)整了控制參數(shù),讓動作變得更柔和。
最有意思的一處修復(fù),是研究者給伺服電機(jī)加上了一個(gè)「高電流反射」機(jī)制:一旦檢測到某個(gè)電機(jī)的電流超過設(shè)定閾值(通常意味著它被卡住或頂?shù)搅擞蚕尬唬到y(tǒng)會立刻讓它原地停住、瞬間松開扭矩再重新鎖緊,就像人體的腱反射在過度拉伸時(shí)自動收縮肌肉一樣,避免電機(jī)硬扛著燒壞。
這個(gè)機(jī)制聽起來不起眼,卻是讓整套系統(tǒng)能連續(xù)運(yùn)轉(zhuǎn)幾周不出故障的關(guān)鍵一環(huán)。
至于「獎(jiǎng)勵(lì)信號」(游戲得分),團(tuán)隊(duì)也沒有用網(wǎng)線或代碼偷偷傳輸,而是讓 Devbox 屏幕上同步顯示一組 AprilTags 視覺標(biāo)記,由攝像頭直接「看」出當(dāng)前是加分還是減分。
換句話說,這臺機(jī)器人感知世界的方式,從畫面到得分,全部通過攝像頭這一個(gè)通道完成,跟人類玩游戲沒有本質(zhì)區(qū)別。
整套硬件成本被控制在1000 美元以內(nèi),其中 Robotroller 本身需要采購的零件(伺服電機(jī)、軸承、螺絲等)大約 400 美元,定制部件可以用一臺普通消費(fèi)級 3D 打印機(jī)打出來,耗時(shí)約 12 小時(shí)。
![]()
![]()
真機(jī)器人,真打了 145 個(gè)小時(shí)游戲
研究者讓這套系統(tǒng)在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戲上分別學(xué)習(xí)五個(gè)半小時(shí),每款游戲重復(fù) 4 到 5 次實(shí)驗(yàn)。
![]()
累計(jì)下來,這些實(shí)驗(yàn)總共跑了將近 145 個(gè)小時(shí),期間沒有任何人工干預(yù)——沒有人去扶它、沒有人去重啟它,機(jī)械手自己一遍遍按著搖桿,自己一點(diǎn)點(diǎn)學(xué)會怎么把游戲分?jǐn)?shù)往上拉。
更值得關(guān)注的是另一組實(shí)驗(yàn):研究者先讓一個(gè)智能體在某一臺 Robotroller 上學(xué)習(xí) 6 小時(shí),然后把訓(xùn)練好的策略分別部署到原來那臺機(jī)器人,和另一臺「按同樣圖紙?jiān)斐鰜怼沟臋C(jī)器人上測試。
![]()
結(jié)果是,即便兩臺機(jī)器人用的是完全相同的設(shè)計(jì)圖紙和零件,策略在「陌生身體」上的表現(xiàn)也始終明顯更差
在需要精準(zhǔn)卡點(diǎn)的 Pong 游戲里,這種差距格外明顯:挪到新機(jī)器上的策略能看出球的方向、能往正確的方向移動球拍,卻總是差那么一點(diǎn)點(diǎn)沒接住,因?yàn)槟呐率峭吞柫慵g的微小公差,都足以讓原本卡得很準(zhǔn)的時(shí)機(jī)錯(cuò)位。
![]()
Pong 與 Kangaroo 游戲畫面
研究者隨后讓智能體在「陌生身體」上繼續(xù)學(xué)習(xí),結(jié)果策略表現(xiàn)逐漸回升,重新逼近換身體前的水平。
![]()
這組對照實(shí)驗(yàn)從側(cè)面印證了論文反復(fù)強(qiáng)調(diào)的一個(gè)判斷:哪怕差異小到「同款機(jī)器人換了一臺」,只要存在于訓(xùn)練和部署之間,就足以拖累表現(xiàn),而直接在目標(biāo)身體上持續(xù)學(xué)習(xí),是修復(fù)這種偏差最直接的辦法
整個(gè)系統(tǒng)165 毫秒左右的端到端響應(yīng)延遲也大致落在人類反應(yīng)速度的區(qū)間內(nèi),說明這套硬件的「反應(yīng)能力」本身沒有成為瓶頸,問題確實(shí)出在策略和身體之間的匹配上。
![]()
結(jié)語
Physical Atari 本身并不打算讓機(jī)器人學(xué)會走路或疊衣服,它解決的是一個(gè)更基礎(chǔ)的問題:如果想驗(yàn)證「機(jī)器人能不能在現(xiàn)實(shí)世界里自己學(xué)習(xí)」這件事,至少現(xiàn)在有了一套足夠便宜、足夠耐用、誰都能復(fù)刻的實(shí)驗(yàn)臺。比起在發(fā)布會舞臺上展示一段精心調(diào)試過的動作,在真實(shí)世界里連續(xù)運(yùn)轉(zhuǎn) 145 個(gè)小時(shí)且不需要人工干預(yù),或許才是檢驗(yàn)一套強(qiáng)化學(xué)習(xí)算法是否真正可靠的更樸素的標(biāo)準(zhǔn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.