无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華大學(xué):機(jī)器人練武功,用3%的數(shù)據(jù)居然比用全部數(shù)據(jù)練得更好?

0
分享至


這項(xiàng)由清華大學(xué)、北京大學(xué)、上海交通大學(xué)及上海期智研究院聯(lián)合主導(dǎo),并與GalBot公司合作完成的研究,于2026年6月發(fā)表,論文編號為arXiv:2606.06953。有興趣深入了解的讀者可以通過該編號查詢完整論文。

研究團(tuán)隊(duì)給這套方法起了一個(gè)頗為直白的名字——LIMMT,全稱"Less Is More for Motion Tracking",翻譯過來就是"動(dòng)作追蹤中少即是多"。這也是該領(lǐng)域第一項(xiàng)專門從數(shù)據(jù)質(zhì)量角度系統(tǒng)研究人形機(jī)器人動(dòng)作訓(xùn)練的工作。

**一、問題的根源:機(jī)器人學(xué)武功,為什么數(shù)據(jù)越多反而越差?**

先從一個(gè)生活場景說起。假設(shè)你要教一個(gè)小學(xué)生練書法。你有兩種選擇:一是給他一千張各種字跡的范本,其中混雜著潦草的、錯(cuò)誤的、歪斜的;二是精心挑選出三十張筆畫清晰、結(jié)構(gòu)規(guī)范的優(yōu)質(zhì)范本。大多數(shù)人憑直覺就能判斷,第二種方式往往更有效——因?yàn)樵愀獾姆侗静粌H沒有幫助,還會干擾學(xué)生對"正確寫法"的認(rèn)知。

人形機(jī)器人學(xué)習(xí)動(dòng)作的道理幾乎一模一樣。研究團(tuán)隊(duì)關(guān)注的核心問題,正是讓機(jī)器人模仿人類動(dòng)作的"動(dòng)作追蹤"技術(shù)。簡單來說,這項(xiàng)技術(shù)的目標(biāo)是:給機(jī)器人一段參考動(dòng)作(比如一段跳舞、走路或跑跳的視頻),讓機(jī)器人用自己的身體把這段動(dòng)作準(zhǔn)確地還原出來,同時(shí)還不能摔倒、不能違反物理規(guī)律。這項(xiàng)能力是人形機(jī)器人實(shí)現(xiàn)各種復(fù)雜行為的基礎(chǔ)——無論是走路、搬運(yùn)物品,還是協(xié)助人類完成各種任務(wù)。

近年來,研究人員積累了海量的人體動(dòng)作數(shù)據(jù)。其中最具代表性的是一個(gè)叫做AMASS的大型動(dòng)作捕捉數(shù)據(jù)庫,它匯集了來自15個(gè)不同光學(xué)標(biāo)記數(shù)據(jù)集的動(dòng)作片段,共有約一萬四千條訓(xùn)練數(shù)據(jù)。與此同時(shí),隨著從網(wǎng)絡(luò)視頻中自動(dòng)提取人體姿態(tài)技術(shù)的發(fā)展,動(dòng)作數(shù)據(jù)的規(guī)模還在持續(xù)爆炸性增長。

然而,一個(gè)令人困惑的現(xiàn)象出現(xiàn)了:當(dāng)研究人員把所有這些數(shù)據(jù)都喂給機(jī)器人去學(xué)習(xí)時(shí),效果并沒有隨數(shù)據(jù)量的增加而持續(xù)提升,有時(shí)甚至適得其反。而業(yè)內(nèi)頂尖的追蹤系統(tǒng),反而都還在使用規(guī)模較小但質(zhì)量更高的數(shù)據(jù)集。這就像那個(gè)書法教學(xué)的悖論:更多的范本,未必帶來更好的書法。

那么,問題究竟出在哪里?研究團(tuán)隊(duì)通過細(xì)致的分析發(fā)現(xiàn),問題的核心在于數(shù)據(jù)中充斥著各種物理上"不可能發(fā)生"的動(dòng)作。這些動(dòng)作可能是在用攝像頭估計(jì)人體姿態(tài)時(shí)產(chǎn)生的誤差,也可能是在數(shù)據(jù)處理過程中引入的噪聲。常見的毛病包括:人物突然漂浮在空中沒有任何支撐、腳與地面發(fā)生穿透、關(guān)節(jié)運(yùn)動(dòng)速度超過了任何真實(shí)物理系統(tǒng)的極限,以及腳在靜止?fàn)顟B(tài)下仍在地面上滑動(dòng)等等。

當(dāng)機(jī)器人的學(xué)習(xí)算法試圖去模仿這些"不可能完成的動(dòng)作"時(shí),就好比讓那個(gè)學(xué)書法的學(xué)生去臨摹一張紙上畫的"凌空懸浮的筆畫"——這既不可能實(shí)現(xiàn),還會把學(xué)生原本正確的認(rèn)知攪亂。更糟糕的是,大量重復(fù)雷同的低質(zhì)量數(shù)據(jù)(比如幾千條幾乎一樣的普通走路片段)會讓機(jī)器人的學(xué)習(xí)陷入一種"刷水題"的狀態(tài):表面上處理了大量數(shù)據(jù),實(shí)際上沒有學(xué)到任何新東西,計(jì)算資源也被大量浪費(fèi)。

**二、重新定義"好數(shù)據(jù)":三把衡量尺子**

面對這個(gè)問題,研究團(tuán)隊(duì)沒有簡單地說"去掉壞數(shù)據(jù)就行了",而是提出了一個(gè)更系統(tǒng)的思考框架:一條動(dòng)作數(shù)據(jù)究竟好不好,要從三個(gè)維度來衡量。這三個(gè)維度就像是一把三叉尺,缺少任何一叉都無法準(zhǔn)確量出數(shù)據(jù)的價(jià)值。

第一個(gè)維度叫做"物理可行性",簡單說就是這個(gè)動(dòng)作在現(xiàn)實(shí)世界中能不能被一個(gè)有血有肉、受物理規(guī)律約束的身體實(shí)際做出來。漂浮在空中的身體、穿透地面的腳、超速旋轉(zhuǎn)的關(guān)節(jié)——這些都是物理上不可能發(fā)生的事情,對應(yīng)的數(shù)據(jù)自然是需要清除的"毒素"。

第二個(gè)維度叫做"多樣性",類似于問:這批數(shù)據(jù)里,有沒有足夠多種類的動(dòng)作?假如數(shù)據(jù)庫里有九千九百條走路數(shù)據(jù)和一百條跳舞數(shù)據(jù),那就算總量再大,機(jī)器人學(xué)到的也主要是怎么走路,碰到跳舞就抓瞎了。好的數(shù)據(jù)集需要在行為空間上有廣泛的覆蓋,就像一本詞典不能只收錄"的、地、得"這類常用字,還需要覆蓋各種生僻字和專業(yè)詞匯。

第三個(gè)維度叫做"復(fù)雜度",考量的是動(dòng)作本身有沒有足夠豐富的信息量。一段機(jī)器人站在原地紋絲不動(dòng)的視頻,或者慢悠悠地在平地上溜達(dá),對機(jī)器人的學(xué)習(xí)貢獻(xiàn)極為有限——因?yàn)檫@些動(dòng)作太簡單了,沒有什么需要"思考"的地方。相反,一段高速跑跳、快速轉(zhuǎn)身、或者充滿節(jié)奏感的舞蹈動(dòng)作,包含了豐富的速度變化、加速度變化和協(xié)調(diào)性信息,能夠給機(jī)器人的學(xué)習(xí)提供更強(qiáng)的刺激和更豐富的訓(xùn)練信號。

這三個(gè)維度之間還有一個(gè)關(guān)鍵的順序邏輯:必須先解決物理可行性,再考慮多樣性,最后才是復(fù)雜度。原因很簡單——如果先做多樣性篩選,那些物理上根本不可能的動(dòng)作(比如懸浮在空中的人)在特征上往往顯得很"特別",反而會被算法認(rèn)為是"獨(dú)特"的數(shù)據(jù)而優(yōu)先保留,結(jié)果正好相反。就像在圖書館整理書籍,首先要把印刷錯(cuò)誤的爛書扔掉,再考慮分類和選重點(diǎn)書目,而不是先選重點(diǎn)書目再發(fā)現(xiàn)很多都是廢紙。

**三、GQS框架:一條三段式數(shù)據(jù)煉金流水線**

基于上述思考,研究團(tuán)隊(duì)設(shè)計(jì)了一套叫做GQS(通用質(zhì)量篩選,General Quality Selection)的三階段數(shù)據(jù)處理流水線。這套流水線的目標(biāo)是:把一個(gè)大而雜亂的動(dòng)作數(shù)據(jù)庫,提煉成一個(gè)小而精華的訓(xùn)練數(shù)據(jù)集。

流水線的第一關(guān)叫做"物理過濾",相當(dāng)于用一張細(xì)密的篩網(wǎng)把明顯有問題的數(shù)據(jù)篩掉。具體的做法是把每一條候選動(dòng)作數(shù)據(jù)放進(jìn)一個(gè)物理模擬器里重新"播放"一遍——不是讓機(jī)器人真正去做,而是在電腦里模擬,看看這個(gè)動(dòng)作在物理上是否能成立。模擬過程中,系統(tǒng)會同時(shí)盯著六種典型的物理違規(guī):整個(gè)身體持續(xù)漂浮在空中(說明動(dòng)作重建出現(xiàn)了災(zāi)難性錯(cuò)誤)、身體部位鉆入地面(地面穿透)、關(guān)節(jié)速度超過硬件極限(速度違規(guī))、腳在地面上不正常滑動(dòng)(足滑)、身體各部分相互碰撞(自碰撞),以及關(guān)節(jié)加速度突變(抖動(dòng))。

這六種違規(guī)被賦予了不同的權(quán)重,而這些權(quán)重并不是拍腦袋決定的,而是通過實(shí)驗(yàn)數(shù)據(jù)反推出來的。研究團(tuán)隊(duì)發(fā)現(xiàn),"漂浮"和"足滑"是最有害的兩類錯(cuò)誤,必須重罰;而"速度高"和"抖動(dòng)大"的動(dòng)作往往意味著動(dòng)作本身很激烈,這類動(dòng)作反而對訓(xùn)練有益,如果過于嚴(yán)格地懲罰,就會把有價(jià)值的高難度動(dòng)作誤傷——因此這兩類要輕罰甚至保留。最終,每條動(dòng)作數(shù)據(jù)會得到一個(gè)綜合物理質(zhì)量分(滿分100分),只有得分不低于90分的數(shù)據(jù)才能進(jìn)入下一關(guān)。

這種分級懲罰的設(shè)計(jì)背后有一個(gè)樸素但重要的洞察:一個(gè)激烈跳躍動(dòng)作導(dǎo)致的短暫"關(guān)節(jié)高速"和一個(gè)根本就無法在物理上實(shí)現(xiàn)的"懸空漂浮",對訓(xùn)練的危害程度是完全不同的。把二者一刀切地同等對待,就會把嬰兒連洗澡水一起倒掉。

通過第一關(guān)的數(shù)據(jù)進(jìn)入第二關(guān),這一關(guān)的任務(wù)是"建立語義地圖",即給每條通過篩選的動(dòng)作數(shù)據(jù)分配一個(gè)在"動(dòng)作宇宙"中的坐標(biāo)位置,以便后續(xù)根據(jù)這個(gè)坐標(biāo)來判斷哪些數(shù)據(jù)彼此相似、哪些數(shù)據(jù)代表了獨(dú)特的行為。

這里用到了一種叫做"周期自動(dòng)編碼器"(Periodic Autoencoder,簡稱PAE)的技術(shù)。這個(gè)名字聽起來復(fù)雜,但背后的邏輯其實(shí)相當(dāng)直覺化。人類的動(dòng)作有一個(gè)非常突出的特點(diǎn):絕大多數(shù)日常動(dòng)作都是周期性的——走路是左右腳交替邁步的循環(huán),跑步也是,跳舞更是。普通的特征提取方法(比如直接比較兩個(gè)時(shí)間點(diǎn)上的關(guān)節(jié)角度)往往對這種周期性不敏感,兩段幾乎一樣的走路動(dòng)作,僅僅因?yàn)樵跁r(shí)間軸上錯(cuò)開了半個(gè)周期,就可能被判斷為"差異很大",從而讓系統(tǒng)誤以為二者代表了兩種不同的行為。

PAE的解決思路是:與其比較兩段動(dòng)作在某一時(shí)刻的具體姿態(tài),不如提取動(dòng)作的"節(jié)律特征"——也就是它的振幅(動(dòng)作幅度有多大)和頻率(動(dòng)作速度有多快)。這就像比較兩段音樂時(shí),與其逐幀比較每一個(gè)音符,不如先看它們的整體節(jié)拍和音量包絡(luò)是否相似。兩段節(jié)拍和音量包絡(luò)都類似的音樂,哪怕具體音符稍有不同,人耳聽起來也會覺得"差不多"。

通過PAE,每條動(dòng)作數(shù)據(jù)最終會被轉(zhuǎn)化成一個(gè)固定長度的數(shù)字向量(可以理解為一個(gè)坐標(biāo)),代表這條數(shù)據(jù)在"動(dòng)作語義空間"中的位置。動(dòng)作風(fēng)格類似的數(shù)據(jù),坐標(biāo)也會比較接近;動(dòng)作風(fēng)格迥異的數(shù)據(jù),坐標(biāo)則會相距甚遠(yuǎn)。這樣就建立起了一張能夠客觀反映動(dòng)作多樣性的"地圖"。

流水線的第三關(guān)叫做"加權(quán)最遠(yuǎn)點(diǎn)采樣",這是整個(gè)框架中最具創(chuàng)意的一個(gè)環(huán)節(jié)。有了前一步建立的動(dòng)作語義地圖,現(xiàn)在需要從中挑選出一個(gè)小而精的子集來用于訓(xùn)練。挑選的核心目標(biāo)是:盡可能地覆蓋整張地圖的各個(gè)角落,而不是扎堆選取某一類常見動(dòng)作。

這個(gè)過程可以用"布點(diǎn)探險(xiǎn)"來理解。假設(shè)你需要在一張地圖上選100個(gè)營地,目標(biāo)是讓這100個(gè)營地盡量覆蓋地圖上的每一個(gè)角落,而不是全部擠在城市旁邊。最直覺的做法是"最遠(yuǎn)點(diǎn)采樣":每次都選距離已選營地最遠(yuǎn)的那個(gè)點(diǎn)。這樣選下來,營地的分布就會自然而然地均勻鋪開,不會出現(xiàn)某個(gè)區(qū)域特別密集、而另一個(gè)區(qū)域完全空白的情況。

研究團(tuán)隊(duì)在這個(gè)基礎(chǔ)上加入了"動(dòng)作復(fù)雜度"的偏好:當(dāng)兩個(gè)候選數(shù)據(jù)在地圖上的距離差不多的時(shí)候,優(yōu)先選擇那個(gè)動(dòng)作更復(fù)雜、更激烈的(具體的度量方式是計(jì)算關(guān)節(jié)速度和加速度的能量)。就好比在荒野中選營地,當(dāng)兩個(gè)位置都同樣偏遠(yuǎn)時(shí),優(yōu)先選擇地形更復(fù)雜、更具挑戰(zhàn)性的那個(gè)——因?yàn)樵谀抢镉?xùn)練出的技能,未來的適應(yīng)能力會更強(qiáng)。整個(gè)選擇過程從最復(fù)雜的動(dòng)作開始(確保起點(diǎn)就是最具挑戰(zhàn)性的),然后不斷向地圖的其他區(qū)域擴(kuò)展,直到選滿目標(biāo)數(shù)量為止。

**四、實(shí)驗(yàn)驗(yàn)證:3%的數(shù)據(jù)為什么能打敗100%?**

理論講完了,接下來是硬核的實(shí)驗(yàn)驗(yàn)證。研究團(tuán)隊(duì)在AMASS數(shù)據(jù)集上(約14000條訓(xùn)練片段)對兩套主流的動(dòng)作追蹤系統(tǒng)進(jìn)行了全面測試,這兩套系統(tǒng)分別叫做Any2Track和TWIST2,都是當(dāng)前業(yè)界最先進(jìn)的追蹤框架。

最核心的發(fā)現(xiàn)是:使用GQS方法篩選出的僅僅3%的數(shù)據(jù)(大約420條片段,總時(shí)長不足一小時(shí))來訓(xùn)練機(jī)器人,在所有評測指標(biāo)上都超過了用100%完整數(shù)據(jù)訓(xùn)練的結(jié)果。具體來說,對于Any2Track系統(tǒng),使用3%的GQS數(shù)據(jù)訓(xùn)練后,動(dòng)作追蹤成功率達(dá)到了95.6%,而用全部數(shù)據(jù)訓(xùn)練只有94.2%;動(dòng)作誤差(關(guān)節(jié)位置均值誤差)也從0.114降低到了0.108。對于TWIST2系統(tǒng),GQS 3%數(shù)據(jù)的成功率達(dá)到86.1%,而全數(shù)據(jù)訓(xùn)練只有82.5%;關(guān)節(jié)誤差從0.099降低到了0.092。

更能說明問題的是"隨機(jī)抽取3%"的對比實(shí)驗(yàn)。研究團(tuán)隊(duì)專門設(shè)計(jì)了一個(gè)"隨機(jī)取3%"的對照組,結(jié)果令人咋舌:隨機(jī)抽取3%的數(shù)據(jù)進(jìn)行訓(xùn)練,效果慘不忍睹,Any2Track的成功率暴跌至83.8%,TWIST2更是跌至64.9%——這表明,"用更少的數(shù)據(jù)"本身并不是秘訣,秘訣在于"用對的數(shù)據(jù)"。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)"甜蜜點(diǎn)":在GQS篩選后的數(shù)據(jù)中,選取約10%用于訓(xùn)練,能夠達(dá)到最佳的性價(jià)比平衡點(diǎn)。在這個(gè)比例下,Any2Track的成功率進(jìn)一步提升至95.9%,TWIST2也達(dá)到了86.8%——比全數(shù)據(jù)訓(xùn)練還要好,同時(shí)訓(xùn)練成本大幅降低。繼續(xù)增加數(shù)據(jù)比例至90%甚至100%,帶來的改善已經(jīng)微乎其微,但計(jì)算開銷卻成倍增加。

學(xué)習(xí)曲線的對比同樣富有啟發(fā)性。研究團(tuán)隊(duì)記錄了整個(gè)訓(xùn)練過程中獎(jiǎng)勵(lì)分?jǐn)?shù)的變化,發(fā)現(xiàn)GQS數(shù)據(jù)訓(xùn)練的獎(jiǎng)勵(lì)曲線從一開始就顯著高于全數(shù)據(jù)訓(xùn)練,并且在整個(gè)訓(xùn)練過程中始終保持領(lǐng)先。這說明GQS帶來的優(yōu)勢并不是什么后期才顯現(xiàn)的收益,而是從訓(xùn)練的最初階段就在引導(dǎo)機(jī)器人走上一條更好的學(xué)習(xí)路徑——就像書法啟蒙階段就打好了基礎(chǔ),之后的提升才會事半功倍。

在跨數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)中,研究團(tuán)隊(duì)還在一個(gè)叫做PHUMA的高質(zhì)量物理感知?jiǎng)幼鲾?shù)據(jù)集上進(jìn)行了測試。PHUMA本身經(jīng)過了專業(yè)的物理合理性處理,因此物理過濾帶來的提升相對有限,但多樣性篩選和復(fù)雜度加權(quán)仍然帶來了一致的改進(jìn)。更有意思的是,用PHUMA的10%數(shù)據(jù)訓(xùn)練出的模型,在完全沒有見過的AMASS測試集上也表現(xiàn)更好(成功率92.8%對91.0%),說明GQS數(shù)據(jù)選出的模型對于未見過的場景泛化能力更強(qiáng)——因?yàn)槿サ袅巳菀走^擬合的冗余數(shù)據(jù),模型反而學(xué)到了更通用的技能。

**五、拆解驗(yàn)證:每個(gè)環(huán)節(jié)究竟貢獻(xiàn)了多少?**

為了精確地知道三個(gè)階段各自貢獻(xiàn)了多少,研究團(tuán)隊(duì)做了嚴(yán)格的消融實(shí)驗(yàn)——就是逐一"拆掉"每個(gè)組件,看看性能如何變化。

去掉物理過濾之后,成功率從95.6%急劇下降至91.1%,動(dòng)作誤差也明顯惡化。這證實(shí)了物理過濾的不可或缺性:在低數(shù)據(jù)量的極端條件下,哪怕只有幾條"有毒"的數(shù)據(jù)混入,就會嚴(yán)重拖累整體訓(xùn)練效果。

去掉多樣性采樣(即不做最遠(yuǎn)點(diǎn)采樣,只靠物理過濾和復(fù)雜度選擇)之后,成功率降至93.4%。這說明單純堆砌"高難度動(dòng)作"而忽視行為覆蓋面,反而會讓訓(xùn)練數(shù)據(jù)在行為空間上出現(xiàn)大片空白,機(jī)器人對于某些類型的動(dòng)作就會完全沒有經(jīng)驗(yàn)。

去掉復(fù)雜度加權(quán)(即只做物理過濾和均勻最遠(yuǎn)點(diǎn)采樣)之后,成功率為94.6%,已經(jīng)相當(dāng)不錯(cuò)了,但加上復(fù)雜度加權(quán)后的完整GQS仍然能多出約1個(gè)百分點(diǎn)的成功率。這1個(gè)百分點(diǎn)背后的含義是:在動(dòng)作語義地圖的每一個(gè)區(qū)域內(nèi),優(yōu)先選擇更有挑戰(zhàn)性的代表樣本,能讓訓(xùn)練數(shù)據(jù)的"信息密度"進(jìn)一步提升。

這個(gè)拆解驗(yàn)證的結(jié)論很清晰:三個(gè)階段并非各自為戰(zhàn),而是存在協(xié)同效應(yīng)。物理過濾清除了有害數(shù)據(jù),為后續(xù)階段建立了干凈的起點(diǎn);多樣性采樣確保了行為覆蓋面的廣度;復(fù)雜度加權(quán)則在廣度的基礎(chǔ)上進(jìn)一步提升了每個(gè)樣本的學(xué)習(xí)價(jià)值。順序同樣關(guān)鍵:如果顛倒順序,就會產(chǎn)生前文分析過的問題。

**六、權(quán)重如何確定:科學(xué)分配六種"罪行"的刑罰**

在物理過濾中,六種違規(guī)行為的懲罰權(quán)重是如何確定的?研究團(tuán)隊(duì)采用了一種數(shù)據(jù)驅(qū)動(dòng)的"刑罰標(biāo)定"方法:分別對每一種違規(guī)指標(biāo)獨(dú)立地做過濾實(shí)驗(yàn)——即只保留某一項(xiàng)指標(biāo)最好的90%數(shù)據(jù),然后訓(xùn)練模型,看看性能如何變化。

實(shí)驗(yàn)結(jié)果非常有趣,六種指標(biāo)被清晰地分成了三類。"浮空"和"足滑"屬于"有毒指標(biāo)",去掉它們后性能明顯提升,分別提升了約2.6和1.0個(gè)百分點(diǎn),因此被賦予高懲罰權(quán)重。"地面穿透"和"抖動(dòng)"屬于中性指標(biāo),過濾這些數(shù)據(jù)對性能幾乎沒有顯著影響,分配中等權(quán)重作為安全約束。而"速度違規(guī)"和"自碰撞"則屬于"友好指標(biāo)"——過濾掉這類數(shù)據(jù)后,性能反而下降了2.8和3.0個(gè)百分點(diǎn)!原因在于,關(guān)節(jié)速度高的動(dòng)作往往就是高難度、高強(qiáng)度的動(dòng)作,正是訓(xùn)練所需要的;而某些貼身格斗或舞蹈動(dòng)作在形式上可能有短暫的"自碰撞",卻包含了極為豐富的協(xié)調(diào)性訓(xùn)練信息。如果把這類數(shù)據(jù)刪掉,就是主動(dòng)丟棄了最有價(jià)值的訓(xùn)練素材。這個(gè)發(fā)現(xiàn)顛覆了很多人對"物理合理性過濾"的直覺理解。

還有一個(gè)非常有價(jià)值的發(fā)現(xiàn):僅僅按照物理質(zhì)量分從高到低排序,表現(xiàn)最好的并不是物理分最高的那10%數(shù)據(jù),而是物理分排在60%到70%之間的數(shù)據(jù)段,其成功率反而達(dá)到了96.3%。原因正是前面討論過的:物理分滿分的動(dòng)作往往是極其保守的靜止或慢速動(dòng)作,缺乏動(dòng)態(tài)豐富性;真正有價(jià)值的訓(xùn)練數(shù)據(jù),是那些"物理上過關(guān)、但動(dòng)作本身有相當(dāng)復(fù)雜度"的數(shù)據(jù)。這進(jìn)一步證明:單純追求物理合理性并不等于選出了好的訓(xùn)練數(shù)據(jù),必須把多樣性和復(fù)雜度也納入考量。

**七、真機(jī)部署:在真實(shí)機(jī)器人身上的檢驗(yàn)**

再好的仿真結(jié)果,如果到了真實(shí)機(jī)器人上就失效,那也只是空中樓閣。研究團(tuán)隊(duì)將用GQS 10%數(shù)據(jù)訓(xùn)練的策略,直接部署到了宇樹G1型號的真實(shí)人形機(jī)器人上,進(jìn)行了包括中國功夫、老城路舞蹈("Old Town Road")、Can Do Can Go舞蹈,以及單腿跳躍和手持箱子等多種動(dòng)作類別的追蹤測試,每類動(dòng)作進(jìn)行了10次試驗(yàn)。

量化結(jié)果同樣令人信服。在走路類動(dòng)作上,GQS 10%策略和全數(shù)據(jù)策略都達(dá)到了10次全部成功,但前者的關(guān)節(jié)位置誤差(0.0856 rad)明顯低于后者(0.1037 rad),提升了約17%。在跳躍類動(dòng)作上,GQS 10%達(dá)到了9次成功,全數(shù)據(jù)策略只有8次。在兩段舞蹈動(dòng)作上,GQS 10%分別達(dá)到8次和7次成功,而全數(shù)據(jù)策略只有7次和6次。平均而言,GQS 10%策略的真機(jī)成功率為85%,高于全數(shù)據(jù)策略的77.5%,平均關(guān)節(jié)誤差也低了約15.8%。

值得強(qiáng)調(diào)的是,這個(gè)部署是"零樣本"的——沒有針對真實(shí)機(jī)器人進(jìn)行任何額外的微調(diào)或調(diào)整,直接把仿真中訓(xùn)練好的策略拿來用。這種直接可用性在機(jī)器人領(lǐng)域非常珍貴,因?yàn)檎鎸?shí)機(jī)器人和仿真環(huán)境之間總存在差距(被稱為"仿真到現(xiàn)實(shí)的鴻溝")。GQS數(shù)據(jù)之所以能幫助跨越這條鴻溝,研究團(tuán)隊(duì)認(rèn)為有兩個(gè)原因:物理過濾去除了那些在仿真中能僥幸應(yīng)付、但在現(xiàn)實(shí)中必然失敗的"虛假動(dòng)作";而復(fù)雜度加權(quán)選出的高難度動(dòng)作,則讓機(jī)器人在訓(xùn)練中就練習(xí)了各種極端情況,提高了對現(xiàn)實(shí)世界不確定性的魯棒性。

**八、一個(gè)實(shí)用小工具:怎么快速決定用多少數(shù)據(jù)?**

對于想把GQS應(yīng)用到自己數(shù)據(jù)集上的研究者或工程師,還有一個(gè)自然而然的問題:應(yīng)該選多少比例的數(shù)據(jù)來訓(xùn)練?理論上需要做一系列實(shí)驗(yàn)來測試不同比例的效果,但這樣做成本很高。研究團(tuán)隊(duì)針對這個(gè)問題提出了一個(gè)輕量級的估算方法,叫做"自適應(yīng)比例選擇"(Adaptive Ratio Selection,ARS)。

ARS的核心邏輯是:最優(yōu)的數(shù)據(jù)比例,取決于這個(gè)數(shù)據(jù)集內(nèi)部的"多樣性密度"。如果一個(gè)數(shù)據(jù)集非常冗余(大量重復(fù)類似的動(dòng)作),就應(yīng)該更大力度地篩選,留下比例更小;如果一個(gè)數(shù)據(jù)集本身已經(jīng)很多樣化,那就需要保留更大比例以確保覆蓋面。

量化這種"多樣性密度"的方式是通過統(tǒng)計(jì)PAE嵌入向量的有效維度數(shù)——也就是說,這批數(shù)據(jù)的特征在高維空間里究竟"鋪開"了多少個(gè)有實(shí)質(zhì)意義的方向。用數(shù)學(xué)工具PCA(主成分分析)來提取,看需要多少個(gè)主成分才能解釋95%的數(shù)據(jù)方差。如果數(shù)據(jù)非常單調(diào),大部分?jǐn)?shù)據(jù)特征都集中在少數(shù)幾個(gè)方向上,有效維度就低;如果數(shù)據(jù)非常多樣,特征分散在許多方向上,有效維度就高。

根據(jù)這個(gè)有效維度數(shù),ARS給出的預(yù)測公式是:最優(yōu)比例 ≈ 0.5 × (有效維度數(shù)/總維度數(shù))的平方。在AMASS上,有效維度占總維度的47%,預(yù)測最優(yōu)比例為11%,與實(shí)驗(yàn)觀察到的10%高度吻合;在PHUMA上,有效維度占81%,預(yù)測為32.8%,與實(shí)驗(yàn)觀察到的30%同樣接近。這個(gè)工具雖然只在兩個(gè)數(shù)據(jù)集上得到了驗(yàn)證,但提供了一個(gè)有價(jià)值的快速估算起點(diǎn),能顯著減少調(diào)參的試錯(cuò)成本。

說到底,這項(xiàng)研究給出的核心信息是:在人形機(jī)器人的運(yùn)動(dòng)學(xué)習(xí)領(lǐng)域,盲目堆積數(shù)據(jù)并不等于提升智能,真正推動(dòng)進(jìn)步的是數(shù)據(jù)的質(zhì)量——具體體現(xiàn)在物理可行性、行為多樣性和動(dòng)作復(fù)雜度這三個(gè)維度的協(xié)同優(yōu)化上。用3%的精華數(shù)據(jù)打敗100%的原始數(shù)據(jù),這個(gè)結(jié)論在直覺上反常,但實(shí)驗(yàn)一次次地給出了同樣清晰的答案。

這件事對我們理解人工智能的學(xué)習(xí)機(jī)制有更廣泛的啟發(fā)意義:不僅在機(jī)器人領(lǐng)域,在語言模型、視覺模型乃至任何需要從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng)中,數(shù)據(jù)質(zhì)量的戰(zhàn)略性角色都值得重新審視。當(dāng)下這個(gè)"數(shù)據(jù)規(guī)模就是一切"的流行敘事,或許需要加上一個(gè)重要的注腳——前提是這些數(shù)據(jù)得有價(jià)值。

如果這個(gè)話題讓你對數(shù)據(jù)質(zhì)量與機(jī)器學(xué)習(xí)的關(guān)系產(chǎn)生了更多興趣,可以通過論文編號arXiv:2606.06953查閱原文,深入了解每一個(gè)實(shí)驗(yàn)的具體細(xì)節(jié)和技術(shù)實(shí)現(xiàn)。

**Q&A**

Q1:LIMMT方法中的GQS三階段篩選是什么意思?

A:GQS(通用質(zhì)量篩選)分三步處理動(dòng)作數(shù)據(jù)。第一步是把每條數(shù)據(jù)放進(jìn)物理模擬器里檢驗(yàn),按六種物理違規(guī)打分,不合格的直接淘汰。第二步是用周期自動(dòng)編碼器把每條數(shù)據(jù)轉(zhuǎn)換成一個(gè)代表"動(dòng)作風(fēng)格"的向量坐標(biāo),建立動(dòng)作語義地圖。第三步是在這張地圖上通過"加權(quán)最遠(yuǎn)點(diǎn)采樣",均勻挑選覆蓋面廣且動(dòng)作復(fù)雜度高的子集,作為最終訓(xùn)練數(shù)據(jù)。

Q2:為什么隨機(jī)抽3%數(shù)據(jù)效果很差,而GQS挑選3%數(shù)據(jù)反而更好?

A:隨機(jī)抽取3%會保留很多物理上不可能實(shí)現(xiàn)的"壞數(shù)據(jù)",機(jī)器人試圖模仿這些動(dòng)作時(shí)會受到錯(cuò)誤引導(dǎo),同時(shí)數(shù)據(jù)分布完全繼承了原數(shù)據(jù)集的不均衡(比如大量重復(fù)走路數(shù)據(jù)),沒有有效覆蓋多樣的動(dòng)作類型。GQS則先刪掉了所有物理違規(guī)數(shù)據(jù),再用算法確保選出的數(shù)據(jù)覆蓋多種不同行為,并優(yōu)先保留動(dòng)作激烈、信息量大的片段,因此每一條數(shù)據(jù)都真實(shí)有效且互補(bǔ)性強(qiáng)。

Q3:GQS方法對機(jī)器人的實(shí)際部署有什么影響?

A:用GQS 10%數(shù)據(jù)訓(xùn)練的策略,在真實(shí)宇樹G1機(jī)器人上的平均成功率(85%)比用全數(shù)據(jù)訓(xùn)練的高出約7.5個(gè)百分點(diǎn),關(guān)節(jié)追蹤誤差平均降低約15.8%。更重要的是,這個(gè)策略不需要針對真實(shí)機(jī)器人做任何額外調(diào)整就能直接部署,說明GQS過濾掉了那些在仿真中能"蒙混過關(guān)"、在現(xiàn)實(shí)中卻會失敗的數(shù)據(jù),同時(shí)復(fù)雜動(dòng)作的訓(xùn)練提升了機(jī)器人應(yīng)對現(xiàn)實(shí)不確定性的能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

美國頂級戰(zhàn)略家一針見血,中國的這場危機(jī)不解決,未來后果很嚴(yán)重

荷蘭豆愛健康
2026-06-14 13:42:59
伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲新掌門首秀在即,6月利率不變概率飆至98.5%!

伊朗:霍爾木茲海峽,全面關(guān)閉!任何通行船只都將被“果斷處置”!美聯(lián)儲新掌門首秀在即,6月利率不變概率飆至98.5%!

金融界
2026-06-14 13:43:17
不出意外,下半年開始,寬帶費(fèi)、有線電視費(fèi)將迎來行業(yè)新一輪洗牌

不出意外,下半年開始,寬帶費(fèi)、有線電視費(fèi)將迎來行業(yè)新一輪洗牌

民生格物
2026-06-14 13:14:05
總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開

總決賽砍90+30+10歷史唯一!馬刺丟冠,唯獨(dú)他一人可以昂首離開

你的籃球頻道
2026-06-14 12:44:04
保時(shí)捷撞上兩車后,火速逃離現(xiàn)場!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

保時(shí)捷撞上兩車后,火速逃離現(xiàn)場!北京警方:姐弟兩人,一個(gè)刑拘一個(gè)拘留

都市快報(bào)橙柿互動(dòng)
2026-06-14 00:39:15
12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

12000億光模塊巨頭,回應(yīng)業(yè)績暴雷傳聞

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-06-14 14:12:59
中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

中紀(jì)委怒批:公務(wù)員也是人,正常生活不應(yīng)問責(zé)處理!

細(xì)說職場
2026-06-13 12:51:02
爭議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

爭議拉滿!迪麗熱巴手機(jī)殼用詞露骨惹網(wǎng)友吐槽

暖心萌阿菇?jīng)?/span>
2026-06-14 14:57:11
世界杯官方社媒:蘇格蘭1998年以來首次進(jìn)球

世界杯官方社媒:蘇格蘭1998年以來首次進(jìn)球

懂球帝
2026-06-14 10:31:36
包工頭退出舞臺!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國資委:建筑央企建立自有工人隊(duì)伍

包工頭退出舞臺!住建委:取消勞務(wù)分包!全面實(shí)現(xiàn)自有工人施工!國資委:建筑央企建立自有工人隊(duì)伍

新浪財(cái)經(jīng)
2026-06-14 07:41:37
45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

45歲安以軒復(fù)出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財(cái),獨(dú)自照顧兩個(gè)孩子

無比
2026-06-13 20:42:09
美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

美國隊(duì)長又帥回來了,一次失敗的植發(fā),毀了他兩年形象

替補(bǔ)席懂王
2026-06-14 11:43:01
崩潰!6萬美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對女兒話術(shù)洗腦

崩潰!6萬美術(shù)集訓(xùn)班逼哭單親媽媽,美術(shù)老師瘋狂對女兒話術(shù)洗腦

火山詩話
2026-06-14 05:11:04
中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

中央定調(diào):事業(yè)單位這三類人員不允許彈性延遲退休,到齡就得退休

職場資深秘書
2026-06-14 09:25:33
日媒:韓國決定申請加入CPTPP

日媒:韓國決定申請加入CPTPP

參考消息
2026-06-13 12:18:28
美聯(lián)儲,重磅來襲!加息,傳來大消息!

美聯(lián)儲,重磅來襲!加息,傳來大消息!

證券時(shí)報(bào)
2026-06-14 16:50:07
雷軍犯天條了,竟然遭到整個(gè)中國家電行業(yè)集體圍剿。

雷軍犯天條了,竟然遭到整個(gè)中國家電行業(yè)集體圍剿。

流蘇晚晴
2026-06-12 13:02:17
張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

張雪奪第六冠,日媒集體破防:在三缸機(jī)領(lǐng)域,中國已經(jīng)反超了日本

林子說事
2026-06-14 14:36:43
男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來了

男童失蹤96小時(shí)!救援隊(duì)曝致命疑點(diǎn),家屬哭喊:最怕的事要來了

小陸搞笑日常
2026-06-14 15:13:09
2026-06-14 19:00:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹":砍樹前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

教育
家居
手機(jī)
數(shù)碼
公開課

教育要聞

2026高考作文:萬古融雪,終貫滄海

家居要聞

空間微調(diào) 移形換境

手機(jī)要聞

消息稱小米MIX Fold 5闊折疊手機(jī)首發(fā)澎湃OS4

數(shù)碼要聞

Meta向旗下Quest 2/3/Pro頭顯全面推送新版Navigator界面

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版