網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人形機(jī)器人,如何跑出數(shù)據(jù)荒漠

人形機(jī)器人拿起“逆襲”劇本

0
分享至

2026.04.20


本文字?jǐn)?shù):2943,閱讀時(shí)長(zhǎng)大約5分鐘

作者 |第一財(cái)經(jīng) 彭海斌

4月19日,北京亦莊機(jī)器人馬拉松決出勝負(fù)。

300余臺(tái)機(jī)器人參與競(jìng)逐,它們或是自主導(dǎo)航,或是人類遙控完成了比賽。相比去年,機(jī)器人的運(yùn)動(dòng)能力大幅提升。現(xiàn)在機(jī)器人除了跑馬,還已經(jīng)登上春晚舞臺(tái),進(jìn)入工廠流水線。這種技術(shù)進(jìn)步有目共睹,而缺憾也一目了然:機(jī)器人依然不夠聰明。

機(jī)器人現(xiàn)在困于數(shù)據(jù)荒漠里。高質(zhì)量數(shù)據(jù),比石油還稀缺,阻礙了人工智能技術(shù)進(jìn)入真實(shí)世界的腳步。“具身智能一定會(huì)出現(xiàn)涌現(xiàn)時(shí)刻的,而且涌現(xiàn)時(shí)刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的。”覓蜂科技董事長(zhǎng)兼CEO姚卯青不久前對(duì)第一財(cái)經(jīng)記者表示。

缺口有多大

具身智能以機(jī)器人的形態(tài),走出實(shí)驗(yàn)室、奔赴千行百業(yè)。

人形機(jī)器人已經(jīng)可以以自主的方式跑完半場(chǎng)馬拉松,它們也進(jìn)入龍旗科技的平板工廠完成上下料工作,更不必提在舞臺(tái)上武術(shù)表演了。但機(jī)器人現(xiàn)在跑步的時(shí)候還是踉踉蹌蹌,工廠流水線上只能完成特定環(huán)節(jié)的工作,舞臺(tái)表演看上去還有些憨傻。

這些機(jī)器人,能完成一些工作,但確實(shí)還不太聰明。大語(yǔ)言模型比如ChatGPT、DeepSeek都已經(jīng)見(jiàn)證了智能涌現(xiàn),而機(jī)器人智能還在等待這一刻的到來(lái)。

高質(zhì)量、標(biāo)準(zhǔn)化、規(guī)模化的數(shù)據(jù),是驅(qū)動(dòng)機(jī)器人奔向智能化時(shí)代的核心基石。姚卯青認(rèn)為,機(jī)器人的智能涌現(xiàn)時(shí)刻一定是和數(shù)據(jù)量與數(shù)據(jù)組成掛鉤的。

“人形機(jī)器人是一個(gè)比汽車更大更具想象力的空間,我們正在這個(gè)時(shí)代的起點(diǎn)。雖然萬(wàn)億產(chǎn)業(yè)蓄勢(shì)待發(fā),但整個(gè)行業(yè)卻面臨著很大的瓶頸和挑戰(zhàn)——數(shù)據(jù)荒漠。”姚卯青在17日的智元合作伙伴大會(huì)上表示。

大語(yǔ)言模型的數(shù)據(jù)獲取成本比較低,可以從互聯(lián)網(wǎng)的各種日常應(yīng)用里面輕松獲取。迪士尼的動(dòng)畫(huà)、電子版的蘇東坡詞集,都可以成為大語(yǔ)言模型的高質(zhì)量數(shù)據(jù)。

“目前最領(lǐng)先的大語(yǔ)言模型,比如GPT5用了100萬(wàn)億token的訓(xùn)練語(yǔ)料。”姚卯青說(shuō),1個(gè)token近似于0.75個(gè)英語(yǔ)單詞,正常人如果每分鐘誦讀150個(gè)單詞,需要100億個(gè)小時(shí)才能讀完這些語(yǔ)料集。

機(jī)器人所需數(shù)據(jù)的獲取難度高很多。高質(zhì)量的真機(jī)數(shù)據(jù),需要機(jī)器人去真實(shí)世界里摸爬滾打。比如機(jī)器人上手搬運(yùn)行李、清潔房屋,才能獲取這些動(dòng)作反饋的數(shù)據(jù)。如果說(shuō)大語(yǔ)言模型需要的是一維的文本資料,機(jī)器人需要的就是三維開(kāi)放世界的知識(shí),數(shù)量級(jí)、復(fù)雜度、獲取成本都不可同日而語(yǔ)。

從數(shù)據(jù)供給側(cè)來(lái)看,過(guò)去兩年全國(guó)各地陸陸續(xù)續(xù)出現(xiàn)數(shù)據(jù)采集企業(yè),它們有場(chǎng)景資源,有采集能力,但是缺少標(biāo)準(zhǔn)化的運(yùn)營(yíng)和管理體系,以及一套完整成熟的數(shù)據(jù)后處理、治理和流通的能力。只有原始數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,它們需要經(jīng)過(guò)很多的加工和標(biāo)注,才能為人工智能企業(yè)所用。這導(dǎo)致一些數(shù)據(jù)采集企業(yè)空有資源卻沒(méi)法變現(xiàn)。

從數(shù)據(jù)的需求側(cè)來(lái)看,AI大模型公司、科技大廠的具身團(tuán)隊(duì)、初創(chuàng)的人形機(jī)器人公司都需要海量的高質(zhì)量數(shù)據(jù),但是卻無(wú)法找到能穩(wěn)定、快速地供給和高質(zhì)量的方案,嚴(yán)重拖慢了AI類產(chǎn)品的落地。

極佳視界是一家具身智能和通用機(jī)器人的獨(dú)角獸公司,4月份剛剛完成新一輪的15億融資。在智元合作伙伴大會(huì)的圓桌環(huán)節(jié),極佳視界聯(lián)合創(chuàng)始人朱政表示,該公司在訓(xùn)練模型的過(guò)程中,大概使用了幾十萬(wàn)個(gè)小時(shí)的數(shù)據(jù)。這些數(shù)據(jù)主要有兩個(gè)來(lái)源,第一是各種網(wǎng)上公開(kāi)的數(shù)據(jù),包括合作伙伴,包括學(xué)術(shù)機(jī)構(gòu)開(kāi)源出來(lái)的數(shù)據(jù);第二則是極佳視界自己采集的數(shù)據(jù)。

“大部分?jǐn)?shù)據(jù)都是在實(shí)驗(yàn)室環(huán)境下,或者說(shuō)在人工設(shè)置好的場(chǎng)景下采集的。我們覺(jué)得還不夠真實(shí),希望數(shù)據(jù)更多一些泛服務(wù)場(chǎng)景、工業(yè)場(chǎng)景,甚至家庭場(chǎng)景,更加真實(shí)我們覺(jué)得更好。”朱政說(shuō)。

外購(gòu)數(shù)據(jù)質(zhì)量往往不達(dá)標(biāo),數(shù)據(jù)質(zhì)量參差不齊。

“我們之前做多模態(tài)模型的時(shí)候,一張圖可能給它幾千句話的標(biāo)注,詳細(xì)地描述這張圖里面的背景、前景、發(fā)生了什么,以及不同標(biāo)注員對(duì)它的理解。現(xiàn)在的視頻數(shù)據(jù),除了自己采回來(lái)的數(shù)據(jù)之外,都是非常簡(jiǎn)略地標(biāo)注,對(duì)整個(gè)環(huán)境的標(biāo)注、對(duì)任務(wù)的描述遠(yuǎn)遠(yuǎn)不夠。”朱政表示。

姚卯青深有同感。

“這些數(shù)據(jù)里面,標(biāo)注很多是不太規(guī)范的,各種傳感器之間的空間標(biāo)定,時(shí)間上的同步也有很多問(wèn)題。標(biāo)注質(zhì)量也比較粗糙,臟數(shù)據(jù)還是充斥著整個(gè)市場(chǎng)的。”姚卯青說(shuō),現(xiàn)在的大模型都是數(shù)據(jù)驅(qū)動(dòng),什么樣的數(shù)據(jù)就產(chǎn)生什么樣的模型。“garbage in、garbage out,如果你是垃圾數(shù)據(jù)進(jìn),就垃圾模型出。”

數(shù)據(jù)低質(zhì),造成的深層次問(wèn)題是,如果有一個(gè)好的算法,訓(xùn)練后卻沒(méi)有得到好的效果,機(jī)器人企業(yè)將難以分辨,到底是數(shù)據(jù)不好,還是模型出了問(wèn)題,甚至可能因此而否定掉優(yōu)秀的算法。

“今天整個(gè)行業(yè)的高質(zhì)量數(shù)據(jù)匯聚在一起,湊湊可能就50萬(wàn)小時(shí)的規(guī)模。”姚卯青認(rèn)為,要達(dá)到智能涌現(xiàn)時(shí)刻,1億小時(shí)的訓(xùn)練數(shù)據(jù)可能都不夠。高質(zhì)量真機(jī)數(shù)據(jù)的供需之間,存在成千上萬(wàn)倍的差距。

鴻溝如何填平

各家機(jī)器人企業(yè),數(shù)據(jù)標(biāo)準(zhǔn)各自為戰(zhàn)。

不少機(jī)器人企業(yè)在自主生產(chǎn)數(shù)據(jù),但數(shù)據(jù)格式、標(biāo)注等都是自成體系。

“它們都是一個(gè)個(gè)的孤島,很難互通復(fù)用。這就造成了企業(yè)與企業(yè)之間、上游與下游、應(yīng)用方與數(shù)據(jù)生產(chǎn)方等的協(xié)作成本非常高,整個(gè)產(chǎn)業(yè)很難形成合力快速地往規(guī)模化發(fā)展。”姚卯青分析說(shuō)。

真機(jī)數(shù)據(jù)成本高昂,采集一小時(shí)數(shù)據(jù)大概需要200元甚至更高。按照這樣的成本核算,人類恐怕會(huì)因?yàn)榭傮w成本太高而難以采集幾百億小時(shí)數(shù)據(jù)。仿真數(shù)據(jù)等雖然訓(xùn)練效果不及真機(jī)數(shù)據(jù),是一個(gè)退而求其次的選擇,但也變得不可或缺。

智元專門成立了覓蜂科技以采集和加工數(shù)據(jù)。根據(jù)覓蜂科技的規(guī)劃,2026年要實(shí)現(xiàn)千萬(wàn)小時(shí)級(jí)的數(shù)據(jù)產(chǎn)能,其中包括真機(jī)、仿真,也包括人類數(shù)據(jù)。

“數(shù)據(jù)金字塔包括三層,最上面這一層是真機(jī)的數(shù)據(jù),它一定是最有針對(duì)性、質(zhì)量最高的數(shù)據(jù);中間這一層是仿真數(shù)據(jù);下面這一層是視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù),現(xiàn)在我認(rèn)為可能更具代表性的是人類數(shù)據(jù)。”光輪智能CEO謝晨表示。

數(shù)據(jù)的核心問(wèn)題,謝晨認(rèn)為不在數(shù)據(jù)本身,而是在模型評(píng)價(jià)上。現(xiàn)在缺乏一個(gè)足夠開(kāi)放的、足夠真實(shí)的,且可規(guī)模化的落地到真實(shí)場(chǎng)景的具身模型評(píng)價(jià)方式。如果沒(méi)有合適的評(píng)價(jià)體系,企業(yè)就不知道用什么樣的數(shù)據(jù)能夠做好具身模型。

這個(gè)可規(guī)模化的評(píng)價(jià)體系,謝晨認(rèn)為底層需要的是仿真,所以他認(rèn)為真機(jī)數(shù)據(jù)、仿真數(shù)據(jù)、人類數(shù)據(jù)都至關(guān)重要。它們都是智能涌現(xiàn)的必要條件。

就如同特斯拉FSD有上百萬(wàn)輛車,不斷地從真實(shí)場(chǎng)景拿回?cái)?shù)據(jù)。具身智能需要用人類的手腳與全世界各種各樣的物體進(jìn)行交互以獲取數(shù)據(jù)。具身數(shù)據(jù)的難度、數(shù)據(jù)需求的規(guī)模可能會(huì)在特斯拉FSD的1000倍。

謝晨認(rèn)為,比照特斯拉的100萬(wàn)輛汽車,具身智能需要10億個(gè)數(shù)據(jù)生成器,這需要?jiǎng)訂T真機(jī)、仿真和人類三大核心來(lái)源。

在數(shù)據(jù)稀缺的情況下,現(xiàn)在對(duì)數(shù)據(jù)的利用效率還很低,亟待提高。

據(jù)朱政透露,極佳視界用了幾十萬(wàn)個(gè)小時(shí)的數(shù)據(jù)訓(xùn)練模型,為此每年要在GPU算力上花掉幾千萬(wàn)人民幣。如果按照當(dāng)下的數(shù)據(jù)使用效率,極佳把訓(xùn)練數(shù)據(jù)擴(kuò)增100倍甚至1000倍的時(shí)候,單單為GPU燒掉的錢就會(huì)超過(guò)它所能承受的支付能力。

“我們一方面要擴(kuò)增數(shù)據(jù),一方面要努力地改善模型的架構(gòu),提高運(yùn)行的效率。”朱政說(shuō)。

在今年的北京亦莊機(jī)器人馬拉松上,人形機(jī)器人奔跑的速度已經(jīng)追平人類運(yùn)動(dòng)員。但人形機(jī)器人企業(yè)探尋高質(zhì)量數(shù)據(jù)的馬拉松才剛剛開(kāi)始。

微信編輯| 蘇小

:bianjibu@yicai.com

:business@yicai.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

懂球帝
2026-04-20 08:00:07
世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

世錦賽戰(zhàn)報(bào):16強(qiáng)決出5席!中國(guó)2勝2負(fù)1領(lǐng)先,世界亞軍4-10一輪游

球場(chǎng)沒(méi)跑道
2026-04-20 05:38:54
39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

39歲前國(guó)腳現(xiàn)狀:定居美國(guó)踢野球,早已財(cái)富自由,有2個(gè)可愛(ài)女兒

攬星河的筆記
2026-04-14 15:18:30
天安門前的華表柱,是用來(lái)干什么的?看完不禁感嘆古人的智慧

天安門前的華表柱,是用來(lái)干什么的?看完不禁感嘆古人的智慧

抽象派大師
2026-04-19 15:45:34
貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

貝森特通告全球,將對(duì)中國(guó)二級(jí)制裁,話音剛落,中國(guó)被曝美債余額

浮光驚掠影
2026-04-19 10:01:06
若沒(méi)有此人,中國(guó)歷史或?qū)⒏膶懀⊥砟觌x休后享受什么待遇?

若沒(méi)有此人,中國(guó)歷史或?qū)⒏膶懀⊥砟觌x休后享受什么待遇?

史之銘
2026-04-19 15:49:20
瑞典:國(guó)王拒絕與澤連斯基握手的說(shuō)法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問(wèn)題上斷章取義!

瑞典:國(guó)王拒絕與澤連斯基握手的說(shuō)法,是“錯(cuò)誤且丑陋的”。俄媒在這個(gè)問(wèn)題上斷章取義!

李未熟擒話2
2026-04-19 17:08:59
4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

4月19日最新油價(jià),國(guó)際油價(jià)大降21.8%,國(guó)內(nèi)汽柴油“顯著”下跌中

豬友巴巴
2026-04-19 17:30:03
斯諾克世錦賽:丁俊暉首敗!土豆哥單桿70分追平,張安達(dá)優(yōu)勢(shì)縮水

斯諾克世錦賽:丁俊暉首敗!土豆哥單桿70分追平,張安達(dá)優(yōu)勢(shì)縮水

劉姚堯的文字城堡
2026-04-19 18:05:31
樹(shù)倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

樹(shù)倒猢猻散!武亮直播哭紅眼眶,20余天的人事動(dòng)蕩,讓他心力憔悴

火山詩(shī)話
2026-04-20 06:31:57
55歲上海炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死磕這五條鐵律

55歲上海炒股冠軍罕見(jiàn)發(fā)聲:如果本金有20W,建議死磕這五條鐵律

股經(jīng)縱橫談
2026-04-19 19:03:09
“鳥(niǎo)巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

“鳥(niǎo)巢”要拆?花34億建成的奧運(yùn)地標(biāo),如今是賺了還是賠了?

拳擊時(shí)空
2026-04-20 06:18:44
都說(shuō)孔子周游列國(guó),可地圖一攤開(kāi),這老爺子基本就沒(méi)出過(guò)河南省

都說(shuō)孔子周游列國(guó),可地圖一攤開(kāi),這老爺子基本就沒(méi)出過(guò)河南省

長(zhǎng)風(fēng)文史
2026-04-18 16:39:15
“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬(wàn)美金

“絕對(duì)good!”河南男子在美國(guó)擺攤賣磨刀器:義烏進(jìn)價(jià)1塊賣5美金,月入1萬(wàn)美金

瀟湘晨報(bào)
2026-04-19 11:48:20
黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺(jué)

黎筍長(zhǎng)子曾坦言:越南當(dāng)年敢打中國(guó)有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺(jué)

顧史
2026-04-18 09:17:19
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

1910年,孫中山原配和三個(gè)孩子合影,容貌憔悴,命運(yùn)坎坷!

史之銘
2026-04-19 17:44:23
天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

天文學(xué)家彭羅斯:人類的死亡只是宇宙的幻象,生命是不可能終結(jié)的

心中的麥田
2026-03-06 19:27:32
25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

25歲女孩下樓梯時(shí)低頭玩手機(jī),踩空摔倒致腰椎爆裂性骨折,術(shù)前下肢癱瘓大小便失禁:我不會(huì)這輩子就完了吧?醫(yī)生:小事引發(fā)災(zāi)難性后果

大風(fēng)新聞
2026-04-19 10:14:13
隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

隨著41歲C羅破門+利雅得勝利4-0,亞冠二級(jí)4強(qiáng)已誕生3席

側(cè)身凌空斬
2026-04-20 00:01:29
2026-04-20 09:08:49
第一財(cái)經(jīng)資訊 incentive-icons
第一財(cái)經(jīng)資訊
第一財(cái)經(jīng)官方賬號(hào)
250773文章數(shù) 622085關(guān)注度
往期回顧 全部

科技要聞

藍(lán)色起源一級(jí)火箭完美回收 客戶衛(wèi)星未入軌

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開(kāi)火并將其控制 該伊朗發(fā)飆了

頭條要聞

牛彈琴:美國(guó)向伊朗貨輪開(kāi)火并將其控制 該伊朗發(fā)飆了

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂(lè)要聞

何潤(rùn)東漲粉百萬(wàn)!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

月之暗面IPO迷局

汽車要聞

29分鐘大定破萬(wàn) 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

旅游
教育
手機(jī)
時(shí)尚
家居

旅游要聞

渝見(jiàn)好“村”光|大足和平村:城市后花園 鄉(xiāng)村新浪潮

教育要聞

辛集千余名少年逐夢(mèng)田徑賽場(chǎng)盡展青春力量

手機(jī)要聞

紅米K100系列再次曝光:BOSE揚(yáng)聲器+超強(qiáng)馬達(dá),沖高不靠風(fēng)扇!

今年最流行的衣服竟然是它?高級(jí)又氣質(zhì)!

家居要聞

法式線條 時(shí)光靜淌

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版