![]()
![]()
對于具身智能而言,數(shù)據(jù)不再只是訓(xùn)練材料,而正在演變?yōu)橐环N新的基礎(chǔ)設(shè)施。
作者|蘇霍伊
編輯|王博
又一家清華系具身智能企業(yè)浮出水面。
「甲子光年」獨(dú)家獲悉,清華系具身智能企業(yè)靈御智能已完成數(shù)千萬元天使輪融資。本輪融資由銀河創(chuàng)新資本領(lǐng)投,國海創(chuàng)新資本、天鷹資本、廈門思明科創(chuàng)基金跟投,老股東英諾天使基金、華映資本、遠(yuǎn)鏡創(chuàng)投持續(xù)加注。Maple Pledge楓承資本長期出任私募股權(quán)融資顧問。截至目前,靈御智能累計(jì)融資近億元。
靈御智能聯(lián)合創(chuàng)始人兼首席科學(xué)家莫一林是清華大學(xué)自動(dòng)化系長聘副教授。莫一林師從美國工程院院士、機(jī)器人操作領(lǐng)域先驅(qū)Richard. M. Murray教授,谷歌學(xué)術(shù)引用超1萬次,2021-2025連續(xù)五年獲得Elsevier中國高被引用學(xué)者,在優(yōu)化、控制、機(jī)器人領(lǐng)域發(fā)表高水平論文100余篇。
靈御智能聯(lián)合創(chuàng)始人兼CEO金戈是清華大學(xué)自動(dòng)化系學(xué)士、清華大學(xué)經(jīng)濟(jì)管理學(xué)院MBA,曾任遠(yuǎn)鏡創(chuàng)投管理合伙人、奧量光子副總裁,在高科技領(lǐng)域有著多年的創(chuàng)業(yè)投資和企業(yè)管理經(jīng)驗(yàn)。
![]()
莫一林(圖左)與金戈(圖右),圖片來源:受訪者
在具身智能領(lǐng)域,已有多家清華系企業(yè)嶄露頭角,包括星動(dòng)紀(jì)元、星海圖、千訣科技、自變量、松延動(dòng)力、加速進(jìn)化、流形空間、極佳視界等,業(yè)務(wù)和研究涵蓋了機(jī)器人本體、具身智能模型、世界模型等。
靈御智能從清華走出,立足海淀開始創(chuàng)業(yè),他們把業(yè)務(wù)和研究重點(diǎn)放在了數(shù)據(jù)上。在他們看來,具身智能卡在“數(shù)據(jù)荒”上,尤其是“高質(zhì)量、長序列”的復(fù)雜操作數(shù)據(jù)十分缺乏。盡管這條路看起來有些“樸實(shí)”,但莫一林的觀點(diǎn)是,具身智能能領(lǐng)域真正決定勝負(fù)的變量是——數(shù)據(jù)。
「甲子光年」認(rèn)為,決定機(jī)器人能力的不只是本體、模型和算力,更重要的是一套新的基礎(chǔ)設(shè)施——具身數(shù)據(jù) Infra,這是一套用于規(guī)模化生產(chǎn)、管理和利用真實(shí)世界機(jī)器人交互數(shù)據(jù)的基礎(chǔ)設(shè)施體系。誰能更高效地生產(chǎn)真實(shí)世界數(shù)據(jù),誰就更有可能推動(dòng)機(jī)器人智能的躍遷。
而靈御智能要打造的就是具身數(shù)據(jù)Infra。
1.大規(guī)模、高質(zhì)量的數(shù)據(jù)從哪里來?
如果說AI Infra是計(jì)算工廠,那么具身數(shù)據(jù)Infra就是數(shù)據(jù)工廠。
具身數(shù)據(jù) Infra離不開數(shù)據(jù)采集母機(jī),這指的是專門用于規(guī)模化采集真實(shí)機(jī)器人操作數(shù)據(jù)的“生產(chǎn)設(shè)備”或“數(shù)據(jù)工廠機(jī)器”。
它可以理解為一套能夠持續(xù)、標(biāo)準(zhǔn)化、高效率地產(chǎn)生機(jī)器人操作數(shù)據(jù)的機(jī)器人系統(tǒng)平臺(tái),其核心使命就是為具身智能模型提供大規(guī)模、高質(zhì)量的真實(shí)世界數(shù)據(jù)。
在大模型時(shí)代,人們習(xí)慣把“算力、算法、數(shù)據(jù)”視為AI的三大要素。但當(dāng)AI進(jìn)入物理世界,這個(gè)公式發(fā)生了微妙變化。對于具身智能而言,數(shù)據(jù)不再只是訓(xùn)練材料,而正在演變?yōu)橐环N新的基礎(chǔ)設(shè)施。
原因很簡單,大語言模型可以從互聯(lián)網(wǎng)獲得海量文本,而機(jī)器人需要學(xué)習(xí)的,是現(xiàn)實(shí)世界中人與物體交互的細(xì)節(jié)——抓取的角度、力的大小、物體的重量、失敗后的調(diào)整路徑。這些信息無法從網(wǎng)絡(luò)抓取,只能通過真實(shí)機(jī)器人反復(fù)執(zhí)行任務(wù)產(chǎn)生。
這也意味著,具身智能的數(shù)據(jù)生產(chǎn)方式與互聯(lián)網(wǎng)AI完全不同。它不再依賴“數(shù)據(jù)爬蟲”,而依賴數(shù)據(jù)采集母機(jī)。
靈御智能構(gòu)建具身數(shù)據(jù)Infra的思路是研發(fā)TeleAvatar(本體)和TeleDroid(系統(tǒng))。
![]()
TeleAvatar,圖片來源:靈御智能
TeleAvatar專為遙操設(shè)計(jì),具備多樣化操作模式,可以應(yīng)對不同復(fù)雜環(huán)境和任務(wù)需求,同時(shí)還支持與多種外部設(shè)備進(jìn)行交互。在端側(cè),實(shí)時(shí)運(yùn)動(dòng)控制內(nèi)核可以保證毫秒級(jí)響應(yīng)與安全力控。
TeleDroid是一套軟硬云一體化系統(tǒng),其具備智能數(shù)據(jù)分析能力,可為用戶提供深入的洞察和決策,同時(shí)確保數(shù)據(jù)在采集、傳輸和存儲(chǔ)過程中的安全。這套系統(tǒng)部署在云側(cè),用戶通過完整的數(shù)據(jù)采集、清晰、自動(dòng)化標(biāo)注平臺(tái),可實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的閉環(huán)管理。
兩者合在一起,用戶就可以持續(xù)沉淀真機(jī)數(shù)據(jù),再用數(shù)據(jù)反哺模型、逐步提升自主能力,形成“部署即采集、采集即訓(xùn)練”的數(shù)據(jù)飛輪。
靈御智能的判斷是,真正能驅(qū)動(dòng)模型涌現(xiàn)的高質(zhì)量數(shù)據(jù),還是要從真實(shí)物理世界中磨出來。
“這也是過去特斯拉、‘蔚小理’、華為走過的道路。只有通過這種方式,才能采集到足夠量的數(shù)據(jù),而這些數(shù)據(jù)才能把AI真正‘喂養(yǎng)’出來。”金戈告訴「甲子光年」。
![]()
靈御智能參加第二屆中關(guān)村具身智能機(jī)器人應(yīng)用大賽,圖片來源:靈御智能
雖然具身智能數(shù)據(jù)采集和自動(dòng)駕駛數(shù)據(jù)采集存在一定的相似性,但是莫一林認(rèn)為,兩者之間是數(shù)量級(jí)的鴻溝。
自動(dòng)駕駛本質(zhì)上是一個(gè)二維空間、2自由度的問題,數(shù)據(jù)能被動(dòng)采集,目前已積累超過百億小時(shí)。但具身智能面對的是三維空間、20+自由度的操作問題,對重量、形狀、摩擦、軟硬等物理屬性高度敏感,仿真難度大,現(xiàn)有開源數(shù)據(jù)集質(zhì)量參差不齊,總量僅在十萬小時(shí)級(jí)。
“如果我們認(rèn)定機(jī)器人需要的數(shù)據(jù)量也在百億到千億小時(shí)級(jí),今天業(yè)內(nèi)處于嚴(yán)重的數(shù)據(jù)稀缺的情況下。尤其是機(jī)器人上肢操作的數(shù)據(jù)最為缺失,還不能依賴自建數(shù)采中心來填補(bǔ),因?yàn)榱考?jí)差太遠(yuǎn)了。”莫一林告訴「甲子光年」。
當(dāng)前具身智能行業(yè)獲取數(shù)據(jù),主要有四種方式。
第一種是仿真數(shù)據(jù),即在模擬環(huán)境中生成機(jī)器人操作數(shù)據(jù),優(yōu)點(diǎn)是成本低、規(guī)模幾乎無限,可以快速訓(xùn)練模型的基礎(chǔ)能力,但最大問題是“虛實(shí)鴻溝”:仿真環(huán)境很難準(zhǔn)確還原現(xiàn)實(shí)世界的物理細(xì)節(jié),例如摩擦、柔性物體、傳感器噪聲等,導(dǎo)致模型在仿真中表現(xiàn)良好,到了真實(shí)機(jī)器人上卻容易失效。
第二類是人類行為數(shù)據(jù),數(shù)據(jù)來源主要是視頻,通過學(xué)習(xí)人類操作來訓(xùn)練機(jī)器人。這類數(shù)據(jù)規(guī)模巨大,但由于人類身體結(jié)構(gòu)與機(jī)器人機(jī)械結(jié)構(gòu)存在差異,往往難以直接映射到機(jī)器人動(dòng)作,因此存在所謂的“構(gòu)型鴻溝”。
第三類是人類示教數(shù)據(jù),例如通過手持設(shè)備、動(dòng)捕系統(tǒng)或拖動(dòng)機(jī)械臂進(jìn)行操作示教,這種方式可以獲得較高質(zhì)量的操作軌跡,但依然存在人類運(yùn)動(dòng)與機(jī)器人關(guān)節(jié)約束不完全一致的問題,同時(shí)采集效率有限。
第四類是真機(jī)遙操作數(shù)據(jù),即由人類遠(yuǎn)程控制機(jī)器人完成任務(wù)并記錄操作過程,可靠性強(qiáng)、訓(xùn)練效果好,但代價(jià)是采集成本高,需要大量設(shè)備、場地和操作人員,數(shù)據(jù)規(guī)模很難迅速擴(kuò)展。
靈御智能瞄準(zhǔn)的就是真機(jī)遙操作數(shù)據(jù)。
2.真遠(yuǎn)程遙操
機(jī)器人遙操作并不是一個(gè)新概念,但是遙操作并沒有那么簡單,也沒有那么成熟。
跨越物理距離讓機(jī)器“動(dòng)起來”是一回事,但要讓它做到順滑、精準(zhǔn)、低延遲且具備力控能力,則是另一回事。
具體難在哪里?
首先是延遲。
目前,行業(yè)通用的圖像延遲普遍在150到200毫秒之間。雖然部分廠商標(biāo)稱能做到150毫秒,但莫一林指出,各家對延遲的定義和測量口徑往往大相徑庭。
為了擠掉水分,靈御采用的是G2G延遲(Glass-to-Glass Latency)標(biāo)準(zhǔn)。從光信號(hào)進(jìn)入機(jī)器人攝像頭,到最終呈現(xiàn)在操作員VR頭顯屏幕上的完整耗時(shí),其圖傳延遲控制在100毫秒以內(nèi)。動(dòng)作控制端,人機(jī)之間的力/位混合控制響應(yīng)被壓縮至30毫秒以下,操作員與機(jī)器人的動(dòng)作同步基本達(dá)到肉眼無感。
莫一林告訴「甲子光年」:“我們把這些延遲都已經(jīng)壓到最低了。”
第二個(gè)難點(diǎn)是處理空間維度上雙臂高自由度的控制映射。
車輛遙操作本質(zhì)上屬于2自由度控制,往往只需在遠(yuǎn)端復(fù)制一套方向盤即可實(shí)現(xiàn)。相比之下,人體上肢7自由度遠(yuǎn)超車輛,兩者的控制映射難度完全不在同一量級(jí)。
第三個(gè)難點(diǎn)是真遠(yuǎn)程。
目前行業(yè)大多數(shù)遙操作方案仍屬于近場視距遙控:操作員須站在機(jī)器人身后1至2米處,以肉眼觀察機(jī)器人動(dòng)作,人必須到場,既無法實(shí)現(xiàn)跨地域勞動(dòng)力套利,也無法支持一人多機(jī)的分時(shí)調(diào)度。
莫一林說:“大部分同行的遙操作更多是為了數(shù)據(jù)采集,操作者還是站在機(jī)器人旁邊用眼睛看。而我們做的是另一件事——遠(yuǎn)程遙操,操作員在控制室,讓機(jī)器人在2000公里外的現(xiàn)場。”
他和團(tuán)隊(duì)曾花大量了時(shí)間做不同遙操作方案的嘗試和比較,最終團(tuán)隊(duì)研發(fā)出了TeleAvatar。
TeleAvatar本身是專為遙操作設(shè)計(jì),配合軟硬云一體化系統(tǒng)TeleDroid,端側(cè)負(fù)責(zé)實(shí)時(shí)運(yùn)動(dòng)控制和安全力控,云側(cè)負(fù)責(zé)數(shù)據(jù)采集、清洗和自動(dòng)化標(biāo)注,共同組成了“高效的數(shù)據(jù)采集母機(jī)”。
金戈描述操作體驗(yàn):“戴上VR眼鏡之后,完全是附身于機(jī)器人之上的感覺,得到的視覺信息和自己的感受非常接近,也不會(huì)眩暈。”
母機(jī)的尺寸與關(guān)節(jié)和人體完全同構(gòu),操作員可以零門檻上手。
“我們的硬件跟人是基本同構(gòu)的,機(jī)械臂長度、手的長度都跟人類似,你夠得到的東西機(jī)器人也夠得到。”莫一林說,“我們可能是國內(nèi)目前唯一在認(rèn)真做真正遠(yuǎn)程遙操作的公司。”
![]()
靈御智能參加上海GDPS比賽,圖片來源:靈御智能
靈御智能目前鎖定了三類應(yīng)用場景。
第一類是危險(xiǎn)場景與跨地域勞動(dòng)力套利。在核電站、化工廠這樣存在一定危險(xiǎn)性的環(huán)境中,遙操作本身就是價(jià)值所在。莫一林認(rèn)為,這種“時(shí)空折疊”算的不是經(jīng)濟(jì)賬,是人的生命價(jià)值。同時(shí)全球勞動(dòng)力成本差異巨大,靈御的遠(yuǎn)程遙操方案可以讓低成本地區(qū)的操作員通過機(jī)器人為高成本地區(qū)服務(wù),覆蓋零售、物流、酒店、倉儲(chǔ)等行業(yè)。
第二類是一人多機(jī)的分時(shí)復(fù)用。很多工作頻次不高但需要長時(shí)間待命。典型如夜間藥店:單店來客頻次低,但需要人全程值守。靈御智能的方案是多家藥店部署機(jī)器人,1名操作員通過后臺(tái)管理5到10個(gè)門店終端,按需切換。
第三類是半自主兜底。機(jī)器平時(shí)自主運(yùn)行,遇到Corner Case瞬間切換人工接管。金戈將這稱為“帶保險(xiǎn)的自動(dòng)化”:95%的時(shí)間自動(dòng)模式,5%的時(shí)間遙操模式。
盡管在技術(shù)上有了突破,但是他們還面臨一個(gè)大問題——成本。
3.低成本跑出高精度
具身智能的數(shù)據(jù)采集成本,在行業(yè)里普遍被認(rèn)為是當(dāng)前最大的隱性成本之一。如果把一個(gè)具身智能公司的技術(shù)投入拆開,就會(huì)發(fā)現(xiàn)數(shù)據(jù)采集系統(tǒng)、操作人員、實(shí)驗(yàn)場地與設(shè)備維護(hù),占據(jù)了相當(dāng)比例的預(yù)算。
尤其是真機(jī)遙操作數(shù)據(jù)采集成本高的問題,困擾了很多企業(yè),靈御智能沒有回避這一問題,而是想辦法從兩方面同時(shí)壓縮成本:一是提高機(jī)器人的運(yùn)轉(zhuǎn)時(shí)間和平均故障間隔;二是通過更優(yōu)的遙操作方案大幅提升作業(yè)效率。
靈御智能將TeleAvatar的價(jià)格定在10萬到20萬元之間,僅為行業(yè)平均水平的三分之一到一半。想在在這個(gè)價(jià)位段保持極高的操控性能,他們的解題思路很明確:用算法彌補(bǔ)標(biāo)準(zhǔn)硬件在精度和力感知上的不足。
在硬件選型上,金戈放棄了昂貴的定制件,全部采用工業(yè)界成熟的量產(chǎn)元器件。這種做法壓低了物料成本,且通用零部件經(jīng)過了長期的工業(yè)驗(yàn)證,后期維修更加便利。但代價(jià)是,普通硬件天生帶有精度差、延遲高、缺乏柔性等物理缺陷。
在底層工程設(shè)計(jì)上,莫一林也做了一些權(quán)衡。
以力覺感知為例,業(yè)內(nèi)為了獲得精準(zhǔn)的力反饋,通常會(huì)給每個(gè)關(guān)節(jié)配備昂貴的諧波減速器和六維力傳感器。而靈御智能只選用了低減速比的行星減速器,轉(zhuǎn)而通過監(jiān)測電機(jī)自身的電流變化來估算受力情況。莫一林坦言,電流反饋的絕對物理精度確實(shí)比不上專屬傳感器,但這可以通過軟件算法來進(jìn)行補(bǔ)償。
配合500赫茲的控制頻率,系統(tǒng)每兩毫秒即可獲取一次關(guān)節(jié)受力數(shù)據(jù),使機(jī)械臂能夠?qū)崟r(shí)動(dòng)態(tài)調(diào)整自身的剛度:遇硬則柔,遇軟則剛。加上高精度的標(biāo)定與全局逆解算法,這套平價(jià)的硬件組合最終實(shí)現(xiàn)了全柔性力控下的跨本體高空間絕對定位精度。
![]()
TeleAvatar,圖片來源:靈御智能
在金戈看來,底層控制能力的缺失,是目前許多具身智能機(jī)器人的短板。他將控制系統(tǒng)比作人體的神經(jīng)傳導(dǎo)網(wǎng)絡(luò)。如果控制層不過關(guān),即便AI大模型再聰明,機(jī)器人也會(huì)因?yàn)椤笆直俊倍鵁o法完成精細(xì)的物理操作。
控制層之所以在今天變得更為重要,因?yàn)橛跈C(jī)器人作業(yè)環(huán)境的改變。過去的傳統(tǒng)工業(yè)機(jī)械臂大多處于開環(huán)控制,只需在封閉的產(chǎn)線上死板地執(zhí)行預(yù)設(shè)代碼;而如今的具身機(jī)器人被直接放進(jìn)了未知的開放環(huán)境中,它必須像人類一樣,通過視覺和觸覺實(shí)時(shí)感知,并在不斷的反饋閉環(huán)中高頻修正自己的動(dòng)作。
基于這種判斷,靈御智能劃定了自己的業(yè)務(wù)邊界:做機(jī)器人和數(shù)據(jù)的提供方。
“我們的核心優(yōu)勢在于能把成本做得非常低,同時(shí)通過算法把機(jī)器人的性能做到最好。我們可以跟諸多具身大腦公司合作,為他們提供機(jī)器人和數(shù)據(jù)。”莫一林用英偉達(dá)做類比,“英偉達(dá)為大家提供算力,但不會(huì)下場做大模型,因?yàn)樽隽舜竽P椭驡PU怎么賣給別人呢?應(yīng)該讓大家都加入到一個(gè)良好的生態(tài)里,我們?yōu)榇蠹姨峁┝己玫姆?wù)和平臺(tái)”。
雖然靈御智能2025年才入局具身智能,但他們認(rèn)為這條賽道中的“先發(fā)優(yōu)勢”十分微弱。
莫一林打了一個(gè)比方,如果機(jī)器人需要的數(shù)據(jù)量在百億到千億小時(shí)級(jí),那今天所有人都處于馬拉松剛剛出發(fā)的狀態(tài),“可能先行者跑了25米,我們才剛開始跑,但對于一場馬拉松而言,這種差距并沒有早晚之分。真正決勝負(fù)的長跑可能還遠(yuǎn)遠(yuǎn)在后面。”
(封面圖來源:靈御智能)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.