網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

又一家清華系具身智能企業(yè)浮出水面：天使輪融資數(shù)千萬元，打造具身數(shù)據(jù)Infra丨甲子光年

2026-03-12 21:27:43　來源: 甲子光年

北京舉報(bào)

分享至

對于具身智能而言，數(shù)據(jù)不再只是訓(xùn)練材料，而正在演變?yōu)橐环N新的基礎(chǔ)設(shè)施。

作者｜蘇霍伊

編輯｜王博

又一家清華系具身智能企業(yè)浮出水面。

「甲子光年」獨(dú)家獲悉，清華系具身智能企業(yè)靈御智能已完成數(shù)千萬元天使輪融資。本輪融資由銀河創(chuàng)新資本領(lǐng)投，國海創(chuàng)新資本、天鷹資本、廈門思明科創(chuàng)基金跟投，老股東英諾天使基金、華映資本、遠(yuǎn)鏡創(chuàng)投持續(xù)加注。Maple Pledge楓承資本長期出任私募股權(quán)融資顧問。截至目前，靈御智能累計(jì)融資近億元。

靈御智能聯(lián)合創(chuàng)始人兼首席科學(xué)家莫一林是清華大學(xué)自動(dòng)化系長聘副教授。莫一林師從美國工程院院士、機(jī)器人操作領(lǐng)域先驅(qū)Richard. M. Murray教授，谷歌學(xué)術(shù)引用超1萬次，2021-2025連續(xù)五年獲得Elsevier中國高被引用學(xué)者，在優(yōu)化、控制、機(jī)器人領(lǐng)域發(fā)表高水平論文100余篇。

靈御智能聯(lián)合創(chuàng)始人兼CEO金戈是清華大學(xué)自動(dòng)化系學(xué)士、清華大學(xué)經(jīng)濟(jì)管理學(xué)院MBA，曾任遠(yuǎn)鏡創(chuàng)投管理合伙人、奧量光子副總裁，在高科技領(lǐng)域有著多年的創(chuàng)業(yè)投資和企業(yè)管理經(jīng)驗(yàn)。

莫一林（圖左）與金戈（圖右），圖片來源：受訪者

在具身智能領(lǐng)域，已有多家清華系企業(yè)嶄露頭角，包括星動(dòng)紀(jì)元、星海圖、千訣科技、自變量、松延動(dòng)力、加速進(jìn)化、流形空間、極佳視界等，業(yè)務(wù)和研究涵蓋了機(jī)器人本體、具身智能模型、世界模型等。

靈御智能從清華走出，立足海淀開始創(chuàng)業(yè)，他們把業(yè)務(wù)和研究重點(diǎn)放在了數(shù)據(jù)上。在他們看來，具身智能卡在“數(shù)據(jù)荒”上，尤其是“高質(zhì)量、長序列”的復(fù)雜操作數(shù)據(jù)十分缺乏。盡管這條路看起來有些“樸實(shí)”，但莫一林的觀點(diǎn)是，具身智能能領(lǐng)域真正決定勝負(fù)的變量是——數(shù)據(jù)。

「甲子光年」認(rèn)為，決定機(jī)器人能力的不只是本體、模型和算力，更重要的是一套新的基礎(chǔ)設(shè)施——具身數(shù)據(jù) Infra，這是一套用于規(guī)模化生產(chǎn)、管理和利用真實(shí)世界機(jī)器人交互數(shù)據(jù)的基礎(chǔ)設(shè)施體系。誰能更高效地生產(chǎn)真實(shí)世界數(shù)據(jù)，誰就更有可能推動(dòng)機(jī)器人智能的躍遷。

而靈御智能要打造的就是具身數(shù)據(jù)Infra。

1.大規(guī)模、高質(zhì)量的數(shù)據(jù)從哪里來？

如果說AI Infra是計(jì)算工廠，那么具身數(shù)據(jù)Infra就是數(shù)據(jù)工廠。

具身數(shù)據(jù) Infra離不開數(shù)據(jù)采集母機(jī)，這指的是專門用于規(guī)模化采集真實(shí)機(jī)器人操作數(shù)據(jù)的“生產(chǎn)設(shè)備”或“數(shù)據(jù)工廠機(jī)器”。

它可以理解為一套能夠持續(xù)、標(biāo)準(zhǔn)化、高效率地產(chǎn)生機(jī)器人操作數(shù)據(jù)的機(jī)器人系統(tǒng)平臺(tái)，其核心使命就是為具身智能模型提供大規(guī)模、高質(zhì)量的真實(shí)世界數(shù)據(jù)。

在大模型時(shí)代，人們習(xí)慣把“算力、算法、數(shù)據(jù)”視為AI的三大要素。但當(dāng)AI進(jìn)入物理世界，這個(gè)公式發(fā)生了微妙變化。對于具身智能而言，數(shù)據(jù)不再只是訓(xùn)練材料，而正在演變?yōu)橐环N新的基礎(chǔ)設(shè)施。

原因很簡單，大語言模型可以從互聯(lián)網(wǎng)獲得海量文本，而機(jī)器人需要學(xué)習(xí)的，是現(xiàn)實(shí)世界中人與物體交互的細(xì)節(jié)——抓取的角度、力的大小、物體的重量、失敗后的調(diào)整路徑。這些信息無法從網(wǎng)絡(luò)抓取，只能通過真實(shí)機(jī)器人反復(fù)執(zhí)行任務(wù)產(chǎn)生。

這也意味著，具身智能的數(shù)據(jù)生產(chǎn)方式與互聯(lián)網(wǎng)AI完全不同。它不再依賴“數(shù)據(jù)爬蟲”，而依賴數(shù)據(jù)采集母機(jī)。

靈御智能構(gòu)建具身數(shù)據(jù)Infra的思路是研發(fā)TeleAvatar（本體）和TeleDroid（系統(tǒng)）。

TeleAvatar，圖片來源：靈御智能

TeleAvatar專為遙操設(shè)計(jì)，具備多樣化操作模式，可以應(yīng)對不同復(fù)雜環(huán)境和任務(wù)需求，同時(shí)還支持與多種外部設(shè)備進(jìn)行交互。在端側(cè)，實(shí)時(shí)運(yùn)動(dòng)控制內(nèi)核可以保證毫秒級(jí)響應(yīng)與安全力控。

TeleDroid是一套軟硬云一體化系統(tǒng)，其具備智能數(shù)據(jù)分析能力，可為用戶提供深入的洞察和決策，同時(shí)確保數(shù)據(jù)在采集、傳輸和存儲(chǔ)過程中的安全。這套系統(tǒng)部署在云側(cè)，用戶通過完整的數(shù)據(jù)采集、清晰、自動(dòng)化標(biāo)注平臺(tái)，可實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的閉環(huán)管理。

兩者合在一起，用戶就可以持續(xù)沉淀真機(jī)數(shù)據(jù)，再用數(shù)據(jù)反哺模型、逐步提升自主能力，形成“部署即采集、采集即訓(xùn)練”的數(shù)據(jù)飛輪。

靈御智能的判斷是，真正能驅(qū)動(dòng)模型涌現(xiàn)的高質(zhì)量數(shù)據(jù)，還是要從真實(shí)物理世界中磨出來。

“這也是過去特斯拉、‘蔚小理’、華為走過的道路。只有通過這種方式，才能采集到足夠量的數(shù)據(jù)，而這些數(shù)據(jù)才能把AI真正‘喂養(yǎng)’出來。”金戈告訴「甲子光年」。

靈御智能參加第二屆中關(guān)村具身智能機(jī)器人應(yīng)用大賽，圖片來源：靈御智能

雖然具身智能數(shù)據(jù)采集和自動(dòng)駕駛數(shù)據(jù)采集存在一定的相似性，但是莫一林認(rèn)為，兩者之間是數(shù)量級(jí)的鴻溝。

自動(dòng)駕駛本質(zhì)上是一個(gè)二維空間、2自由度的問題，數(shù)據(jù)能被動(dòng)采集，目前已積累超過百億小時(shí)。但具身智能面對的是三維空間、20+自由度的操作問題，對重量、形狀、摩擦、軟硬等物理屬性高度敏感，仿真難度大，現(xiàn)有開源數(shù)據(jù)集質(zhì)量參差不齊，總量僅在十萬小時(shí)級(jí)。

“如果我們認(rèn)定機(jī)器人需要的數(shù)據(jù)量也在百億到千億小時(shí)級(jí)，今天業(yè)內(nèi)處于嚴(yán)重的數(shù)據(jù)稀缺的情況下。尤其是機(jī)器人上肢操作的數(shù)據(jù)最為缺失，還不能依賴自建數(shù)采中心來填補(bǔ)，因?yàn)榱考?jí)差太遠(yuǎn)了。”莫一林告訴「甲子光年」。

當(dāng)前具身智能行業(yè)獲取數(shù)據(jù)，主要有四種方式。

第一種是仿真數(shù)據(jù)，即在模擬環(huán)境中生成機(jī)器人操作數(shù)據(jù)，優(yōu)點(diǎn)是成本低、規(guī)模幾乎無限，可以快速訓(xùn)練模型的基礎(chǔ)能力，但最大問題是“虛實(shí)鴻溝”：仿真環(huán)境很難準(zhǔn)確還原現(xiàn)實(shí)世界的物理細(xì)節(jié)，例如摩擦、柔性物體、傳感器噪聲等，導(dǎo)致模型在仿真中表現(xiàn)良好，到了真實(shí)機(jī)器人上卻容易失效。

第二類是人類行為數(shù)據(jù)，數(shù)據(jù)來源主要是視頻，通過學(xué)習(xí)人類操作來訓(xùn)練機(jī)器人。這類數(shù)據(jù)規(guī)模巨大，但由于人類身體結(jié)構(gòu)與機(jī)器人機(jī)械結(jié)構(gòu)存在差異，往往難以直接映射到機(jī)器人動(dòng)作，因此存在所謂的“構(gòu)型鴻溝”。

第三類是人類示教數(shù)據(jù)，例如通過手持設(shè)備、動(dòng)捕系統(tǒng)或拖動(dòng)機(jī)械臂進(jìn)行操作示教，這種方式可以獲得較高質(zhì)量的操作軌跡，但依然存在人類運(yùn)動(dòng)與機(jī)器人關(guān)節(jié)約束不完全一致的問題，同時(shí)采集效率有限。

第四類是真機(jī)遙操作數(shù)據(jù)，即由人類遠(yuǎn)程控制機(jī)器人完成任務(wù)并記錄操作過程，可靠性強(qiáng)、訓(xùn)練效果好，但代價(jià)是采集成本高，需要大量設(shè)備、場地和操作人員，數(shù)據(jù)規(guī)模很難迅速擴(kuò)展。

靈御智能瞄準(zhǔn)的就是真機(jī)遙操作數(shù)據(jù)。

2.真遠(yuǎn)程遙操

機(jī)器人遙操作并不是一個(gè)新概念，但是遙操作并沒有那么簡單，也沒有那么成熟。

跨越物理距離讓機(jī)器“動(dòng)起來”是一回事，但要讓它做到順滑、精準(zhǔn)、低延遲且具備力控能力，則是另一回事。

具體難在哪里？

首先是延遲。

目前，行業(yè)通用的圖像延遲普遍在150到200毫秒之間。雖然部分廠商標(biāo)稱能做到150毫秒，但莫一林指出，各家對延遲的定義和測量口徑往往大相徑庭。

為了擠掉水分，靈御采用的是G2G延遲（Glass-to-Glass Latency）標(biāo)準(zhǔn)。從光信號(hào)進(jìn)入機(jī)器人攝像頭，到最終呈現(xiàn)在操作員VR頭顯屏幕上的完整耗時(shí)，其圖傳延遲控制在100毫秒以內(nèi)。動(dòng)作控制端，人機(jī)之間的力/位混合控制響應(yīng)被壓縮至30毫秒以下，操作員與機(jī)器人的動(dòng)作同步基本達(dá)到肉眼無感。

莫一林告訴「甲子光年」：“我們把這些延遲都已經(jīng)壓到最低了。”

第二個(gè)難點(diǎn)是處理空間維度上雙臂高自由度的控制映射。

車輛遙操作本質(zhì)上屬于2自由度控制，往往只需在遠(yuǎn)端復(fù)制一套方向盤即可實(shí)現(xiàn)。相比之下，人體上肢7自由度遠(yuǎn)超車輛，兩者的控制映射難度完全不在同一量級(jí)。

第三個(gè)難點(diǎn)是真遠(yuǎn)程。

目前行業(yè)大多數(shù)遙操作方案仍屬于近場視距遙控：操作員須站在機(jī)器人身后1至2米處，以肉眼觀察機(jī)器人動(dòng)作，人必須到場，既無法實(shí)現(xiàn)跨地域勞動(dòng)力套利，也無法支持一人多機(jī)的分時(shí)調(diào)度。

莫一林說：“大部分同行的遙操作更多是為了數(shù)據(jù)采集，操作者還是站在機(jī)器人旁邊用眼睛看。而我們做的是另一件事——遠(yuǎn)程遙操，操作員在控制室，讓機(jī)器人在2000公里外的現(xiàn)場。”

他和團(tuán)隊(duì)曾花大量了時(shí)間做不同遙操作方案的嘗試和比較，最終團(tuán)隊(duì)研發(fā)出了TeleAvatar。

TeleAvatar本身是專為遙操作設(shè)計(jì)，配合軟硬云一體化系統(tǒng)TeleDroid，端側(cè)負(fù)責(zé)實(shí)時(shí)運(yùn)動(dòng)控制和安全力控，云側(cè)負(fù)責(zé)數(shù)據(jù)采集、清洗和自動(dòng)化標(biāo)注，共同組成了“高效的數(shù)據(jù)采集母機(jī)”。

金戈描述操作體驗(yàn)：“戴上VR眼鏡之后，完全是附身于機(jī)器人之上的感覺，得到的視覺信息和自己的感受非常接近，也不會(huì)眩暈。”

母機(jī)的尺寸與關(guān)節(jié)和人體完全同構(gòu)，操作員可以零門檻上手。

“我們的硬件跟人是基本同構(gòu)的，機(jī)械臂長度、手的長度都跟人類似，你夠得到的東西機(jī)器人也夠得到。”莫一林說，“我們可能是國內(nèi)目前唯一在認(rèn)真做真正遠(yuǎn)程遙操作的公司。”

靈御智能參加上海GDPS比賽，圖片來源：靈御智能

靈御智能目前鎖定了三類應(yīng)用場景。

第一類是危險(xiǎn)場景與跨地域勞動(dòng)力套利。在核電站、化工廠這樣存在一定危險(xiǎn)性的環(huán)境中，遙操作本身就是價(jià)值所在。莫一林認(rèn)為，這種“時(shí)空折疊”算的不是經(jīng)濟(jì)賬，是人的生命價(jià)值。同時(shí)全球勞動(dòng)力成本差異巨大，靈御的遠(yuǎn)程遙操方案可以讓低成本地區(qū)的操作員通過機(jī)器人為高成本地區(qū)服務(wù)，覆蓋零售、物流、酒店、倉儲(chǔ)等行業(yè)。

第二類是一人多機(jī)的分時(shí)復(fù)用。很多工作頻次不高但需要長時(shí)間待命。典型如夜間藥店：單店來客頻次低，但需要人全程值守。靈御智能的方案是多家藥店部署機(jī)器人，1名操作員通過后臺(tái)管理5到10個(gè)門店終端，按需切換。

第三類是半自主兜底。機(jī)器平時(shí)自主運(yùn)行，遇到Corner Case瞬間切換人工接管。金戈將這稱為“帶保險(xiǎn)的自動(dòng)化”：95%的時(shí)間自動(dòng)模式，5%的時(shí)間遙操模式。

盡管在技術(shù)上有了突破，但是他們還面臨一個(gè)大問題——成本。

3.低成本跑出高精度

具身智能的數(shù)據(jù)采集成本，在行業(yè)里普遍被認(rèn)為是當(dāng)前最大的隱性成本之一。如果把一個(gè)具身智能公司的技術(shù)投入拆開，就會(huì)發(fā)現(xiàn)數(shù)據(jù)采集系統(tǒng)、操作人員、實(shí)驗(yàn)場地與設(shè)備維護(hù)，占據(jù)了相當(dāng)比例的預(yù)算。

尤其是真機(jī)遙操作數(shù)據(jù)采集成本高的問題，困擾了很多企業(yè)，靈御智能沒有回避這一問題，而是想辦法從兩方面同時(shí)壓縮成本：一是提高機(jī)器人的運(yùn)轉(zhuǎn)時(shí)間和平均故障間隔；二是通過更優(yōu)的遙操作方案大幅提升作業(yè)效率。

靈御智能將TeleAvatar的價(jià)格定在10萬到20萬元之間，僅為行業(yè)平均水平的三分之一到一半。想在在這個(gè)價(jià)位段保持極高的操控性能，他們的解題思路很明確：用算法彌補(bǔ)標(biāo)準(zhǔn)硬件在精度和力感知上的不足。

在硬件選型上，金戈放棄了昂貴的定制件，全部采用工業(yè)界成熟的量產(chǎn)元器件。這種做法壓低了物料成本，且通用零部件經(jīng)過了長期的工業(yè)驗(yàn)證，后期維修更加便利。但代價(jià)是，普通硬件天生帶有精度差、延遲高、缺乏柔性等物理缺陷。

在底層工程設(shè)計(jì)上，莫一林也做了一些權(quán)衡。

以力覺感知為例，業(yè)內(nèi)為了獲得精準(zhǔn)的力反饋，通常會(huì)給每個(gè)關(guān)節(jié)配備昂貴的諧波減速器和六維力傳感器。而靈御智能只選用了低減速比的行星減速器，轉(zhuǎn)而通過監(jiān)測電機(jī)自身的電流變化來估算受力情況。莫一林坦言，電流反饋的絕對物理精度確實(shí)比不上專屬傳感器，但這可以通過軟件算法來進(jìn)行補(bǔ)償。

配合500赫茲的控制頻率，系統(tǒng)每兩毫秒即可獲取一次關(guān)節(jié)受力數(shù)據(jù)，使機(jī)械臂能夠?qū)崟r(shí)動(dòng)態(tài)調(diào)整自身的剛度：遇硬則柔，遇軟則剛。加上高精度的標(biāo)定與全局逆解算法，這套平價(jià)的硬件組合最終實(shí)現(xiàn)了全柔性力控下的跨本體高空間絕對定位精度。

TeleAvatar，圖片來源：靈御智能

在金戈看來，底層控制能力的缺失，是目前許多具身智能機(jī)器人的短板。他將控制系統(tǒng)比作人體的神經(jīng)傳導(dǎo)網(wǎng)絡(luò)。如果控制層不過關(guān)，即便AI大模型再聰明，機(jī)器人也會(huì)因?yàn)椤笆直俊倍鵁o法完成精細(xì)的物理操作。

控制層之所以在今天變得更為重要，因?yàn)橛跈C(jī)器人作業(yè)環(huán)境的改變。過去的傳統(tǒng)工業(yè)機(jī)械臂大多處于開環(huán)控制，只需在封閉的產(chǎn)線上死板地執(zhí)行預(yù)設(shè)代碼；而如今的具身機(jī)器人被直接放進(jìn)了未知的開放環(huán)境中，它必須像人類一樣，通過視覺和觸覺實(shí)時(shí)感知，并在不斷的反饋閉環(huán)中高頻修正自己的動(dòng)作。

基于這種判斷，靈御智能劃定了自己的業(yè)務(wù)邊界：做機(jī)器人和數(shù)據(jù)的提供方。

“我們的核心優(yōu)勢在于能把成本做得非常低，同時(shí)通過算法把機(jī)器人的性能做到最好。我們可以跟諸多具身大腦公司合作，為他們提供機(jī)器人和數(shù)據(jù)。”莫一林用英偉達(dá)做類比，“英偉達(dá)為大家提供算力，但不會(huì)下場做大模型，因?yàn)樽隽舜竽Ｐ椭驡PU怎么賣給別人呢？應(yīng)該讓大家都加入到一個(gè)良好的生態(tài)里，我們?yōu)榇蠹姨峁┝己玫姆?wù)和平臺(tái)”。

雖然靈御智能2025年才入局具身智能，但他們認(rèn)為這條賽道中的“先發(fā)優(yōu)勢”十分微弱。

莫一林打了一個(gè)比方，如果機(jī)器人需要的數(shù)據(jù)量在百億到千億小時(shí)級(jí)，那今天所有人都處于馬拉松剛剛出發(fā)的狀態(tài)，“可能先行者跑了25米，我們才剛開始跑，但對于一場馬拉松而言，這種差距并沒有早晚之分。真正決勝負(fù)的長跑可能還遠(yuǎn)遠(yuǎn)在后面。”

（封面圖來源：靈御智能）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.