![]()
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
似乎一夜之間,具身智能賽道里冒出了數十家數據采集設備商。熱鬧是真的熱鬧,甚至讓人想起當年智能手機產業剛剛起勢時,一群嗅覺靈敏、玩家蜂擁而入掀起的山寨潮。
但數采這件事,不是一個“趕風口”的輕松生意。表面上看,大家都在賣設備;更深一層看,行業真正爭奪的并不是一副夾爪、一套手套,甚至不是某一種采集形態本身,而是面向模型、本體落地的數據生產能力:誰能把數據采得更全,誰能讓采集更經濟,誰能真正進入真實場景,沉淀那些過去難以被量化、也最難被替代的操作經驗,才是數采潮清洗出來的主線。
這些能力,不是單一硬件能解決的,既需要硬件能力,也需要行業 know-how,更需要對“模型如何走向真實落地”這件事的系統判斷。
也正因此,數采不是做減法,而是做加法。這也是里工正在做的事情。
近日,擁有 40 年精密加工制造經驗的、全棧式的具身智能本體解決方案商里工(LiGong)發布了 ChiroSync 如意數采套件,一種 Egocentric 多模態數據采集與機器人遙操示教一體化平臺。
![]()
如果只把它理解成一款新上市的采集 Ego 數據的設備,顯然是低估了這家公司真正想表達的東西。在與具身研習社的對話中,里工 CEO 李衛銃反復強調,里工做的不是一門“賣設備”的生意,而是在嘗試回答一個更底層的問題:當具身智能走到今天,行業究竟還缺什么樣的數據,又該用什么方式,把這些數據更高質量、更低門檻地生產出來。
里工在思考的加法是,能不能把數采這件事做得更高維,但也更無感;能不能不只服務實驗室里的演示,而是走進精密制造、生命科學等真實作業現場,去采那些崗位上的真正稀缺、也真正決定具身智能落地上限的“真人”的數據。這些也正是李衛銃堅信的“以人為本”的數采套件一定要做的。
![]()
這兩年,具身智能行業在數據采集上形成了一種相當鮮明的傾向:大家都在追求更輕、更快、更便宜的采集方式。無論是真機遙操,還是 UMI、第一人稱視角、夾爪式采集,本質上都在努力回答同一個問題——怎樣用更低的門檻,快速把數據量堆起來。
這個方向當然沒有問題,但問題在于,當行業越來越追求“采得快”時,另一件事反而常常被忽略:采得全面、采得好。
李衛銃的判斷很明確,很多當下流行的采集方法,本質上都在“丟維度”。比如兩指夾爪類工具,它們或許能解決相當多基礎任務,但很難擬合出五個手指各自的關節狀態、角度乃至觸感;而第一人稱視角雖然經濟,卻并不總是決定作業本身的關鍵變量。在很多真實作業里,人的眼睛并不直接看著手,手卻仍在完成操作,視覺只是輔助,真正決定精細動作的,常常是某種由觸摸中習得的“手感”。
按照李衛銃的說法,在工業場景乃至整個人類作業場景中,手指、手腕貢獻的勞動成果占比極高,可能超過 70%。但如果數據采集從一開始就把最重要的末端細節舍棄掉,那么模型學到的能力天然就是“壓縮版”的、低維度的,之后再想往更精細、更復雜的操作場景里走,難度只會更大。
![]()
圖源:里工
這也是里工為什么要從“全模態+五指”切入。里工推出的如意數采套件 ChiroSync 可實現視覺、觸覺、音頻、關節角度、空間位姿五大維度數據的毫秒級同步采集,其中,觸覺尤為關鍵。這套設備的觸覺精度最高可達 0.01N,完整還原肌肉記憶中的細微力度變化,補上了具身智能模型訓練長期缺失的關鍵維度。
![]()
圖源:里工
過去在精密制造里,人們常說老師傅“摸一下”就知道零件合不合格。這種能力來自大量重復練習形成的肌肉記憶,也來自人手對觸感的極細膩感知。但這樣的經驗長期以來都難以被量化,更談不上標準化輸入模型。對機器人而言,若要真正獲得這類能力,觸感就不能再停留在“可有可無”的附加項,而必須成為被采集、被標注、被訓練的一部分。因為只有當它被量化為可評分、可學習的信號時,機器人才有機會真正進入那些對精度和穩定性要求極高的作業環節。
![]()
圖源:里工
進一步看,“五指”本身也不只是一個硬件選型問題,而是一個帶有終局意味的數據構型問題。過去行業里常有一種說法:現階段機器人落地,二指已經能覆蓋七八成任務,既然兩指模型都還沒有完全跑通,為什么要急著上五指?李衛銃的回答并不復雜:因為五指數據可以降維到兩指、三指使用,但反過來,兩指數據卻很難自然地升維到五指。也就是說,五指并不只是為“更遠的未來”準備,它同樣能服務于當下的階段性落地,只不過它選擇的是一種更高維、更有余量的起點。
因此,里工所說的“升維”,并不是沒必要的炫技,也不是和行業主流唱反調。恰恰相反,它是在行業普遍追求規模化、經濟性的背景下,重新把那個更本質的問題提了出來:模型最終要進入的,一定不是實驗室里的演示環境,而是充滿細節、誤差、手感和經驗密度的真實世界。倘若數據本身不具備足夠維度,模型的天花板很可能從一開始就被寫死了。
![]()
如果說“升維”回答的是數據該采成什么樣,那么“無阻”回答的則是,數據到底該怎么被更大規模地生產出來。
過去兩年,以真機為代表的中心化數據采集模式,的確支撐了具身智能的早期發展。各地建立本體數采中心,購買機器人、搭建場景、雇傭操作員,圍繞訓練構建一整套高成本基礎設施,這曾經是行業的主流路徑之一。但隨著行業繼續往前走,這種模式的弊端也越來越明顯:運營成本高、擴展速度慢、數據獲取效率低,而且最重要的是,它很難真正實現跨場景、跨本體的泛化。
李衛銃對此的概括很直接:“真機數據屬于 0 到 1,但 1 到 99,不能再沿用這條路線”。因為真機數據固然重要,卻很難承擔“規模化喂養模型”的全部任務。不同本體之間存在結構差異,軀干、臂展、自由度都不相同,真機數據天然存在遷移障礙;而具身模型真正想要的,又不是某一臺機器人的有限經驗,而是更廣泛、更豐富、更貼近人類社會真實操作的知識來源。
![]()
圖源:里工
在這個意義上,分布式數采之所以成為新的重點,不只是因為它能提高效率,更因為它可能把數據生產這件事,從實驗室和訓練中心里“釋放”出來。
里工所強調的,就是一種更進一步的分布式:不是簡單換個地方采,而是盡可能讓采集本身變得無感、無阻,嵌入真實作業流程,而不是額外創造一套新的流程。
這也是里工與不少同行在方法論上的差異。按照李衛銃的說法,很多去中心化方案的背后,仍然默認了一種邏輯:找一批人,學會一套新工具,再完成采集任務。這樣看似分布式了,但本質上還是把數采變成了一種新增的人力工作,甚至走向“廉價人力堆規模”的路徑。里工并不認同這種模式。它更希望把套件交給那些原本就在產線、實驗室、真實崗位上工作的人,讓他們在不增加學習成本、不改變原有作業習慣的前提下,自然地留下數據。因為真正有價值的數據,往往不來自某種刻意、額外的生產,而來自日常經驗的“留痕”。
![]()
圖源:里工
這背后其實是一個很重要的認知轉向:數采不該只是一個技術動作,它還應該是一種對技能沉淀方式的再設計。那些熟練工人、實驗人員、精細操作崗位上的工作人員,他們本身就在持續輸出行業里最難復制的經驗。如果采集工具足夠輕便、足夠便宜、足夠不侵入,那么這些經驗就有機會在不打斷作業的情況下,被自然記錄下來。數據采集也就不再是一個額外負擔,而是融入真實生產過程的一部分。
所以,里工發布的數采套件可以稱得上真正的分布式數據采集工具,它的核心表征就是“無阻無感”。
![]()
圖源:里工
當然回到最關心的經濟性問題上來,它強調的也不只是設備價格低,而是進入門檻低、部署門檻低、使用門檻低。李衛銃提到,市面上一些 UMI 夾爪工具價格已在 9 萬到 12 萬元不等,而里工如意數采套件采用五指原生的高精度力覺數據捕捉方式,其市場定價卻僅約一半。這是因為,里工并不把高毛利硬件本身作為核心目標,它更關心的是如何用極致性價比,把工具鋪到更多場景里,把數據真正采上來,再通過后續的數據整理、標注、清洗和與模型對接,形成完整的數據生產能力。
也正因如此,里工把“套件”而不是“硬件”作為自己的表達。它不僅提供采集端,也提供云平臺與后續處理服務,既可以對接公有云,也可以進入私有云,為客戶完成數據整理、清洗和模型對接。這意味著,很多工業客戶并不需要自己從零理解“數據怎么變成模型燃料”,他們只要把最擅長的作業做好,就可以把專業知識沉淀成結構化的數據資產。對行業來說,這是一種比單純賣設備更深的補位。
![]()
今天談數據,已經很難不談“熱”。
從新一批創業的熱情到大額的融資、暴漲的估值,具身賽道正在把“數據”重新推成一個高頻詞。李衛銃對此的判斷也很直接:“2026 年,是數據生產能力被重新定價的一年。而那些做數據處理、數據生產的企業之所以估值上升得快,本質上也說明市場仍處于供不應求狀態。說得更直白一點,大家都知道這件事重要,但真正能把它做好、做深、做成壁壘的公司,其實還不多”。
數據賽道雖然擁擠,但擁擠并不等于稀缺被解決。
當前具身數據行業正處在一個很有意思的節點上。一方面,模型訓練確實存在大量數據缺口,企業都在試圖擺脫真機數據難遷移、難擴展的問題,尋找更普適、更低成本、可以快速做大規模的數據形態;另一方面,行業也越來越意識到,模型通往通用的路并不會一蹴而就,尤其在真正落地前,很多場景里更缺的不是“更多差不多的數據”,而是某些真正貼近現實任務、能夠滿足特定落地需求的垂直數據。
這恰恰是里工下場的理由。它當然承認數據規模的重要性,也承認多模態、多樣性會提升模型能力。但李衛銃認為“與其去爭奪那些更容易獲取、更容易想象、護城河也更低的生活場景數據,不如扎進自己真正熟悉、真正有產業資源積累的垂直場景里,去做別人不那么容易做、也更難替代的數據”。
![]()
圖源:里工
李衛銃給出的兩個核心場景非常明確:精密制造,以及生命科學、化學實驗相關場景。這類場景中包含了諸如依賴工匠式的觸感、精細裝配和亞毫米級操作經驗,涉及了滴定槍、多孔板等典型五指精細作業,這些都不是結構簡單、模態單一的數采設備所能覆蓋的任務。
換句話說,里工想做的,不是“最多的數據”(這是在普遍大規模數據放量階段反共識動作),而是“真正缺的數據”。不是在最容易獲得的地方繼續內卷,而是在行業最不容易獲得的地方補位。這樣的數據,既是里工自身的壁壘,也是具身行業真正走向落地所需要的稀缺資源。
從這個角度回看里工堅持的“全模態+五指”,以及它對去中心化、無感采集、低成本進入的強調,就會發現這并不是幾項分散的產品特性,而是一套獨特的認知論:在需求側,行業需要更大規模、更高質量、可服務模型與本體泛化的數據;在供給側,真正有價值的,不是抽象意義上的“任何數據”,而是那些植根于真實行業、真實崗位、真實技能流動中的稀缺數據。里工的價值,正落在這兩者的交匯處。
總之,真正決定一家數采企業能走多遠的,最終恐怕不是它賣出了多少套設備,而是它有沒有能力把那些原本散落在真實世界里的“隱性經驗”,轉化為可沉淀、可遷移、可訓練的數據資產。具身智能走到今天,數據行業競爭的表層看起來像是在比拼硬件形態、采集效率與成本曲線,但更深層的分野,已經轉向誰能更早進入那些高門檻、高經驗密度的真實場景,誰能把人類長期積累卻難以言傳的操作能力,第一次系統性地翻譯成機器可以學習的語言。
從這個意義上說,當前數采的價值更像是在重建一套新的行業知識提取機制,誰掌握了這種機制,誰就更有可能在下一階段的具身競爭中,占據真正靠近產業腹地的位置。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.