![]()
未來2-3年,將是一個比拼速度和硬實力的關鍵窗口期。
本文為IPO早知道原創(chuàng)
作者|蘇打
“與自動駕駛相比,具身智能的技術路徑更清晰、商業(yè)化落地更早,且產業(yè)鏈相對比較成熟。這令我們對具身智能的發(fā)展前景非常樂觀。”
伴隨具身智能的熱潮將數據供給推向“深水區(qū)”,近日,弈人科技宣布完成PreA+輪及PreA++輪連續(xù)兩輪億元級融資,投資方分別為國方創(chuàng)投管理的上海市數鏈基金以及成都交子資本管理的自貢市人工智能基金,成為上海首家具身智能數據類的獨角獸企業(yè)。
天眼查APP顯示,弈人(上海)科技有限公司2019年與2025年曾相繼獲得來自變量資本的天使輪和來自上海的浦東資本、國家交通部旗下的交信基金Pre- A輪融資。
憑借在自動駕駛領域多年的技術沉淀與數據積累,公司在國內率先完成AI數據正向盈利,2025年AI數據業(yè)務收入過億,打破了行業(yè)內AI數據領域“高投入、難盈利”的普遍困境,構建起可持續(xù)、可復制的盈利模式。
連續(xù)完成兩輪億級融資之際,IPO早知道近期對話弈人科技創(chuàng)始人馬成輝,就物理AI數據的應用現狀、采集難點、交付挑戰(zhàn)以及發(fā)展前景等進行詳細交流。
基于與客戶的扎實、深度協同,馬成輝為觀察當下物理AI數據供給提供了幾個特別的角度。
盡管仿真數據熱度飆升,但馬成輝認為,未來很長一段時間內,真實數據將仍是具身智能產業(yè)的“主角”,“如同自動駕駛階段,真實數據量不足時可能會考慮仿真數據;但當真實數據量足夠大采集足夠容易的時候,需求便又回到真實數據”。
同時,在高質量數據的定義中,如何發(fā)現、采集并迅速工程化處理那些邊緣場景中的“失敗數據”,對于模型的訓練和進化可能更為重要。而這一點仿真數據很難做到。
其中,數據的“工程處理能力”是一個隱形天花板,關系到大量數據是否能夠高效穩(wěn)定、低成本地被處理,并讓客戶高效地使用。過去幾年,弈人科技已將自動駕駛領域的數據采集工具鏈、數據工程體系平移至具身智能場景,實現快速切入。
目前,弈人科技的海外總部已在籌劃中,公司也同步在進行合規(guī)梳理,“今年和明年會是海外市場的一個爆發(fā)期,因為客戶的需求已經積累到一個非常大的量級。比起價格,海外客戶更注重數據質量和規(guī)模,所以我們將聚焦高質量交付,而非性價比。”
馬成輝坦言,未來,弈人科技希望能夠成為物理AI領域的“標桿企業(yè)”。而接下來的2-3年,將是一個比拼速度和硬實力的關鍵窗口期。
以下為IPO早知道與馬成輝的問答精選呈現:
關注高質量數據中「失敗的數據」
IPO早知道:你們是何時開始動身從自動駕駛切入具身智能領域的?
馬成輝:大約在2024年底,我們一些自動駕駛的客戶慢慢開始向具身智能轉型。從那時開始,我們就在和一些頭部客戶進行相關的技術嘗試。
兩者技術底層相通,“感知-決策-執(zhí)行”的邏輯一致,且業(yè)內一直有個共識,自動駕駛是具身智能的上半場,機器人是下半場。
在自動駕駛場景中,我們是把車當成一個移動感知器,感知道路上的信息;而具身場景中,機器人就是一個移動的智能體,需要感知封閉或者半封閉場景里的一些數據。
IPO早知道:在真實數據和合成數據方面你們是如何思考和布局的?
馬成輝:目前行業(yè)對仿真數據的討論熱度的確比較高,但實際上在給客戶交付的過程中我們發(fā)現,無論國內還是國際,大部分具身智能的模型公司現在的需求仍以真實數據為主。比如我們在接觸的頭部公司訂單中,有95%以上的數據采購都是真實數據。
關于真實數據和合成數據的路線,目前大家已經形成了一些共識。首先,仿真數據能達到較高質量的前提是模型要足夠好,而模型足夠好的前提,又要回歸高質量的真實場景數據訓練。所以從第一性原理講,如何獲得高質量的真實數據才是原點。
其次,由于目前真實數據的體量不夠大,一些仿真數據進來后可能會對模型產生較大影響,所以大多數公司在使用仿真數據的態(tài)度上也會比較謹慎,更多以測試為主,真正在落地場景上的訓練用得反而不多。
從我們客戶的反饋看,從去年開始,部分客戶的要求已經不僅是數據量大,更要求數據質量高。
這其中,失敗的數據也是高質量數據的一部分,而這一點在仿真數據中很難實現。以我們自動駕駛的經驗看,初期真實數據量不夠、采集相對困難的時候,大家會探討用仿真數據補充,但當真實數據采集足夠簡單時,需求又回到了真實場景數據為主。
所以我們判斷,未來很長一段時間內,具身智能產業(yè)可能仍舊會以真實數據為主,仿真數據為輔。
IPO早知道:剛才提到“失敗的數據”,能否詳細解釋一下?
馬成輝:比如物流機器人在分揀時,一個動作成功了,這是非常有價值的數據。但如果它拿一個塑料袋時失敗了,這種數據對于具身智能公司也很重要。
目前在真實物理世界中執(zhí)行任務時,機器人的成功率不可能達到100%,所以公司就需要分析失敗的原因,然后去尋找解決方案。
另外,如何在失敗場景下,讓機器人迅速調整狀態(tài)繼續(xù)有效工作,也是讓具身智能真正走進物理世界的一個重要卡點。具身智能發(fā)展到今天,失敗的數據和成功的數據同樣有價值。
IPO早知道:具身智能的數據采集方面,各類模態(tài)的數據占比會有差別嗎?
馬成輝:我們覺得具身最終還是在和真實物理世界交流,未來的終極形態(tài)上,機器人的感知會非常重要,不單是視覺,觸覺,甚至包括溫度、聽覺等。但本質上這是一個由場景驅動的、逐步完善的過程。我們也在不斷完善數據的維度。
數據處理的「工程能力」拉高競爭上限
IPO早知道:你們的星漢時空的模型幾年前就已經發(fā)布,與目前大部分模型相比,它有哪些獨特優(yōu)勢?
馬成輝:首先有一點我們非常自豪,作為一個民營企業(yè),星漢時空模型獲得了上海市科技進步一等獎,并躋身國家大模型潛力Top50,等等這些獎項是學術界和產業(yè)界我們模型能力的認可。
星漢時空模型是我們自主研發(fā)的數據編輯器與認知引擎,其中有三大壁壘。一是自動化數據編譯,能自動完成多模態(tài)數據(點云、軌跡、視頻等)的時空對齊與語義抽取,大幅降低人工標注依賴;
二是通用時空先驗知識。基于我們海量真實數據沉淀的運動與環(huán)境規(guī)律,它可以對物體如何運動、環(huán)境如何變化等相關知識進行先行驗證。這一能力也讓我們實現了幾乎零成本從自動駕駛到具身智能場景的遷移。它像一個小腦,可以降低我們客戶在新場景下的訓練門檻;
三是,正向數據飛輪。我們用真實數據持續(xù)優(yōu)化模型,模型提升又反哺更高質量數據采集,形成閉環(huán)。
IPO早知道:目前模型層技術仍未收斂,該模型的領先是否有“保質期”?
馬成輝:過去幾年,我們持續(xù)積累起百億級的真實場景數據,這是同質化公司難以復制的壁壘。通過“場景驅動數據、數據驅動模型”的長期投入,我們形成了顯著的先發(fā)優(yōu)勢,預計其他公司短期內難以追平。
綜合來看,對真實場景的理解與高質量數據采集能力,疊加強大的數據工程能力,是我們繼續(xù)保持領先的核心要素。未來,我們會繼續(xù)加深這些優(yōu)勢壁壘,服務好自己的模型以及客戶。
IPO早知道:數據工程能力在其中扮演一個什么角色?
馬成輝:在構建高質量數據的過程中,數據的工程能力和數據的規(guī)模、豐富度同樣重要。如何大量數據采集,并高效穩(wěn)定、低成本地處理好,并讓客戶高效地使用,非常考驗工程能力。
過去幾年,我們通過在自動駕駛場景中采集的數據搭建起了自身數據工程的閉環(huán),這也是我們能夠迅速切換到具身智能場景的原因之一。
IPO早知道:就目前弈人科技已覆蓋的場景看,哪些是具備更高潛力的“高價值”場景?
馬成輝:在通用場景中,機器人進入家庭可能還有點遠,但走進一些真實工業(yè)場景的速度會非常快。
目前,我們已經跟隨客戶,覆蓋了倉儲物流分揀、智能制造和零售等場景,這些場景都有極大潛力讓機器人快速實現商業(yè)化。所以我們也正在跟一些模型本體公司一起深入挖掘相關場景數據。
IPO早知道:這些場景的數據采集難度高嗎?
馬成輝:還是有門檻的,第一步就是如何走到真實場景中去。幾年前,國內大部分還是數采工廠的模式,但已經明顯不能支撐模型的訓練了。
第二,真實場景中,人一天工作大約8小時,如何在8小時里有效地采集到有價值的數據并提取出來,也是一件非常有挑戰(zhàn)的事。相較于那些標準的、通用的動作,如何發(fā)現真實場景中有價值的數據,快速提取然后回傳并實現工程化,其中需要一整套完整的數據工程方案。
這也是我們的一個核心壁壘所在。早在自動駕駛階段,我們就已經形成了這套完善的工具鏈,目前已經成功平移到具身智能場景中。
其中對于數據和產業(yè)的理解非常重要。今天我們都知道模型需要大量數據,但具體需要什么樣的數據,仍舊是一個挑戰(zhàn)。比如智駕場景中,正常行駛的數據對于模型訓練已經價值不大了,真正有價值的是那些邊緣場景中的數據。而如何將這些邊緣數據快速完成閉環(huán),以標準化的方式回流到模型中,這些能力愈發(fā)重要。
具身智能Q1訂單收入破億,接近去年全年營收
IPO早知道:2025年公司總營收約多少,和同行相比如何?
馬成輝:2025年公司AI數據總營收過億元,并率先完成了正向盈利,是國內AI數據企業(yè)的絕對頭部。當然這里面我們沒有算勞動密集型的數據標注企業(yè),在去年年底我們公司只有30多個人,90%都是技術研發(fā)人員,我們內部一直有個說法就是“用AI來處理數據”。
IPO早知道:從整體營收看,目前自動駕駛和具身智能板塊的占比和增速分別是什么狀態(tài)?
馬成輝:去年,AI數據的整體收入已經過億,其中自動駕駛板塊收入占比超60%。但今年一季度,我們接到的具身智能相關訂單就已經突破了1億元,占比突破一半,已反超自動駕駛,成為增長主力。
IPO早知道:也就是說,今年Q1訂單量對應的營收已經基本接近去年全年的營收水平。
馬成輝:是的。接下來對我們比較大的挑戰(zhàn)就是要高效地、高質量完成交付。
IPO早知道:預計具身智能板塊未來幾年的增速如何?
馬成輝:會非常快。過去幾年,我們的AI數據業(yè)務年復合增長率已經是倍數增長。像去年年底我們具身數據收入還不多,但是今年一季度已經過億,預計這兩年更會出現一個爆發(fā)性的增長,很令人期待。
IPO早知道:目前已有的客戶畫像大約是怎樣的?
馬成輝:基本分成幾大類。第一類是國內科技巨頭,比如阿里、百度、騰訊、字節(jié)等科技巨頭;第二類是一些國內頂尖的自動駕駛公司和主機廠。第三類就是具身智能領域,目前國內一些頭部的物理AI公司都已經與我們有了一些合作。
IPO早知道:頭部客戶的購買粘性如何?
馬成輝:整體而言,科技巨頭客戶的延續(xù)性和復購率都比較好,我們很自豪的說頭部客戶的復購率幾乎是100%,客戶的訂單是對公司的技術,產品及交付能力最好的證明。
IPO早知道:目前在交付方面還有哪些挑戰(zhàn)?
馬成輝:針對科技巨頭和自動駕駛客戶,我們已經實現規(guī)模化、自動化交付;但在具身智能領域,因數據標準尚未統(tǒng)一,仍需按項目定制交付。
目前我們也在聯合頭部客戶推動行業(yè)標準建設,以期大幅度降低數據成本,減輕數據工程化壓力。
IPO早知道:在面對客戶時,是否有一些比較典型案例能夠作證你們的交付能力?
馬成輝:早期我們曾經合作過國內一個特別頭部的企業(yè),彼時只有一個十幾萬的poc訂單。合作幾年下來最近最新訂單金額增至2000萬元。今天的環(huán)境下,拿到真實的客戶的訂單,可能要比寫幾頁PPT,做個產品發(fā)布會更有說服力。
這背后體現了我們幾大核心能力,包括產品與技術的可靠性、項目交付能力、商業(yè)閉環(huán)思維以及客戶共研能力。我們會深入客戶業(yè)務場景,與客戶共同定義數據標準與采集目標,成為其AI研發(fā)的“合作伙伴”而非“供應商”。
「數據、場景、工程化能力」是最大壁壘
IPO早知道:此次獲得的兩輪融資是如何規(guī)劃使用的?
馬成輝:本質上,我們是一家技術驅動型的公司,在融資的規(guī)劃使用上,約60%將用于研發(fā)投入,約20%將用于引進人才。另外20%我們會和國內的一些頭部的高校和場景方,共建數據閉環(huán)實驗室,從場景中采集更多、更高質量的數據。
IPO早知道:目前研發(fā)投入情況如何?
馬成輝:2025年,公司研發(fā)投入占營收比超過50%。2026年,隨著具身業(yè)務板塊的加速落地,研發(fā)投入占比預計將進一步提升。現階段研發(fā)投入主要圍繞“物理AI數據”這一核心方向展開,重點聚焦三大領域。
一是具身數據基礎設施與工程能力建設,包括采購多種類型的數采設備,搭建規(guī)模化、標準化的數據采集與測試平臺;二是關鍵人才梯隊擴張。重點引進具身智能、仿真與真實數據對齊、自動駕駛場景理解等方向的高端研發(fā)人才,強化算法與工程團隊的協同能力。
三是垂直場景數據源拓展。面向具身、自動駕駛等核心行業(yè),深入挖掘長尾場景、邊緣案例及高價值真實場景數據,豐富數據資產的規(guī)模與多樣性,形成更強的場景壁壘。
IPO早知道:目前公司已經在國內率先實現了“AI數據的正向盈利”,這是一個什么概念?
馬成輝:截至目前,我們已連續(xù)三年保持凈利潤為正。公司的核心目標是不斷完成并驗證商業(yè)閉環(huán),而非融資后燒錢做沒有回報的事,也不會過度投入市場宣傳。
所以面對目前的融資熱潮,我們認為還是要找到商業(yè)閉環(huán)這個根本所在。弈人科技只專注于AI數據,市面上一些邊緣的業(yè)務比如賣服務器等,這種訂單我們是不接的,專心把核心業(yè)務做好。
IPO早知道:在這個前提下,你們對接下來的融資節(jié)奏是如何考慮的?
馬成輝:完成這兩輪融資后,下半年我們更多會找一些資源方和場景方,進行場景的深挖和耕耘。這些助力對我們而言可能遠要比獲得資金更重要。
IPO早知道:能否具體講講“可持續(xù)可復制”是怎樣一個盈利模式?
馬成輝:本質上,這種盈利既能長期穩(wěn)定(不依賴短期補貼或單一客戶),又能在不同場景或市場中復制推廣(例如標準化產品、模塊化服務)。如今,數據資產要比實際資產更好,因為可以發(fā)揮乘數效應,可以服務更多客戶。而前幾年,那種A公司只能買A公司本體數據的服務,并沒有發(fā)揮出數據的真實價值。
所以在具身場景中,我們一直在走技術路線,通過模型泛化能力,探索“一份數據給到更多廠商使用”的路徑,這也是我們一個很重要的業(yè)務突破。
此外,我們更加關注具身Ego數據采集及應用,即第一人稱的視覺數據采集,同時進行這類數據的泛化,提供給不同的客戶。
IPO早知道:如果總結目前為止弈人科技的商業(yè)護城河,大概有哪些關鍵詞?
馬成輝數據、場景和工程化三位一體,這是我們最大的壁壘,也是我們在給客戶進行真實交付的過程中,逐漸沉淀下來的能力。
比如工程化層面,怎么把數據處理成客戶直接可用的格式,怎么配合客戶的算法接口或訓練流程,怎么解決交付過程中各種現實問題(比如數據格式兼容、標注規(guī)范、傳輸效率等),也是一項關鍵的know-how能力。
出海將聚焦高質量交付,而非「性價比」
IPO早知道:面對當下的出海熱潮,弈人科技是否有一些相應的行動和規(guī)劃?
馬成輝:出海是我們一個很重要的戰(zhàn)略方向,從去年下半年公司就已經開始布局,目前也正在構建海外運營總部。
另外,我們現在也在跟一些國際頭部物理AI公司進行項目試點。預計今年和明年海外市場會達到爆發(fā)期因為海外客戶的潛在需求已經逐漸積累到了一個巨大的量級。
IPO早知道:數據出境面臨的挑戰(zhàn)可能更多,你們會如何應對?
馬成輝:一方面,海外需求量非常大,特別歐美國家,因為數據采集成本很高,而且場景不夠豐富,數據能力跟不上模型發(fā)展,所以就需要大量采集。目前他們主要采用東南亞、印度的數據,如果中國能夠加入,前景會非常好。
另一方面,數據出海最重要的就是合規(guī)。我們也在跟國內相關政府(如上海臨港)及海外相關監(jiān)管機構溝通法規(guī)落地路徑。如果法律法規(guī)層面有明確的落地方案,數據出海的市場空間將非常大。
IPO早知道:海外客戶的需求更多是數據還是采集的能力?
馬成輝:大部分客戶會希望我們把采集的高質量數據進行工程化處理之后直接交付給他們。中國的工業(yè)場景豐富度全球領先,這些數據對海外客戶的模型訓練非常有價值。
IPO早知道:面對海外市場,你們會更希望打“性價比”的標簽嗎?
馬成輝:實際上,海外客戶尤其是一些頭部客戶,在數據購買方面的對價格并不太敏感,反而更關注交付的數據規(guī)模和質量。所以在策略上,我們也會更多聚焦高質量數據的交付,而不是強調性價比。
IPO早知道:如果要出海,會優(yōu)先考慮哪些國家和地區(qū)?
馬成輝:首先會是歐美,同時我們也在積極接觸一些日韓和東南亞客戶,其中有很多場景落地的需求。
未來2-3年是關鍵期,期待成為「中國首家物理AI數據領域上市企業(yè)」
IPO早知道:成立以來,弈人科技也曾經歷過自動駕駛的繁榮期。與當時相比,當下的具身智能熱潮有哪些不同之處?
馬成輝:與自動駕駛相比,我們對具身智能有這樣幾個感觸和觀察。
首先,具身智能的技術路徑更清晰。在自動駕駛早期,核心技術都不太成熟,很多公司更多是在賭不同的技術路線;而具身領域的VLA、世界模型等主流路徑已趨于共識。
所以無論產業(yè)方還是投資方都會形成共識。現在大家更多拼的是誰速度更快、誰場景會更多。
其次,商業(yè)化的落地更早。自動駕駛階段很多公司燒了很多年錢,一直沒有盈利,但具身智能領域目前一些跟場景關聯度比較高的公司已經開始完成了商業(yè)閉環(huán),并實現了盈利。我們就是其中之一。
而且整個氛圍上,大家在具身領域也會更關心場景落地和商業(yè)化,這是和自動駕駛時代的另一個很大區(qū)別。
第三,產業(yè)鏈相對比較成熟。比如我們這類數據公司,可以將沉淀的經驗和技術進行平移和復用,還有一些傳感器、硬件等公司,能力也可復用加速。這讓我們對具身的發(fā)展前景非常樂觀。
IPO早知道:就目前的進展看,物理AI數據領域是否也有自己的“窗口期”?
馬成輝:目前是一個向商業(yè)化過渡的關鍵階段。我們預計未來1-2年是一個關鍵期,慢慢會形成馬太效應,客戶優(yōu)勢、資本技術可能會逐漸集中。所以如何在未來2-3年快速跑出來會非常重要。
IPO早知道:作為經歷過一個周期的創(chuàng)業(yè)公司,弈人科技目前是否有對標的公司?
馬成輝:如果一定要對標,我們可能會更傾向于Scale AI,主要做AI數據的基礎設施。但在路徑上,相較于Scale AI被并購,我們則希望走獨立的資本化市場路線。
從產業(yè)機會和公司發(fā)展看,我們希望能成為中國首家物理AI數據領域的上市企業(yè),成為物理AI時代的一個標桿企業(yè),目前看來機會很大。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.