无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

主持了靈初智能的發布會,00后聯創源培讓我很佩服

0
分享至


前兩天主持了靈初智能的發布會,印象特別深。

那天晚上在北京,發布會形式挺新穎的,靈初智能的聯合創始人陳源培,跟我坐在一塊兒,邊聊邊發布。

有點像平時在直播間里聊技術那樣,有什么問題當場就問,有什么干貨當場就展示。


源培就坐我右手邊。

源培是00后,比我還小一點,在北大師從楊耀東,在斯坦福跟著李飛飛做過世界模型研究,現在已經是具身圈年輕一代里的代表人物了。

現場我問了不少有點尖銳的問題:

為什么必須要人類數據,機器數據不是更主流?是不是為了標新立異?

機器人操作失敗的比例有多高?為什么有的場景沒覆蓋到?

說實話,最開始我對靈初智能和源培,是有些疑問的——李飛飛和那么多國內具身公司都沒做好的事,為什么你們可以?

但是這次直播發布,真的打消了我的疑惑。


發布的新一代具身智能大模型Psi-R2,在國際權威評測MolmoSpace中斬獲全球第一。

模型的背后,還有10萬小時的人類操作數據,其中1000小時開源。

這個量級放在整個行業里看,屬于獨一檔的存在。

下面我就把那天晚上聊的內容,和我自己的一些感受,好好復盤一下。

01具身智能被卡脖子的地方,其實不是算法

發布會一開始,我就把那個很多人都在問的問題直接拋給了源培:為什么偏偏具身智能會有數據荒?

源培的回答很干脆。大語言模型也好,自動駕駛也好,它們都站在了巨人的肩膀上。互聯網發展了這么多年,積累了海量的文本、圖像、視頻數據。

GPT們可以像喝自來水一樣直接從這些數據里汲取養分,靠算力的粗暴堆砌就能讓性能穩步提升。


但機器人不行。

物理世界太復雜了,復雜到沒有一個現成的數據集能覆蓋它。你沒辦法讓機器人在真實的工廠車間里邊干活邊攢數據,成本太高,效率太低,而且很多場景根本就不允許犯錯。

這是一個根本性的難題。沒有足夠的高質量數據,再精巧的模型架構都是空中樓閣。

行業內一直在嘗試各種解法。仿真數據是個方向,在虛擬環境里讓機器人反復練習,聽起來很美好。但仿真和真實世界之間永遠有一道鴻溝,一道被稱為Sim-to-Real的鴻溝。

在仿真里學得再好的模型,一到真實環境就水土不服,尤其在處理布料、液體這類柔性物體時,仿真器根本無能為力。


真機遙操作是另一個主流路線。

讓人遠程操控機器人做動作,把操作軌跡錄下來當訓練數據。但這個方案的缺陷也很明顯——貴。雇傭專人采集數據,成本居高不下,而且采集效率極低。

一個人一天能采多少有效數據?更何況,世界上所有的場景、所有的物體、所有的操作,你不可能都在數采場里復刻一遍。

靈初的選擇不太一樣。他們沒有在仿真和遙操這兩條路上死磕,而是把目光投向了另一個方向——直接從人類身上取經。

源培講這個的時候,我插了一句話。我說你這個思路聽起來很樸素啊。他笑了笑說,最樸素的路往往最有效。

人類每天都在真實環境里用雙手完成各種精細操作,這些數據天然帶著真實的任務節拍、真實的操作細節,天然貼近機器人未來要面對的工作世界。

如果能把人類在物流倉庫里的分揀動作、在工廠流水線上的裝配手法,變成機器人可以學習的養分,那數據問題就有了真正的解法。

但事情沒這么簡單。人類和機器人之間存在一個叫本體差異的天然障礙。

人手有二十多個自由度,關節的運動學結構、動力學的響應特性,都和機械手截然不同。

直接拿人類數據去訓練機器人,就像讓一個乒乓球運動員去教一個籃球運動員怎么投籃,動作邏輯完全不同。


更麻煩的是精度問題。

很多人類操作數據來自第一視角的視頻,軌跡恢復精度只有厘米級。對于手機裝配這類需要亞毫米級精度的任務,這種誤差會被迅速放大,根本沒法用。

我問源培,你們是怎么解決這個問題的,他講得尤其透。

02一副手套,撬動整個數據體系

靈初自己研發了一套叫Psi-SynEngine的數據采集方案。

核心是一副便攜式外骨骼觸覺手套。


這副手套不是普通的手套。

它能精確捕捉人手的21個關節自由度,覆蓋全手的觸覺信息,定位精度達到亞毫米級別。更重要的是,工人在日常作業中佩戴它,完全不影響正常操作。

手套會同步記錄頭戴視角和手部視角的視覺數據,同時采集觸覺、動作、語言等多模態信息。

這就意味著,靈初可以直接走進物流倉庫、工廠車間、商超收銀臺,讓一線的分揀員、裝配工、收銀員在日常工作中自然佩戴,在不改變任何既有作業流程的前提下,采集到最真實的人類操作數據。

成本是這個方案的殺手锏。

源培告訴我,通過手套采集數據的綜合成本,只有真機遙操方案的十分之一左右。

十分之一!我當時就在想,這個成本優勢如果真能跑通,靈初在數據采集這條線上就已經把很多競爭對手甩開了。

靈初采集的數據分為兩類。

一類是通過外骨骼手套采集的高精度數據,軌跡精度達到亞毫米級別,專門用于訓練精細操作能力;

另一類是裸手操作的泛化數據,精度沒那么高但規模更大,主要負責提供泛化能力,讓模型見過足夠多的任務和物體。

這里要特別提一下數據信噪比這個概念。源培在直播里花了不少時間講這個,我覺得這是整場發布會最有技術含量的部分之一。

靈初在大量實驗中發現,數據信噪比才是決定人類數據能否有效支撐預訓練的核心因素。

低信噪比的數據不僅沒用,甚至可能起反作用。

判斷數據信噪比,可以從兩方面看。

一是數據集分布。

操作任務的多樣性比物體的多樣性更重要,物體的多樣性又比場景的多樣性重要。泛化能力是模型最難學會的能力之一,預訓練階段見過越多不同的任務和操作對象,接手新任務的速度就越快。

二是感知模態。

精準的3D位姿追蹤比觸覺模態重要,觸覺模態又比2D圖像特征重要。

這個認知直接決定了靈初的數據采集策略。


他們既要高精度可復現的數據來保證模型的執行精度,也要低精度大范圍的泛化數據來擴展模型的適應能力。兩條腿走路,缺一不可。

最終構建起來的預訓練數據集,包含了5417小時的真機數據和95472小時的人類數據,覆蓋294種場景、4821類任務和1382種物體。

95472小時。將近10萬小時。這還不算完,源培說到了年底,他們計劃把這個數字擴展到百萬量級。

但數據只是故事的一半。靈初真正有意思的地方,是把這些數據喂給了一個什么樣的腦子。這部分是我個人最感興趣的。

03雙系統架構,一個學怎么做,一個學什么不能做

直播里源培講得最精彩的段落,就是靈初的雙系統架構。我在旁邊聽得直點頭,彈幕里也刷得飛起。

靈初發布了兩套模型:Psi-R2和Psi-W0。


Psi-R2是一個策略模型,核心功能是讓機器人學會怎么做事情。

圖像和語言指令作為輸入,輸出預測的未來操作視頻和可執行的機器人動作。靈初把它叫做世界行動模型。

訓練Psi-R2的時候,靈初做了一個相當大膽的決定——不走對齊路線。源培告訴我,他們嘗試過圖像修補、關鍵點輔助、特征空間對齊等各種方法,想把人類數據盡可能修成更像機器人數據的樣子。

但最后發現,數據量小的時候這些方法有幫助,數據量一旦上來,它們反而會變成瓶頸。

原因不復雜。

那些方法本質上都在努力模糊人和機器人的差異,但在長程、精細、接觸密集的任務里,這種差異恰恰不能被輕易抹平。

越是復雜和精細的任務,越需要承認兩種本體的差異,然后想辦法在更高的維度上建立映射,而不是強行抹平。

靈初的做法是化繁為簡:原生數據進,原生數據出。

舍棄人工設計的復雜數據處理流程,直接進行人類關節與機器人本體的運動學對齊,讓模型在海量數據中自行探索模式。

同時用自動標注替代人工進行數據質檢和標注,最后再交由人工審核把關。

這個思路聽起來簡單,但能做到需要兩個前提:數據量足夠大、數據質量足夠高。靈初恰好兩個都占了。


但Psi-R2有一個天然的局限。它學到的只有成功的操作。比如模型學會了成功抓起一個蘋果,但它沒有機會學到蘋果沒抓穩掉下去的情況。而失敗經驗恰恰是機器人成長的重要養分。

沒有失敗,就沒有優化,就沒有進步。

這就是Psi-W0存在的理由。Psi-W0是一個動作條件型世界模型。

它的輸入是機器人動作,輸出是對未來場景視頻的預測。更關鍵的是,靈初在Psi-W0的訓練數據里特意混入了大約30%的失敗樣本,涵蓋專項采集的失敗案例、常規操作中的失誤、以及推理過程中產生的錯誤。

有了Psi-W0,靈初就可以做一件事——反事實推理。

當Psi-R2學完一個人類操作動作之后,Psi-W0會模擬這個操作可能出現的各種后果,檢查有沒有學漏學歪,預測哪些動作可能會導致失敗。就像一個教練站在旁邊,在運動員完成動作之后說,你看,如果你剛才手腕的角度偏了兩度,球就不會進。

源培給我舉了個例子。

他說如果Psi-R2學會了抓起一個杯子,Psi-W0就會去預測:如果抓的位置偏了會怎么樣,如果力度不夠會怎么樣,如果桌面有傾斜會怎么樣。這些反事實的推演,讓機器人不用真的去犯錯,就能學到失敗的經驗。

Psi-W0還有一個核心功能,是通過強化學習將人類數據轉換為機器人數據。傳統方法中,數據轉換靠的是仿真環境調整,不僅復雜而且準確性不高。

但用Psi-W0替代后,它會模擬機器人視角和動作模式,再通過強化學習的試錯調優,將人類動作調整為機器人能精準執行的動作。

在這個過程中還能持續生成新的優質數據,反向喂給Psi-R2和Psi-W0繼續學習,形成閉環的數據飛輪。

這里我特別問了一下推理速度的問題。因為世界行動模型這類架構普遍有一個bug:反應慢。

源培承認,Psi-R2單次推理原本需要2.2秒,反映到機器人身上就是明顯的卡頓。

但他們通過DiT緩存、Torch編譯、模型量化等一系列技術優化,把反應時間極限壓縮到了100毫秒以內。

直播里源培現場展示了經過Psi雙系統訓練后的機器人表現。

手機裝配、工業包裝、疊紙盒這些長程精細操作,機器人完成得行云流水。

而且靈初強調,經過這10萬小時人類數據預訓練之后,機器人只需要不到100條真機軌跡的微調,就能完成新任務的部署。

這意味著什么?意味著企業想要引入靈初的機器人方案,部署成本和周期都會被大幅壓縮。

我當時就在想,如果這個數據是真的,那靈初在商業落地的速度上可能會領先同行一個身位。

整場發布會最讓人信服的部分,是硬核數據的驗證。

靈初Psi-R2登頂了MolmoSpace榜單。

這個平臺由美國艾倫人工智能研究所發起,是全球具身智能領域最權威的基準評測平臺之一,NVIDIA、PI這些全球頂尖團隊都參與了本次評測。

Psi-R2一舉超越了PI、DreamZero等國際知名模型,表現顯著優于其他基線模型。在成功率這塊,比同類VLA模型要高出近10倍。

這不只是中國團隊在國際舞臺上的一次亮眼表現。它說明靈初這條人類數據加雙系統架構的路線,經得起最嚴苛的檢驗。

我當時在臺上看到這個數據,心里第一反應是:這幫年輕人是真的猛。

04開源不是情懷,是最聰明的商業選擇

發布會后半段,靈初宣布了幾件事。

一是與北京石景山區共建數采基地,要在更廣的范圍內鋪開數據采集網絡。

二是與騰訊云、抖音、覓蜂科技、智域基石達成生態合作,覆蓋算力、數據服務、應用場景等多個維度。三是年底要將數據集擴展到百萬量級。

但最讓我在意的,是他們決定開源首批1000小時人類手部操作數據集。

在這個數據就是核心資產的行業里,愿意把自己辛辛苦苦采集的數據拿出來開源,不是每個團隊都做得到的。

我當場就問源培,你們不心疼嗎?

他的回答讓我印象很深。

他說開源對于靈初自身來說,是讓全行業幫他們快速采集海量數據的杠桿。

只有開源,才能吸引更多的開發者和研究機構參與到這套體系中,才能彌補數據飛輪閉環中的關鍵一環。

AI時代,時間和數據就是最稀缺的資源。越早進場、擁有越多數據,就能越早收獲長尾效應。


而站在整個行業的角度,開源是打破技術孤島的鑰匙。

具身智能這個賽道,沒有任何一家公司能單打獨斗走完全程。標準化的數據管線、開源的預訓練底座,能夠建立起廣袤的開發者生態,讓全行業的力量匯聚到一起,共同推動技術向前走。

全行業開源共建,還能反向喂養靈初這樣的硬核玩家,讓他們集中精力攻堅最難的技術瓶頸,而不是在重復造輪子的泥潭里掙扎。

集眾智,才是具身智能跑贏節拍、實現商業落地的唯一捷徑。

我當時聽完,覺得這個思路很清醒。

不是那種為了博好感的開源,是想清楚了自己要什么、能換來什么的開源。這種務實在這個行業里不多見。


我突然想起他在之前一個采訪里說過的話。

有人問他為什么選擇創業,他說在北大和斯坦福做了那么長時間的學術研究,更想進入工業界,做出真正能夠影響世界的產品。

AI發展得很快,不會出現論資排輩的現象,任何一個突破都有可能產生顛覆性的影響。

哪怕是只有一個人也可以創業,要敢想敢做。現在是非常好的機會,只要你夠強,學得夠快,你做出來的東西就很有可能會比其他人都好。

那天晚上回到家,我翻來覆去睡不著,腦子里一直在轉一個問題。

具身智能這盤棋,到底會怎么走?

答案可能就藏在那些最不起眼的地方:

在物流倉庫里分揀員的每一次抬手,在工廠流水線上裝配工的每一次擰螺絲,在商超收銀員的每一次掃碼。

這些最日常、最樸素的人類操作,正在成為訓練未來機器人的養分。

靈初這次做的事情,說到底就兩件:讓機器人吃什么樣的數據,讓機器人長什么樣的腦子。

而這兩件事,都指向同一個方向——讓機器人真正走進真實世界,在那些具體的、復雜的、充滿不確定性的場景里,幫人干活。

有仰望星空的勇氣,也有腳踏實地的努力。

具身智能正在因為這場青春風暴,變得不太一樣。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5月29號午評:三大指數集體下挫,大盤下周將走向何方?

5月29號午評:三大指數集體下挫,大盤下周將走向何方?

春江財富
2026-05-29 11:56:25
廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

廣州一商場空調不制冷似“蒸籠”,商戶叫苦連天,客人:來了就想走

新浪財經
2026-05-29 19:06:05
64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

64歲張玉卓履新中國工程院黨組書記,曾掌舵全球最大煤炭和煉油央企

澎湃新聞
2026-05-29 22:40:26
黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

黃仁勛一句話評華為"韜定律":真相藏在"不是威脅"的潛臺詞里

商悟社
2026-05-29 12:21:03
上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

上海炒股冠軍肺腑之語:如果你有20萬資金,建議死磕這么一種股票

股經縱橫談
2026-05-29 21:30:48
向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

向太這回恐要翻車!曝49歲黃曉明曾當眾給她下跪,同桌十幾人目睹

寒士之言本尊
2026-05-29 16:09:42
女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

九方魚論
2026-05-29 23:43:51
近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

近3個月跌超20%,黃金“猴市”下的眾生相:有投資者貸款百萬追高,有人清倉虧損離場

時代周報
2026-05-29 16:00:39
竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

竟然全勝,國羽6席闖入新加坡公開賽4強,大概能拿1冠

真理是我親戚
2026-05-29 22:50:35
沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

沙特博主:克洛普已同意執教吉達聯合,計劃今年10月正式到隊

懂球帝
2026-05-29 10:33:41
封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

封面:賽前訓練結束后,羅慕洛身穿國足10號球衣與記者告別

懂球帝
2026-05-29 22:41:06
第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

第31屆白玉蘭惹眾怒!趙麗穎再次陪跑,李庚希黃曉明全被無視

子芫伴你成長
2026-05-28 00:05:34
布倫特福德官方:內爾森租借期滿,回歸阿森納

布倫特福德官方:內爾森租借期滿,回歸阿森納

懂球帝
2026-05-29 21:47:09
三大指數重挫,滬指跌超1% 近4000家個股下跌

三大指數重挫,滬指跌超1% 近4000家個股下跌

財聞
2026-05-29 14:18:47
收評:創業板指跌2.11% 大消費板塊走強

收評:創業板指跌2.11% 大消費板塊走強

證券時報
2026-05-29 15:22:05
一群賭徒,比華爾街更早知道世界會發生什么

一群賭徒,比華爾街更早知道世界會發生什么

華爾街見聞官方
2026-05-29 10:06:41
最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

最大的鐵飯碗要碎了嗎:轉崗、超編、過剩......

黯泉
2026-05-29 15:10:09
郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

郝劭文回臺灣定居原因曝光,直播帶貨曾月賺近億元,會賺更會做人

以茶帶書
2026-05-29 15:26:31
你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

夜深愛雜談
2026-04-09 19:39:13
穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

穆里尼奧天降大禮!曼城王朝崩塌!皇馬 6000 萬撿漏世界第一中衛

瀾歸序
2026-05-29 05:48:38
2026-05-30 00:20:49
AI異類 incentive-icons
AI異類
從硅谷到中關村,AI信息與測評
188文章數 8關注度
往期回顧 全部

科技要聞

Claude Opus 4.8凌晨突發上線

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

頭條要聞

釋永信被判24年 中國佛教協會:完全是咎由自取

體育要聞

即使是文班亞馬,也做不到這件事

娛樂要聞

奚夢瑤何猷君將于6月在法國舉行婚禮

財經要聞

近3個月跌超20% 黃金"猴市"下的眾生相

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

手機
藝術
數碼
教育
公開課

手機要聞

黑色終于回來了!iPhone 18 Pro新機模曝光四款配色

藝術要聞

吳湖帆小品冊頁

數碼要聞

Counterpoint報告:TCL加速追趕三星,電視行業格局面臨洗牌

教育要聞

民辦小一報名系統操作指南:6步走完全流程,每一步按鈕位置都標好了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版