![]()
翻開任何一家科技媒體的版面,人形機器人融資的消息鋪天蓋地。2026年被冠上“具身智能元年”的名號,資本排著隊為它買單。
但走進一家具身智能公司的研發中心,你會看到另一番景象。
沒有科幻電影里的自主行動。沒有優雅的人機對話。操作員戴著VR頭顯、穿著動捕設備,拿著遙控手柄,一遍遍操控機械臂去拿杯子、疊衣服。一次不行就十次,十次不行就一百次。每一段訓練數據背后,都站著一個活生生的人。
這就是當前具身智能最粗糲的現實:它建立在人力密集型的數據采集之上。每一臺機器人的每一個動作,都要靠人“手把手”教出來。
資本在狂歡。行業內部卻藏著一根拔不掉的刺:如果機器的智能只能用人力堆出來,這個成本結構永遠撐不起“走進千家萬戶”的夢想。
2026年央視春晚,一家叫銀河通用的具身智能公司短暫亮相,隨后又回到實驗室的安靜里。它的最新論文《LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion》提出了一個足以改寫行業底層邏輯的命題:打破對“完美數據”的崇拜,先理解物理,再學習操作。署名單位里躺著英偉達、清華和北大。
![]()
具身智能尚未建完的護城河,可能正面臨一次劇烈的改道。
01
照貓畫虎,畫不出真老虎
市面上絕大多數機器人大模型走的是同一條路:行為克隆。說白了就是照貓畫虎。人類專家留下幾萬條完美的遙操數據,AI從畫面里提取特征,預測人類在每一幀做了什么動作。這套方案直觀,見效快,很快成為主流。
但它有個致命傷:天花板極低。模仿這件事,從一開始就規定了模型能力的上限不會超過示范者。如果AGI的目標是超越人類平均水平,走這條路看不到出口。
更麻煩的還不是天花板,而是地板。
技術圈管這叫協變量偏移。聽上去抽象,道理很簡單:電機會老化,齒輪有間隙,光線會變化,這些對機器人全是噪音。純靠模仿訓練出來的機器人,執行動作時產生的微小誤差會立刻讓攝像頭畫面偏離訓練數據的分布范圍。模型沒見過這場面,不知道怎么糾正。誤差滾雪球,動作崩潰。前段時間機器人馬拉松賽場上突然沖向觀眾席的畫面,就是協變量偏移的公開注腳。
銀河通用這篇論文選了另一條路:拋棄條件反射式的模仿,走世界模型路線。
大語言模型之所以脫胎換骨,是它在海量文本中摸透了語言的底層規律。機器人也需要同一層理解:動手之前,先懂物理世界的因果。LDA不再只預測下一個動作,而是聯合預測未來的畫面。下達指令之前,模型必須先在數字大腦里推演一遍:推過去,水杯會怎么動?重力和摩擦力會起什么作用?
這一步位移的實質是:先有知識(理解世界規律),再有應用(學習如何操作)。因果順序不可顛倒。
![]()
02
別跟像素較勁
要預測未來,得先想清楚預測什么。
Sora和各類生圖生視頻模型給行業提供了一個看似現成的答案,方向上卻正好相反。你大概注意過,AI生成的圖片和視頻里,文字部分總是出現扭曲的亂碼。原因不復雜:這些模型本質上是用概率拼湊像素。它們沒“看懂”文字,只是記住了某種顏色在某個位置大概率會和另一種顏色挨在一起。
人眼里的一杯水、一個蘋果,拍成照片就扁平化為RGB色塊的排列組合。早期的世界模型正是在“預測未來像素”這里犯了錯。讓機器人大腦去猜下一幀的像素長什么樣,算力大量浪費在機械臂影子怎么動、杯子反光怎么變、背景墻紙有多少紋理這類無意義的細節上。全是高頻噪聲,全是對環境的過敏反應。
LDA選擇離開這個像素空間。
它用視覺基礎模型DINO,在輸入畫面進入預測網絡之前,先剝掉無關光影和背景,提取出高度抽象的語義空間。它不再糾結下一幀里百萬個像素的顏色,而是試圖理解一個等式:“杯子的語義”加“推的動作”等于“杯子向右位移”。
![]()
“不看細節,只關注語義。”反常識,卻管用。同等模型規模下,基于像素預測的老方案成功率14.2%,切換到語義空間后,這個數字跳到55.4%。商業上的含義更直接:昂貴的算力集群不用再把電燒在光影模擬上,成本大幅壓縮,模型的跨環境穩定性卻顯著提升。
03
完美數據是一種迷信
這篇論文對行業沖擊最大的地方,在于它打碎了“完美數據崇拜”的商業幻想。
目前機器人的訓練邏輯基本搬自大語言模型。過去三年,大模型領域反復驗證一條鐵律:邏輯混亂的文本、有害代碼這類低質語料會污染模型。Garbage in, garbage out——吃進去的是垃圾,吐出來的也是垃圾。機器人企業自然照單全收:花重金請專業操作員,錄接近完美的數據,這是能力突破的前提。
但物理世界的數據邏輯和文本世界不一樣。
在真實世界里,失敗本身就是物理規律最完整的演示。機器人抓空水杯、碰倒物體、操作失誤后重試,這些在傳統算法眼里是應該扔掉的垃圾數據,因為它們沒有展示“如何完美地完成任務”。但這些過程同樣嚴格遵循著重力、摩擦力和碰撞定律。
只見過高質量數據的機器人,像無菌溫室里養大的植物,一離開完美環境就活不下去。多數具身智能企業把家庭環境當作第一商業化目標,但真實家庭的混亂程度遠非這種機器人能應付。一絲偏差就死機。
LDA提出的通用數據攝取機制,改寫的就是這筆經濟賬:有潛在危害的數據,剔除;海量低質量、無標注的野生數據,比如網上隨手拍的短視頻,變廢為寶,喂給世界模型,讓它從這些看起來沒用的素材里學習物理世界的常識和邊界;極度稀缺的高質量專業操作數據,只在最后微調階段用——此時機器已理解物理規律,只消高效選擇策略。
![]()
測試數據給了一個耐人尋味的佐證:微調階段,往完美數據里混入30%包含停頓和失誤的低質量數據,機器人的執行成功率反而提升10%。模型從中學到了一件事:原來這么干會搞砸,搞砸之后可以這樣補救。
那些正燒著投資人的錢、組建成百上千人團隊、雇全職員工“人肉采集數據”的公司,護城河還沒建完,河床已經開始移動。未來幾年的核心壁壘,不再是誰花錢買到了更多完美數據,而是誰有更強的一套管道:低成本收海量粗糙數據,從中壓榨出物理常識。成本結構上的斷層領先,將從這里長出來。
04
GPT時刻還遠
2026年被不少人稱為具身智能元年,“GPT時刻馬上就要到來”的聲音此起彼伏。
冷靜的商業觀察者不會輕易附和。
假設具身智能要走大語言模型同一條強化學習路徑,核心三要素不變:算力、算法、數據。文本數據是人類幾千年文明的數字化沉淀,今天無論OpenAI還是DeepSeek,獲取幾萬億token不是難事。物理世界的交互數據則困在莫拉維克悖論的底部,還處在手工作坊時代。底層數據基建沒成型,通用智能就是空中樓閣。
LDA-1B這類研究給出的不是一個“無所不能”的成品,而是一個方向正確的路標。這比立刻推出一款宣稱通天的機器人更有價值。
它終結了盲目模仿的范式,指明因果聯系與世界模型的必要性。像素層面的算力浪費被語義表征替代。最關鍵的,它顛覆了昂貴的高質量數據采集模式,開辟了一條低成本、變廢為寶的數據擴展路徑。
放下對完美數據的傲慢,讓AI從粗糙和失敗中汲取真實世界的物理法則。路還很長,但方向已經看見了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.