網易首頁 > 網易號 > 正文申請入駐

機器人“大腦”60年進化史：基礎模型的五代進化與三大閉源流派

2026-01-15 10:20:12　來源: 硅谷101

上海舉報

分享至

撰稿：Vicky

編輯：陳茜

2025年，機器人公司發布的Demo都有點魔幻：

首先是Figure AI，在10月發布了第三代機器人，能做各種家務，Demo也很酷炫，但任務的成功率存在很多質疑，而且臉的設計，恐怖谷現象有點嚴重。

10月底發布demo的另一家明星公司1X，整個臉部設計就可愛了非常多，感覺是更愿意讓大家搬到家里的。但是叫做Neo的這款機器人依賴遠程操控，被批評是“假智能”，而且有各種隱私問題。

同時，特斯拉的機器人雖然也發布了各種Demo的更新，包括在12月發布的非常順滑的跑步Demo，但明顯量產計劃在2025年遇到了極大的挑戰，讓公司不得不暫停生產，重新設計硬件。

我們的機器人系列已經聊了靈巧手，以及2025年具身智能行業年度盤點，本篇文章就來深聊一下這個產業的一個核心技術：機器人基礎模型。我們試圖回答這樣一個問題：為什么2025年突然變成了機器人基礎模型的“元年”？

我們也走訪了硅谷的前沿機器人公司和實驗室，而基礎模型篇會分為“閉源”和“開源”兩篇，系統拆解當下主流機器人的“大腦”是如何被訓練出來、如何接入真實世界、以及不同路線背后的技術與商業邏輯。帶你看清，大模型時代的機器人，大腦究竟是怎么長成的。本篇文章我們先來聊一聊目前資本市場的寵兒——閉源系統。

機器人基礎模型從60年代到2025年的范式革命

如果要用一句話解釋機器人基礎模型，最簡單的類比是：如果說GPT是“會說話的大腦”，那機器人基礎模型就是“會動手的大腦”。

但這個“會動手的大腦”，人類研究了整整60年才做出來。我們先來回顧一下，大模型出現以前的四大機器人范式。

Chapter 1.1 第一代：編程式機器人（1960s-1990s）

1961年，世界上第一臺工業機器人Unimate在通用汽車的工廠里“上班”了。它的工作很簡單：從生產線上抓起滾燙的金屬零件，放到另一條生產線上。

從現在的眼光看，它蠻“傻”的，因為完全靠編程，工程師用代碼告訴它：

步驟1：手臂向左移動30厘米

步驟2：手爪閉合

步驟3：手臂向上移動50厘米

步驟4：手臂向右旋轉90度

步驟5：手爪松開

聽起來很傻對吧？但在當時，這已經是革命性的突破了。這種方式的問題很明顯：零容錯、零靈活性。

如果零件的位置偏了1厘米，機器人就抓不到，如果換一個不同尺寸的零件，就得重新寫代碼。更別說應對意外情況——比如零件掉在地上，機器人就徹底不知道該干什么了。

但在工廠這種高度可控的環境里，這套方法管用了幾十年。直到今天，很多汽車工廠的焊接機器人，還在用這套“編程式”的邏輯。

Chapter 1.2 第二代：基于SLAM的方法（1990s-2010s）

到了90年代，機器人學家們意識到：光靠編程不行，機器人得能“感知”環境。于是出現了SLAM（同時定位與地圖構建）、運動規劃這些技術。

這里的核心思路是：先用傳感器“看”周圍環境，建立一個3D地圖，然后在地圖上規劃路徑，最后執行動作。這個方式最成功的應用就是掃地機器人。

風靡一時的Roomba就是這么工作的：它用激光雷達掃描房間，建立地圖；然后規劃一條覆蓋所有區域的路徑；再按照路徑移動，遇到障礙物就繞開。

這套方法在“導航”任務上很成功：早期的無人車、無人機、物流機器人，基本都是這個套路。但在“操作”任務上就不行了，因為操作任務太復雜了，比如讓機器人疊一條毛巾，傳統方法是四步：

1.用視覺識別毛巾的四個角

2.計算每個角的3D坐標

3.規劃手臂的運動軌跡

4.執行抓取、折疊、放下

聽起來挺合理，但實際操作中到處是坑：毛巾可能皺成一團，根本識別不出“四個角”；毛巾是柔性的，你一抓它就變形，3D坐標立刻失效；每一步都可能出錯，一出錯整個流程就崩了。

2010年，加州伯克利的一個研究團隊做過一個實驗：讓機器人疊毛巾，用的就是這套“感知→規劃→執行”的方法。結果平均一條毛巾要花24分鐘。

而疊毛巾在如今AI時代來臨之后，也同樣是非常核心的，需要基礎模型去驅動機器人攻破的任務。

Chapter 1.3 第三代：行為克隆（2010s中期）

既然手工設計規則不行，那能不能讓機器人直接“學”人類怎么做？這就是行為克隆（Behavior Cloning）的思路，也叫模仿學習（Imitation Learning）。

同樣以疊毛巾為例，機器人模仿學習會這么做：讓人類演示很多次怎么疊毛巾；記錄下每一幀的視覺輸入和動作輸出；訓練一個神經網絡，學習輸入→輸出的映射；機器人看到毛巾，直接輸出該做什么動作。

2015年，Google Brain的一個團隊用這個方法，讓機器人學會了抓取各種物體。他們收集了數十萬次抓取的數據，訓練了一個神經網絡，推動了“視覺-動作”學習在機器人抓取任務上的進展。

這可以說是個巨大的進步！第一次，機器人不需要手工編寫規則，可以通過數據學習了。

但這個方法有個致命缺陷：數據效率太低。它需要數十萬次抓取數據來訓練，而且這只是“抓取”這一個動作。如果要學“疊毛巾”，可能100萬次演示都不夠了。

更要命的是，這個方法的泛化性很差。你用A型號機器人收集的數據，訓練出來的模型，在B型號機器人上基本不能用。

Chapter 1.4 第四代：強化學習（2010s后期）

2016年，AlphaGo戰勝李世石，證明了強化學習的威力。機器人科學家們想：能不能讓機器人也用強化學習，自己摸索出怎么完成任務？

強化學習的核心思路是：不需要人類演示，讓機器人自己嘗試，做對了給獎勵，做錯了給懲罰，機器人慢慢學會怎么做能獲得最多獎勵。

當時，波士頓動力的機器人就開始將強化學習引入移動控制系統，讓它們能在各種復雜地形上行走、跳躍、后空翻。

但強化學習也有個大問題：太慢了。AlphaGo為了學會下圍棋，在仿真環境里自己和自己下了幾千萬局，但機器人操作任務，很難在仿真環境里練，因為環境復雜度太高，非常難設置，和真實物理世界差別較大，導致仿真不準。

但真機試錯呢？太慢、太貴、太危險。想象一下，讓機器人學疊毛巾，它可能要試幾百萬次，其中大部分時候會出現的情況是：抓空、把毛巾扔到地上、把毛巾撕破、手臂卡住等等。這樣學下去，要到猴年馬月？

而且強化學習有個更根本的問題：它不知道“常識”。人類知道，毛巾是軟的、可以折疊的、有一定的摩擦力。但強化學習的機器人，需要通過無數次試錯才能“發現”這些常識，效率太低。

Chapter 1.5 第五代：VLA模型（2020s中期-現在）

大語言模型的出現，改變了一切。2022年，ChatGPT橫空出世，人們發現：大語言模型里蘊含了人類世界的大量“常識”：它知道毛巾是什么、疊是什么意思、先做什么后做什么。它有推理能力、規劃能力、泛化能力。

行業里的第一反應就是，能不能把大語言模型和機器人結合起來？于是，VLA（Vision-Language-Action）模型誕生了。VLA模型的革命性在于，它把三個東西統一到一個神經網絡里：

Vision（視覺）：看到當前的場景；Language（語言）：理解任務目標和常識；Action（動作）：輸出具體的控制指令。

舉個例子，你對機器人說：“幫我把桌上的蘋果放到籃子里。”傳統方法需要四步：

1.視覺識別“蘋果”和“籃子”

2.規劃“抓取蘋果”的軌跡

3.規劃“移動到籃子”的軌跡

4.規劃“放下”的動作

VLA模型呢？一個端到端的神經網絡，直接從“語言指令+視覺輸入”，輸出“下一步該做什么動作”。

更神奇的是，它會“常識推理”。比如你說“幫我準備早餐”，面對著家庭環境，它知道：要從冰箱拿出雞蛋；雞蛋要小心拿，不能摔碎；面包要放進烤面包機。

這些常識，不需要你一條條編程，也不需要它自己試錯幾百萬次去“發現”。因為大語言模型里已經有了。

York Yang Dyna Robotics聯合創始人：我們在架構層面用的VLA，VLA簡單來說就是我們拿了大模型領域VLM作為所謂的backbone（核心），但是我們會在最終輸出結果的時候，把這個結果轉化成在機器人領域可用的action（動作）。action（動作）直觀理解就是，比如說我要把這個手臂移動到某一個坐標點的這些命令。 VLA其實大家詬病最多的是：為什么我們需要L（Language、語言）？因為在過去傳統的機器人算法里面很多都是純基于視覺。但是你仔細去想，其實你大腦其實會產生類似于語言的東西，去告訴你在一個長線任務中，到底你第一步做什么，第二步做什么。

L的作用就在于對于一些非常復雜的任務的時候，它是可以通過在大語言上面已經訓練出來很多邏輯性的東西，比如說你要喝水，它就會知道你需要找杯子或者找瓶子。這個是通過大語言模型已經直接可以給你的一些東西。利用VLA的主要目的，其實就是如何把Language（語言）跟Vision（視覺）能夠更好地結合起來，否則你如果只有Vision（視覺），你能做的任務可能就都是短線的，你做不了任何長線的、需要去做推理的一些任務，所以這是我們為什么非常專注地引入語言這部分的主要原因。

那為什么2025年成了“具身機器人基礎模型元年”呢？因為三個關鍵因素在這一年同時成熟了。

第一個因素：大語言模型“夠用了”。

2024年到2025年，OpenAI、Anthropic、Google這些公司陸續發布新模型，大語言模型已經“成熟”了，至少對于機器人需要的那部分能力，理解指令、規劃任務、常識推理，已經足夠好了。

York Yang Dyna Robotics聯合創始人：第一是大模型本身已經趨近于成熟，你們可以看到最近不管是OpenAI還是其他的公司，發布的模型已經是增量式的增長，它不是像從3.5到4的時候的這種跨越式的增長，所以我們覺得大模型的能力已經趨于穩定，而且已經足夠可以為具身智能提供一個很好的基礎，所以這是從模型層面的一個最重要的因素。

第二個因素：算力價格腰斬再腰斬。

2023年，租一張NVIDIA H100 GPU是天價，還得排隊才能拿到貨，而隨著GPU云服務商價格戰打響，和NVIDIA的GPU大量鋪貨，初創公司都租得起幾千張卡來訓練模型了。

York Yang Dyna Robotics聯合創始人：第二個因素是整體的算力強度肯定是越來越強，每一年英偉達等芯片公司都會做更強的芯片，等效的算力價格其實也在降低，隔幾年可能等效的價格就變成了過去的一半，所以計算的增強對于整個具身智能也有很大的推進影響。

第三個因素：硬件供應鏈成熟。

這個變化很多人沒注意到。2024年，隨著人形機器人熱潮，大量資本涌入上游零部件廠商，特別是中國的供應商們，電機、減速器、傳感器這些東西，原本都是小眾產品，但2024年開始，好幾家供應商都拿到了大額融資，開始擴產，硬件便宜了，做機器人的門檻就降低了。

York Yang Dyna Robotics聯合創始人：第三是整個機器人硬件的各種零部件的成熟度是比較高的，特別是從去年開始火熱起來的這一波人形機器人的助推讓大家花了很多的精力跟資本去投入到很多基礎部件，包括電機、減速器這些部件的研發，這一塊的成熟度和成本都有提升和降低，所以我們覺得這個時機會比較成熟一些。

這三個關鍵元素，讓2025年成為了一個特殊的時間窗口，基于VLA的新一代范式的機器人跑出來了。

2025年是人形機器人大年，第一臺機器人管家終于登場了，人形機器人將有望成為史上最龐大的產業之一，這將是一個5萬億的市場，全世界將遍布十億臺機器人。

但VLA模型也不是完美的，而它的核心挑戰是數據。大語言模型可以用互聯網上的文本訓練，但機器人需要的是“真機數據”——必須有機器人本體的傳感器數據。而這種數據，互聯網上根本沒有。

YouTube上有無數人類疊衣服的視頻，但沒有一個視頻告訴你，疊衣服的時候手指關節的角度是多少、施加的力量是多少，這就是為什么，這場“軍備競賽”的核心，除了算法，還有數據。誰能用最低的成本，采集到最高質量的數據，誰就能主導這個市場。

所以，機器人基礎模型不是憑空冒出來的，它是60年技術積累的集大成者，它繼承了：編程式機器人的“精確控制”；基于模型方法的“環境感知”；行為克隆的“示范學習”；強化學習的“自我優化”；再加上了大語言模型的“常識推理”，這才是真正的“基礎模型”。

可能你想知道，現在搭載了VLA模型的機器人，都到什么程度了？我們這次也走訪了Dyna Robotics。

這家在硅谷炙手可熱的機器人明星公司的三位華人創始人中，Lindon Gao和York Yang是連續創業者，之前創立的AI購物車公司Caper AI以3.5億美元的價格，被Instacart收購；Jason Ma則是前DeepMind研究科學家，專攻機器人基礎模型。

這家公司成立才一年，已經完成兩輪融資：2025年3月種子輪2350萬美元，同年的9月A輪1.2億美元，估值超過6億美元。投資方名單堪稱豪華：英偉達、亞馬遜、三星、LG。而讓他們最先火出圈的，并不是多么華麗的任務或者demo，而就是非常樸實的“疊毛巾”和“疊衣服”。

我們也和機器人以及和York比拼了一下手速，雖然在疊衣服這件事情上，我倆都比機器人快，但說實話我覺得我倆真不一定有Dyna的機器人疊得好。并且，關鍵點在于：機器人雖然目前還比較慢，但它可以7*24運作，還不用休息，只要經濟賬算得過來，落地就是可行的。

York Yang Dyna Robotics聯合創始人：因為正常人工的很多場景，你1個人就是8個小時，而機器可以讓它跑15個小時或者24個小時，可以彌補掉效率的一定的損失。第二是疊毛巾本身確實是一個不錯的商業落地場景，因為它相對比較單一，也是比較固定的一個任務。但是在像美國這樣高人工成本的國家，確實要花掉很多的資金在這件事情上面，所以我們聊的這些商家客戶都非常有意愿去使用機器人來做這件事情。

閉源模型機器人主要流派

看完Dyna的機器人，我們再來看看，2025年的機器人賽道，還有哪些玩家：

我們可以把他們分成三個流派來看，表面上看，他們爭的是技術路線、市場份額、融資估值，但本質上，他們爭的是同一個問題：什么才是實現“通用機器人”的正確路徑？

Chapter 2.1 流派一：全棧整合派

這一派的代表公司是特斯拉Optimus和Figure AI。核心信念是：機器人基礎模型不能和硬件分離，必須垂直整合、深度耦合，才能發揮最大效果。

作為這個流派最激進的代表，特斯拉的CEO馬斯克曾經說過一句很狂的話：“特斯拉八成的價值將來自于Optimus機器人。“

馬斯克的自信來自特斯拉FSD（完全自動駕駛）十年的積累，特斯拉Optimus前工程主管Milan Kovac曾經說，“我們只是從輪子上的機器人變成長著腿的機器人”。

特斯拉有數百萬輛車收集的真實世界數據、端到端的神經網絡架構、規模龐大的標注團隊，所以他這個邏輯聽起來無懈可擊：既然FSD能讓汽車在復雜路況中自主駕駛，那同樣的架構，為什么不能讓機器人在復雜環境中自主操作？都是感知、決策、執行的閉環，都是端到端的神經網絡，只是輸出從“方向盤角度”變成了“關節角度”而已。

但2025年的現實并沒有這么美好。年初，馬斯克在內部會議上信誓旦旦地說：2025年要生產5000臺Optimus，其中1000臺會部署在特斯拉自己的工廠。但是到年中，實際上組裝了1000多臺后，特斯拉Optimus人形機器人的生產計劃就已經暫停，面臨重新設計。

而Optimus最近還面臨一個更大的風波，就是它在特斯拉活動現場分發瓶裝水時，突然做出了好像要把頭上某個不存在的東西拽下來的動作，然后摔了一跤。這個動作實在是太像人類操作員摘下頭戴式設備的動作，于是這段視頻馬上爆火，不少人馬上提出來質疑：Optimus，是不是有操作員在遠程操控？

Optimus的發展看起來不像馬斯克號稱的那么順利，問題出在哪？

York Yang Dyna Robotics聯合創始人：他們本身是最早在人形機器人領域做出本體，有過一定的demo演示的公司。他們現在主要利用的是人類視頻做遷移，它的優勢毋庸置疑，人類視頻其實是最容易采的，因為你不需要任何的外設備，你采集的也是人手去操作的場景，可擴展上來說，特斯拉這個模式是最高的。但是它的幾個主要的問題在于，第一，人類的手和機器人的手，如果你想讓它這個能力遷移得很好，需要做得非常接近。這也是為什么現在有好多人在做很靈巧的靈巧手，非常接近人的自由度，這件事本身是一件非常困難的事情。

第二，但你再接近，它也不是完全一樣。所以在機器人的數據和人的數據中間還是會有一個鴻溝，就我們所謂的embodiment gap（物理差異），這個embodiment gap在當前學術界也好、工業界也好，大家都公認是一個比較難解決的問題。所以這樣的數據遷移的效率會比較低，哪怕你采集了很多數據，如果只有30%或者50%可用，你的總數量就會需要去乘以可能性的數字，所以這是它的一定的局限性。

特斯拉想用海量人類視頻訓練基礎模型，但人手和機器手的物理差異（embodiment gap）是個繞不過去的坎。即使你有YouTube上所有的人類操作視頻，轉換效率也是個問題。

這就是全棧整合派的第一個困境：你控制了全鏈條，但也意味著全鏈條的每個環節都是你的瓶頸。硬件不夠好，模型再強也白搭；模型不夠強，硬件再好也發揮不出來。

但特斯拉的優勢是錢多、人多、還有馬斯克，Optimus會不會最終成功？可能要再過兩年才能見分曉。

而Figure AI走的是類似特斯拉的路線，但更激進。這家公司2022年才成立，創始人Brett Adcock之前做過電動垂直起降飛機，算是從“飛行機器人”跨界到“地面機器人”。

2024年初，Figure AI做了個大膽的決定：和OpenAI深度合作，將GPT-4直接接入人形機器人中。那段時間，他們放出來的demo震撼全行業：機器人能聽懂人類的指令，能和人對話，能自己決定做什么。比如你說“可以給我點吃的嗎”，它會主動遞給你一個蘋果。

但好景不長。2025年2月，Figure AI突然主動宣布和OpenAI“分手”：他們要獨立推出自己的基礎模型，不再依賴OpenAI的技術。分手后的Figure AI，兩周后就迅速推出新Helix模型，定位為通用人形機器人VLA模型，強調是完全自研、用于控制整個人形機器人。

不得不說，能夠放棄OpenAI的“粗大腿”，Figure AI確實有兩把刷子。

Helix創新地采用了“System 1，System 2”雙系統架構：System 2像你的大腦皮層，負責“想清楚該干什么”；System 1像你的小腦，負責“手腳怎么配合”。當你拿杯子喝水時，大腦皮層只需要決定“現在該拿杯子了”，小腦會自動調動20多塊肌肉完成抓取動作，你根本不需要意識到。

這個架構解決了一個長期困擾機器人的問題：視覺-語言模型很聰明但太慢，傳統機器人控制策略很快但不夠通用。Helix讓兩者各司其職、端到端訓練，既能理解復雜指令，又能實時精確控制。

更酷的是，Helix用單一神經網絡控制整個上半身的35個自由度——包括手腕、軀干、頭部、每根手指，它還能同時控制兩個機器人協作完成任務。這就是Figure 和OpenAI“分手”后交出的答卷。

2025年9月，Figure AI完成了10億美元的C輪融資，估值從26億美元飆升到390億美元——15倍的漲幅，不到一年時間。投資方名單讀起來像科技圈的奧斯卡頒獎典禮：微軟、OpenAI、英偉達、貝佐斯、英特爾、三星……聽起來，已然成為具身機器人的“扛把子”。

總結一下，這一派的核心理念是：基礎模型的通用性來自于“足夠大、足夠端到端”，只要模型參數夠多、訓練數據夠多、軟硬整合夠深，涌現能力就會自然出現。這是從GPT-4的成功中總結出來的經驗——但這個經驗在物理世界是否成立，還是個未知數。

Chapter 2.2 流派二：垂直突破派

如果說全棧整合派追求的是“一步到位的通用性”，那垂直突破派追求的是“從專精到泛化的涌現”。

他們的核心信念是：與其訓練一個什么都會但什么都做不好的大模型，不如先讓模型在某個垂直場景做到極致，在這個過程中積累的“學習能力”會自然遷移到其他場景。

Dyna Robotics是這個流派比較清晰的代表，他們走的路線很特別：做通用形態的機器人，但是在模型層面會先利用比較成熟的能力，落地一些可以打工的場景，用于了解行業的know how（實際知識），并更好的指導算法研究的方向。也就是說，先讓機器人在洗衣房、餐廳、健身房這些場景“打工”，邊干活邊學習。

在2025年4月，他們發布了“首個可在真實環境中持續高性能運行的機器人基礎模型”DYNA-1。在24小時內，他們的機器人自主折疊了700多張餐巾，成功率超過99.4%，完全無需人工干預，吞吐量達到人類速度的60%。但顯然，Dyna的野心不止于疊毛巾。

York Yang Dyna Robotics聯合創始人：第一是我們要澄清，我們不是一個做疊毛巾的公司，我們的基礎模型里面包含了各種各樣的數據，有各種疊的：疊毛巾、疊餐巾、疊衣服，也有切菜、切水果、準備食物，也有做早餐、清掃或者說擺放、物流場景的一些分揀，其實各種各樣的數據我們都有，我們的基礎模型其實是一個非常廣的模型。

我們的泛化性最主要還是來自于基礎的大模型，我們是希望基礎大模型能夠有足夠強的能力，在大部分的任務上不太需要非常多的定制。在早期可能你會發現遷移到一個新的任務的過程會比較冗余、比較繁雜，你會需要再重新采很大一部分的數據，然后混到一起去做訓練，但隨著你的基礎大模型數據量越來越大之后，你會發現哪怕去遷移到一個從未見過的這個任務上面，它其實需要的遷移成本也會越來越低。我們過去可能會需要采幾個月的數據去遷移某一個任務，但是到現在可能有一些簡單的任務，可能一兩天的數據就可以遷移過去。所以整體來說只要你的基礎模型能力越來越強，學習能力越來越強的話，你去遷移到新任務的能力也會越來越強。

Dyna對基礎模型的理解和全棧整合派完全不同，他們的理解是：與其訓練一個什么都會但什么都做不好的泛化模型，不如先讓模型在某個任務上深度專精。在這個過程中積累的“學習能力”會幫助它更快掌握其他任務。就像把鋼琴練到音樂學院水平的人，上手吉他會比完全沒學過樂器的人快得多，因為掌握了“如何學習”的元技能。

York Yang Dyna Robotics聯合創始人：我們確實也看到當你單一任務的能力提升得很強之后，它對于學習新任務有一定的促進作用，我們拿最優質的數據到基礎的數據集里面做預訓練之后，這個模型再去擴展到新的任務上，它會更快、需要的數據更少，所以這個也是我們在實踐過程中找到一個有點反直覺，但是確實它發生了的一件事。我們對于它的理解可能就像人，如果你的學習能力本身很強，那你學習新的東西的能力就會很強，學習能力很強的前提是你可能過去已經在很多任務上你自己做過實踐、做過學習，你才會有強的學習能力。所以我們覺得學習能力本身和學習的過程也是關聯的。

這個理念背后基于這樣一個觀點：機器人基礎模型和大語言模型的Scaling Law（縮放定律）可能不一樣。

大語言模型的規律是：模型越大、數據越多，性能就越好，但機器人基礎模型的性能瓶頸，不只在“模型容量”和“數據量”，更在“數據質量”和“物理一致性”。如果訓練數據里的物理接觸不準確，模型學到的就是錯誤的物理直覺，參數越大，錯誤越被“放大”。

York Yang Dyna Robotics聯合創始人：為什么說基于某種程度，它的Scaling Law（縮放定律）肯定不像大語言模型這么簡單粗暴。因為我們之前也和挺多做大語言模型的這些人聊過，他們已經發現，語言方向的數據，哪怕用很多低質量數據，比如一堆文本，中間插了一段廣告，然后再是接著文本，就這樣的數據它一樣能訓練出比較好的模型。因為模型它看的數據足夠多之后，它自動就會過濾掉廣告。但是機器人當前我們覺得規模化更多的是來自于需要比較高質量的數據。你如果囊括了很多很繁雜的數據在里面，機器人模型可能就不知道我要注意力集中在哪一個地方，所以最終它其實出來的效果并沒有那么好。

我們現在看到的是如果你的數據質量足夠好，隨著數據量的增加，數據多樣性的增加，整體的基礎模型能力就會有很大的提升，對下游的各種需要fine-tune（微調）的一些小任務也會有很大的提升，這個是實打實能夠看得到的。

圖片來源：Dyna

所以Dyna選擇“小而精”的路線：

與其訓練一個100億參數的泛化模型，不如訓練一個10億參數的專精模型
要保證每一條訓練數據都是高質量的真實物理交互
讓模型在實際部署中通過強化學習自我優化

他們認為：深度專精某個任務的過程中，模型學到的不只是“怎么疊毛巾”，還有“怎么快速學習新任務”的元能力。

York Yang Dyna Robotics聯合創始人: 所以我們現在挺關注的，比如像強化學習的一些路徑，像通過大模型的基礎能力的學習，比如說折疊能力、擺放能力的學習，讓它擁有一個自我迭代、自我去學習新技能的能力，我覺得這個是最重要的。但最終我們會覺得基礎的大模型可能在普通的一些任務，比如說家用的很多：你幫我拿一個水、你幫我開一下門，類似的任務中，它應該是可以直接完成的。

同樣重視元學習能力的，也還有諸如Skild AI這樣從“通用模型”切入，但并不做硬件的公司，他們核心邏輯是：用大規模仿真數據訓練出一個通用的“大腦”，然后讓這個大腦能快速適配到不同的機器人硬件和任務場景。

比如說，同一個模型既能控制機械臂抓取物體，也能讓四足機器人行走，還能指揮人形機器人完成復雜操作，不需要每個任務都從頭訓練，而是靠一個強大的基礎模型來遷移學習。有傳聞稱，英偉達和軟銀將領頭對它投資10億美元，估值將高達140億美元。

這個路線，還有一個特殊玩家值得一提：亞馬遜。2025年7月，亞馬遜宣布部署了第100萬臺機器人。100萬臺是什么概念？亞馬遜目前有156萬名員工，也就是說機器人數量即將超過人類員工。

但這100萬臺機器人，全都是專用機器人，針對具體場景優化：Hercules能搬運1250磅貨物，Pegasus用于包裹分揀、運輸，但亞馬遜的野心不止于此。他們的Agentic AI團隊正在開發通用機器人基礎模型，還在舊金山辦公室建了個叫“humanoid park”的室內測試場，訓練人形機器人應對復雜障礙。

亞馬遜的策略和Dyna如出一轍：與其一開始就做大而全的通用模型，不如先在垂直場景積累世界上最好的數據和最強的能力，然后再泛化。

Chapter 2.3 流派三：生態平臺派

如果說前兩派是在爭“誰的路線更快”，那第三派爭的是“誰能制定行業標準”。他們的核心信念是：在基礎模型這個賽道，最終贏家不一定是技術最強的，而是生態控制力最強的。

首先，NVIDIA的邏輯很簡單：做機器人界的Android。

2025年3月的GTC大會上，黃仁勛隆重介紹了GR00T N1，并且把它開源了，聽起來很美好，但你要用GR00T N1，就得用全套NVIDIA生態，一個都跑不掉。這就是生態鎖定的威力：一旦你用了NVIDIA的全套工具鏈，切換成本高到讓人望而卻步。NVIDIA的護城河不是模型本身，而是整個生態。

Google走的是另一條路：通過開源研究建立影響力。

Google在機器人通用策略上選擇了一條“研究驅動、開源優先”的路線。它推出的RT系列，強調大規模機器人演示數據、跨任務／跨平臺通用模型，并通過論文＋開放數據集的方式在學術與研究社區建立了強大影響力。在Gemini 3發布后，Google最近也加快了步伐，還挖來了前波士頓動力首席技術官Aaron Saunders，想推動Gemini Al成為通用機器人控制平臺。

而OpenAI和Meta是這一派的另一種玩法：小步快跑，只為占坑。

OpenAI和機器人的關系，就像一對分分合合的情侶：早在2018年，他們就在機械手-操作任務上取得突破；但之后團隊規模與優先級有所收縮。到2024年和2025年初，他們上演了和Figure從熱戀到斷裂式分手的戲碼；但到了2025年下半年，他們又開始招聘多位專注于人形機器人控制算法的研究人員。

此外，OpenAI也試圖通過撒錢投資的方式，打造自己的生態影響力，2024年11月，OpenAI與杰夫·貝佐斯共同參與了Physical Intelligence的4億美元融資。

Meta的策略類似但更低調。2025年初，Meta在其Reality Labs旗下組建了一個新機器人部門，由前Cruise CEO Marc Whitten牽頭，目標是開發類人機器人平臺。Meta CTO Andrew Bosworth曾公開提到，其團隊正在構建一種“world model”，以支撐機器人完成比“行走”和“跑跳”更細致的操控動作。

Chapter 2.4 三派之爭的本質：對“通用性”的不同賭注

表面上看，三派是在爭技術路線、爭市場、爭估值，但本質上，他們賭的是關于“通用性”的三個相通、但又不同的假設：

全棧整合派相信：通用性=足夠大的模型+足夠多的數據+足夠深的軟硬整合，只要這三個條件滿足，涌現能力會自然出現，這是從GPT-4的成功中總結出來的經驗。

垂直突破派相信：通用性=深度專精帶來的遷移能力，機器人的Scaling Law和語言模型不同，“小而精”可能比“大而全”更有效，關鍵是找到正確的“元學習”路徑。

生態平臺派相信：通用性=生態標準化程度，技術路線誰贏不重要，重要的是讓所有人都用你的工具鏈，最終贏家不是技術最強的，而是生態控制力最強的。

當然，還有“半開源半閉源”的兩家知名公司，Physical Intelligence（PI）和Genesis AI。我們會在我們的開源篇文章里重點介紹他們。

這幾大派系誰對誰錯？2025年還沒有答案。但可以確定的是：這場關于基礎模型的競賽，才剛剛開始。

2025年現狀

展示很精彩，落地還未知

馬斯克對特斯拉機器人的夢想很宏大，但現實是Optimus還在艱難爬坡。

12月19日，特斯拉官方發布了一份名為《特斯拉人形機器人2025年度報告》的視頻回顧，詳細披露了其人形機器人Optimus在過去一年中的技術迭代與進化路徑，視頻以Optimus加速跑進2026年的畫面收尾，暗示明年將有更大幅度的技術跨越。我們也拭目以待。

同時，Figure AI拿了10億美元，估值390億，但真正商業化部署的也就幾十臺。NVIDIA的GR00T N1發布了，但有多少公司真正用起來了？不好說。

但是，我們也看到了各家都在令人驚嘆的進展，有特斯拉這樣手握重金押注，也有Figure、Dyna為代表的創業公司在快速前進，還有OpenAI、Meta的低調入局，都在用重金、重資產的方式推進機器人基礎模型。

這讓我們相信，尤其是是在家用機器人領域，機器人開始幫忙干些討厭的家務，已不再那么遙遠。

York Yang Dyna Robotics聯合創始人：我們是覺得最先肯定是在，像我們當前在開拓的一些市場，比如商用服務的一些人工的部分，就是和人工一起去完成一些任務這樣的一些場景。但是我們覺得家用其實也沒有那么遙遠，并不需要完整的、非常通用的AGI。你可能只需要幾個任務就可以進入到家庭的場景里，先讓機器人在家里面干起活來，然后逐漸地通過模型的迭代讓它產生更多的能力。

我們自己的目標，在2026年我們至少希望在商用場景有比較大規模的部署，在家用我們會擇機看。比如像疊衣服，我們采訪過很多身邊的朋友，其實大家都覺得這個功能他們非常需要，當我們的硬件成本降到普通家庭可承擔的范圍內，我們可能就會優先，比如先以疊衣服的功能賣給家庭，然后逐漸去拓展一些其他的功能。所以這個時間線應該也不遙遠，可能也就在1~2年左右。

怎么樣，幾百美元可以幫你疊衣服、準備早餐和做清潔的機器人助手，你會買嗎？

有關閉源模型的內容我們就先聊到這里，但有一群人在用完全不同的方式做同樣的事：他們開源模型、他們分享數據、他們相信“聚沙成塔”的力量。他們說：“開放才能實現具身智能。”

下一篇機器人的文章我們會聊到：NVIDIA的“開放”到底有多開放？它和真正的開源有什么區別？為什么有人說GR00T N1是“偽開源”？Physical Intellig ence為什么要開源π0？一個剛成立、剛拿到投資的公司，為什么要把最核心的模型免費放出來？他們的商業模式是什么？開源vs閉源，誰會贏？這場戰爭的本質是什么？是技術路線之爭，還是商業模式之爭？

注：部分圖片來源于網絡

【本期節目不構成任何投資建議】

【視頻播放渠道】

國內：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯系我們：video@sv101.net

【創作團隊】

監制｜泓君陳茜

撰稿｜Vicky Xiao

編輯｜陳茜

剪輯｜Jacob

運營｜王梓沁孫澤平何源清

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.