網易首頁 > 網易號 > 正文 申請入駐

開創VLA的那幫人,正在拋棄VLA

0
分享至

編輯 | 澤南

具身智能真的變天了?

上個星期, 明星創業公司 Generalist AI 發布的 GEN-1 模型,憑借在各項機器人任務中的極高成功率引發了行業震動。

GEN-1 在三個核心維度上都實現了跨越式提升:成功率超過 99%,速度提升 2-3 倍,只需要上代模型 1/10 的數據和微調,就能達到同樣的性能表現。



Generalist AI 成立于 2024 年,核心愿景是讓「通用型機器人」成為現實。憑借其極具潛力的技術路線,該公司在早期就獲得了包括英偉達和 boldstart ventures 等機構的投資支持。

該公司的核心創始團隊可謂豪華 ——CEO Pete Florence 來自 Google DeepMind,CTO Andrew Barry 來自波士頓動力,首席科學家 Andy Zeng 曾任 Google DeepMind 研究科學家。加入 Generalist 前,該公司的部分成員參與了 PaLM-E、RT-2 等模型的研發與發布,負責將 ChatGPT、GPT-4 規模化推廣至數億用戶,或參與 Atlas、Spot、Stretch 等關鍵自動駕駛技術與機器人系統開發。

在 GEN-1 之前,他們推出的 GEN-0 模型已經驗證了「物理交互數據可以轉化為可預測、可擴展的機器智能」。

GEN-1 發布后,Generalist CEO Pete Florence 本周發布的一篇博客文章再次成為了社區討論的熱點。在文中,作者直指目前具身智能領域流行的 VLA(視覺 - 語言 - 動作)模型趨勢。

作為 VLA 概念的共同開創者,他們現在卻表示要「拋棄」VLA 乃至世界模型的標簽定義,因為在他們看來,過于在意工具的標簽,反而會限制通往物理 AGI 的想象力。

讓我們看看他是怎么說的。



在 GEN-1 中,大約 99% 的參數是從零開始訓練的。

在過去,這或許會被視為一種瘋狂之舉。但對于 Generalist 而言,這卻是一個深思熟慮的抉擇。這一決策源于我們堅定不移的信念 —— 我們為此已潛心耕耘兩年之久 —— 即:只要擁有足夠的數據,通過對基礎模型保持完全的掌控權,便能以更快的步伐推動前沿技術的突破。

GEN-1 絕非那種僅僅生硬地「外掛」了機器人動作模塊的微調版視覺 - 語言模型(VLM),它也不僅僅是一個單純的「世界模型」。它是一個擁有「一等公民」地位、專為物理交互場景而原生構建的基礎模型。越來越多的證據表明:只要具備充足的數據與算力,從零開始進行訓練(training from scratch)始終是致勝之道。

在 2026 年初,「世界模型」正迎來屬于它的高光時刻;而在 2023 至 2025 年間,風頭正勁的則是「視覺 - 語言 - 動作模型」(VLA)。追逐熱點與潮流,本就是學術研究領域的常態。

在 Generalist,我們從未將自家模型歸類為 VLA 或世界模型。這絕非偶然。事實上,我們正是 VLA 概念的共同開創者之一;自 2023 年起,我們便持續在機器人領域發表關于世界模型的研究成果,而我們在這一領域的實際探索與耕耘,更是早在數年前便已啟動。

既然如此,為何我們偏不給模型貼上標簽呢?原因有三:首先,你的終極目標遠比你所使用的「工具」標簽本身更為重要;其次,正如你不會將所有的矩形都統稱為正方形一樣,概念的界定需要精準;最后,是因為技術供給側的格局終將發生演變。接下來,我們將逐一深入剖析這三個層面的考量。

目標比工具上的標簽更重要

首先也是最重要的是,目標比方法更具力量。幾年前,John Schulman 在一篇對比「理念驅動」與「目標驅動」研究的文章中,對這一區別做出了精辟的闡述:理念驅動型研究往往追隨潮流,致力于改進最新的技術方法;而目標驅動型研究則首先確立一個具體的預期成果,隨后著手解決實現該成果過程中遇到的任何障礙。

這種區分至關重要,因為它不僅決定了你會構建出什么,更關鍵的是,它決定了你不會被哪些事物所干擾。正如 Schulman 所指出的 —— 這也是我本人的切身體會 —— 通常而言,目標驅動型路徑往往更具成效。

當前圍繞「世界模型」展開的討論,本質上屬于理念驅動型研究。誠然,這些技術本身確實令人振奮。但構建一個「世界模型」本身,或許并非真正的終極目標 —— 即便對于那些正投身于世界模型研究的科研人員而言,情況亦是如此。真正值得深思的問題在于:你的終極目標究竟是什么?

我們認為,一個極具價值且值得長期追求的目標,是實現機器人技術的「完全零樣本」(Fully Zero-shot)能力:即讓機器人能夠以極高的成功率和運行速度,執行那些它們從未見過的各類任務,且在執行過程中,完全無需任何針對特定任務的訓練數據。如果所涉任務種類繁多、復雜度極高且具有足夠的應用價值,那么實現這一目標,便可被視為需要具備「完全物理通用人工智能」(Full Physical AGI)能力的標志。

不過,在此終極目標達成之前,我們還可以設定一系列具體的階段性里程碑,從而構建一條循序漸進的進階路徑:與其一步到位追求「完全零樣本」,不如先允許為特定任務(姑且稱之為任務 X)提供少量機器人訓練數據,并確保機器人能以極高的性能水平完成該任務。

如此一來,目標驅動型的研發路線圖便清晰可見:在持續提升任務執行性能的同時,逐步削減所需訓練數據量 X。假如我們能僅憑大約一小時的機器人訓練數據,便在各類任務中普遍實現 99% 以上的成功率,那么這項技術將具備廣闊的商業應用前景。這便是一個具體、可量化且完全獨立于具體技術方法之外的「目標驅動型」里程碑。

此外,正如我此前的經驗所印證的那樣:在科研工作中,若能確立既具體又充滿雄心的目標,往往能起到事半功倍的效果:它將成為一個強有力的跳板,引領研究工作向更廣闊的領域拓展。

奇妙的是,這種做法往往比單純選擇某種「看似能解決各類問題」的技術方法要有效得多。一個典型的例證便是:最早問世的多模態語言模型之一,其最初的研發初衷正是為了服務于一項特定的機器人技術目標。然而,在隨后的評估測試中,該模型卻在醫療診斷等一系列基準測試中展現出了卓越的性能。

這一成果的誕生,正是源于一種「凡是解決問題所需,皆全力以赴」的務實心態,而非那種死守某種特定技術方法不放的僵化思維。相反,以目標為導向能賦予你靈活性,讓你得以考量任何有助于達成目標的方法。

我們究竟能走多遠?

其次,若僅通過「非此即彼」(or)的問題(例如必須嚴格在方法 A 和方法 B 之間二選一)來框定機器學習,這種做法是具有局限性的。更深層的真諦在于去追問:「我們究竟能走多遠?」或者更進一步,去對既定目標與約束條件建立更為深刻的理解。

人們往往很自然地認為,事物必須被歸入特定的類別,或者在多種方法或資源來源中必須「擇其一」而用之。幾乎每一個學科都可能陷入這種思維陷阱。舉幾個貼近現實的例子:在機器人學發展的早期階段,曾流行著這樣一種觀點 —— 研究者必須在「感知」與「控制」這兩大領域中擇一深耕。

又如在 2020 年代初期,許多 AI 公司的產品經理曾普遍認為,每一個細分應用場景都注定需要一套專屬的定制模型,卻未能意識到「大規模協同訓練」(cotraining)所能帶來的巨大收益。

然而,真正值得探究的問題其實是:在既定的約束條件下,我們究竟能實現怎樣的突破?我們究竟能走多遠?而在這些約束條件中,又有哪些是可以被打破或消除的?我們究竟能走得多遠?舉一個具體的例子:著名的 Chinchilla 論文正是這種思維理念結出的碩果,它不僅榮獲了 NeurIPS 大會的「杰出論文獎」,更在工業界產生了立竿見影的巨大影響。



在絕大多數情況下,一個「非此即彼」(or)的問題,往往可以轉化為一個「兼而有之」(and)的問題;隨后,這個問題又可進一步轉化為「各類成分應各占多少比例」的配比問題;最終,它將升華為一個關于宏大目標與核心約束條件的深層探究。

在過去兩年間,我們正是秉持著這一理念,對自身的訓練方法進行了持續的迭代與優化。在過去一年多的時間里,我們一直在積極嘗試融合來自不同領域的思想 —— 涵蓋了所謂的「視覺語言動作模型」(VLA)、「世界模型」(World Models),乃至更為前沿的探索方向。當一個模型所融合的跨學科能力越豐富,將其強行歸入某一特定類別也就越發困難。

歸根結底,真正具有決定性意義的唯有一點:它究竟能帶我們走多遠?

視覺-語言模型只是一根「拐杖」?

第三,供給側將會發生變化。你不僅要考量當前的制約因素,更要思考這些制約因素將如何不可避免地發生演變。制約因素變化得越快,這一點就顯得愈發重要。

有人指出,當前的一個制約因素在于機器人領域的數據量尚不充裕。但這并非一種具有長遠眼光的觀點。如今,隨著我們掌握了超過 50 萬小時的物理交互數據,我們已能夠擺脫這一制約,去探索更深層的問題。

同理,將「視覺 - 語言」訓練引入機器人領域,其背后的一大動因正是因為機器人領域自身的數據積累尚顯不足。因此,從某種意義上講,在機器人數據尚未充裕的過渡期內,所有的「視覺 - 語言」訓練都可以被視為一種有益的「拐杖」。誠然,世間現存的視頻數據(以字節計)確實遠多于語言數據,但歸根結底,它依然只是一根「拐杖」。那么,當不再需要這根「拐杖」時,下一步該走向何方?屆時,你還會想要依賴這根「拐杖」嗎?

邁向物理 AGI

目標的力量遠勝于具體的方法;我們應當在既定的制約條件下尋求最優解,而非局限于既有的類別劃分中去「選賽道」;況且,這些制約因素本身也是注定會發生變化的。

自 Generalist 成立之初,我們便始終致力于對一切進行徹底的重構與反思,旨在推動具身通用人工智能(Physical AGI)的實現。正是基于這一理念,我們打造出了 GEN-1—— 這是一個完全從零開始訓練的模型,其訓練所依據的正是我們所擁有的(亦是全球規模最大的)物理交互數據集。無論是模型的架構設計、訓練流程,還是推理執行機制,其每一個環節都經過了精心設計與反復迭代;在這一過程中,我們完全擺脫了那些由他人出于不同目的而預設的決策框架所帶來的束縛。

我們已向世人展示了該模型所具備的驚人潛能 —— 從機器人領域的 Scaling Laws,到僅需數小時便能泛化適應全新環境與具身形態的能力,再到通過大規模預訓練所涌現出的即興智能…… 而這一切,僅僅是一個開端。

參考內容:

https://x.com/peteflorence/status/2041529286562402804

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黎姿:嫁給大15歲的殘疾富豪,一家5口3人殘疾,風光背后有心酸

黎姿:嫁給大15歲的殘疾富豪,一家5口3人殘疾,風光背后有心酸

小熊侃史
2026-04-05 13:53:18
酒店里,擠滿了偷偷開房的已婚女性

酒店里,擠滿了偷偷開房的已婚女性

二胡的歲月如歌
2026-04-22 19:03:26
時間定了!美國首座商業核聚變發電廠或2027年開建

時間定了!美國首座商業核聚變發電廠或2027年開建

環球零碳
2026-04-22 19:40:36
警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

警報拉響!英超降級格局初定,熱刺和西漢姆聯誰能逃過最后一劫?

田先生籃球
2026-04-23 10:07:58
陳賡抓到殺害劉志丹的兇手后要斃,劉伯承:慢,設宴!結局如何?

陳賡抓到殺害劉志丹的兇手后要斃,劉伯承:慢,設宴!結局如何?

元哥說歷史
2026-04-20 22:00:03
肖戰官宣不到3小時,令人震驚的事情發生,最尷尬的應該是劉亦菲

肖戰官宣不到3小時,令人震驚的事情發生,最尷尬的應該是劉亦菲

一盅情懷
2026-04-23 18:56:39
破例接機!中方強勢降臨中東,伊朗導彈下餃子,美霸權迎來終局?

破例接機!中方強勢降臨中東,伊朗導彈下餃子,美霸權迎來終局?

全球風情大揭秘
2026-04-23 19:05:56
16名年輕男子輪流伺候,40歲黑幫女老大,憑什么堪稱現代版武則天

16名年輕男子輪流伺候,40歲黑幫女老大,憑什么堪稱現代版武則天

談史論天地
2026-04-23 07:51:29
兩名外籍乘客在網約車上對著部隊大門連續拍照,接下來又要去訓練場方向,司機覺得可疑,直接開車把他們交給了部隊

兩名外籍乘客在網約車上對著部隊大門連續拍照,接下來又要去訓練場方向,司機覺得可疑,直接開車把他們交給了部隊

極目新聞
2026-04-16 08:59:25
《老頭環》電影“強行塞黑人”遭怒噴!玩家吵瘋了

《老頭環》電影“強行塞黑人”遭怒噴!玩家吵瘋了

游民星空
2026-04-23 19:10:16
跟著美國學壞了,印尼突然放大招,掐斷中國生命線,唯恐天下不亂

跟著美國學壞了,印尼突然放大招,掐斷中國生命線,唯恐天下不亂

林子說事
2026-04-23 17:41:30
每月工資達到“這個數”,你就別拼了,你已經超過99%的人了!

每月工資達到“這個數”,你就別拼了,你已經超過99%的人了!

CG說科技
2026-04-23 09:12:26
切爾西換帥重磅!阿隆索“欽點”熱刺王牌,羅塞尼爾面臨“終考”

切爾西換帥重磅!阿隆索“欽點”熱刺王牌,羅塞尼爾面臨“終考”

奶蓋熊本熊
2026-04-23 05:03:47
首篇自進化智能體系統技術報告:Token成本直降近10倍,省錢又高效

首篇自進化智能體系統技術報告:Token成本直降近10倍,省錢又高效

機器之心Pro
2026-04-22 10:26:17
袁詠儀大方分享50歲后消費觀:不買沒必要的,張智霖的反應太搞笑了!

袁詠儀大方分享50歲后消費觀:不買沒必要的,張智霖的反應太搞笑了!

動物奇奇怪怪
2026-04-23 14:29:00
被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

被網友們的旅行智慧驚艷到!思路打開后,那叫一個實用,學到了

室內設計師有料兒
2026-04-21 20:45:45
瓜帥:會不會對阿森納產生一絲同情?不,因為他們也不會同情我們

瓜帥:會不會對阿森納產生一絲同情?不,因為他們也不會同情我們

懂球帝
2026-04-23 00:59:18
“有錢就變壞”山東,一男子花42元買彩票,竟中獎1000多萬,...

“有錢就變壞”山東,一男子花42元買彩票,竟中獎1000多萬,...

網絡易不易
2026-04-23 11:56:17
放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

放進冰箱變毒藥,這7種食物千萬不能放在冰箱里!尤其是第六種!

路醫生健康科普
2026-02-06 16:16:28
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
2026-04-23 20:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12839文章數 142634關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女生赴泰過潑水節被賣電詐園 家屬遭威脅報警就"輪奸"

頭條要聞

女生赴泰過潑水節被賣電詐園 家屬遭威脅報警就"輪奸"

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

旅游
房產
數碼
親子
公開課

旅游要聞

偶遇大理天子莊,村后山頂孤伶伶一屋一樹,難道它叫“天子廟”?

房產要聞

三亞安居房,突然官宣!

數碼要聞

榮耀新旗艦輕薄本開賣,酷睿Ultra X7/X9版半小時電商平臺售罄

親子要聞

愛一個人不能說氣話,媽媽教女兒正確表達愛

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版