![]()
姜旭(Roger Jiang)此前很少正式對外發聲。
姜旭是少數完整參與過 OpenAI 大模型核心技術演進的華人創業者之一。2019 至 2023 年間,他經歷了 GPT 系列能力爆發最關鍵的階段,工作橫跨底層訓練 infra、大規模預訓練、RLHF 對齊算法與數據構建等核心鏈路。
他不僅是 GPT-4 技術報告的核心貢獻者之一,也是 InstructGPT 的主要作者之一。后者奠定了 ChatGPT 指令遵循與人類偏好對齊能力的重要基礎。如今,他選擇回到中國創業,并把下一次 AI Scaling 的賭注押在了物理世界。
2024 年他在深圳成立了亮源新創 (Light Origins,lightorigins.com),投身具身基礎模型。但公司成立至今一直保持低調,外界對它的了解并不多。
現在他決定第一次完整地把自己的思考講出來。
姜旭對具身智能的核心判斷,可以概括為一句話:具身智能首先需要自己的預訓練。
在他看來,當前行業對遙操數據和真機強化學習的重視是必要的,但這并不足以支撐具身基礎模型真正走向 scaling。真機數據更像是高價值的對齊、驗證和閉環迭代數據,而不是預訓練階段最主要的規模來源。受限于采集成本、場景覆蓋和數據多樣性,僅僅依靠機器人在真實環境中的遙操和試錯,很難獲得類似大語言模型預訓練所需要的數據密度和分布廣度。
姜旭認為,具身智能真正尚未被充分解鎖的,是互聯網尺度的人類運動、空間移動和物理交互數據。就像語言模型從海量文本中學習世界知識和推理結構,具身模型也需要從大規模物理世界數據中學習運動先驗、空間理解、物體 affordance 和交互規律。換句話說,具身智能的關鍵問題不是“能不能再多采一些真機數據”,而是能不能找到一套可規模化的具身預訓練方法,把物理世界中的行動經驗轉化為模型能力。
沿著這套邏輯,他做出了幾個與主流路徑不完全相同的判斷。
親歷過 GPT 系列從無人看好到引爆全球的全過程,他對這套方法論有一種近乎篤定的信心,并相信具身智能會沿著大模型走過的路徑再走一遍。他說,他特別享受被質疑、并最終被證明正確的那個過程。
以下是 DeepTech 和姜旭的對話。
我們已經進入了 Scaling 的階段
DeepTech:你現在在哪個城市?最近主要在忙什么?
姜旭:我現在主要在深圳,這里算是我們的大本營。同時我們在北京和新加坡也有研發團隊,希望能夠盡量吸引不同區域的人才。
![]()
圖丨亮源新創的深圳辦公室位于深圳灣后海(來源:受訪者)
創業其實永遠都繞不開三件事:人、錢、事。只是不同階段,重心會不一樣。最開始差不多一年時間,我們主要還是在解決“事”和“人”。一方面是搭團隊,另一方面是驗證整個模型訓練和算法研發的路徑,包括產品落地和模型應用的方向。
過去一年,我們聚焦在驗證整個技術路徑。因為對于具身智能來說,真正困難的是找到一條能夠像大語言模型一樣持續 scaling 的路徑。過去幾個月,我們在這件事上已經探索出了清晰的方向,同時核心模塊現在也都有了比較成熟的負責人和體系。所以今年對我們來說,會是一個從“探索”開始進入“scaling”的階段。
DeepTech:這是你第一次正式接受媒體采訪嗎?之前有媒體發過你創業的消息,但你沒有回應,我還以為你是不太喜歡和媒體打交道的人。
姜旭:算是第一次正式接受采訪。之前確實有過一篇關于我們的報道,但那篇并不是我們主動對外講的,所以嚴格說,這是第一次完整地把我們的事情講出來。
DeepTech:那為什么決定現在出來做一些曝光?
姜旭:每個人、每家公司的精力、帶寬、時間都是有限的。我做事情有一個強烈的傾向,就是在任何一段時間,我自己和整個公司會把大部分精力,聚焦在少數幾個 ROI 最高的模塊和領域上。
在此之前我們首先要搞清楚的是要做什么,搭一個足夠強的團隊。我們現在已經到了準備好要去 scale 的階段,接下來要做的事情,就是去 scale。并且要進一步引入長期資本和產業資源,把這件事情快速往下一階段推進。
GPT-3 能說出幾句完整的話,我們就很激動
DeepTech:你在 OpenAI 四年,從 GPT-3 到 GPT-4,從 InstructGPT 到 ChatGPT。你剛加入的時候,團隊多大?你被分到哪個組、做什么?
姜旭:我剛加入 OpenAI 的時候規模還很小,大概一百人左右。那個時候 OpenAI 還跟其他的 research lab 差不多,分成一個一個小的 team,team 之間沒有特別緊密的耦合和深度合作,每個 team 都在做前沿學術和發表文章。但 OpenAI 的文化,在我在的整個期間,內部始終是非常開放、自由的。
所以我很有幸,在 OpenAI 期間換過大概四五個 team,在大語言模型這塊有一個全棧的經歷。我基本上是從大語言模型最底層的 infra 做起,然后到中間的預訓練差不多做了一到兩年,最后又花了一兩年時間做對齊。
我剛加入解決的第一個問題,是 FP8,也就是 8 比特浮點數訓練模型,這項技術今天已經在所有前沿的大模型訓練推理過程中被大范圍使用了。我差不多花了一年時間把它探索清楚。OpenAI 自己不做硬件,所以我們只是在算法層面把它探索清楚,會有一些推理上的效率提升,但對訓練沒有本質變化。訓練如果想加速,還要從硬件層面原生去支持。我們當時就把結果給了 NVIDIA,說服了 NVIDIA 從 H100 系列開始,原生支持 FP8。
DeepTech:那個時候 GPT-3 是什么水平?
姜旭:我加入的時候,GPT-3 剛剛啟動訓練。那時候每兩周開一次全員會,負責 GPT-3 訓練的團隊,主要是 Dario 他們,會在會上分享訓練進展。當時語言模型的水平,是 GPT-3 偶爾能說出那么幾句完整的話,語法上沒有特別明顯的錯誤,那個時候我們全員所有人都會非常激動。
現在回顧一下,從我 2019 年加入到現在六七年時間,AI 技術真的是突飛猛進,發生了翻天覆地的變化。
DeepTech:這些經歷里,你印象最深的是哪一段?
姜旭:整個 OpenAI 四年是一段極度壓縮的時間線,發生了太多的事情,做過的很多項目印象都非常深刻。
第一段就是 21 年初,Dario 他們走了之后,我加入新組的團隊去做預訓練。當時的背景是,原本負責預訓練的團隊就是 Dario 他們,20 年底到 21 年初,他們陸續離開創立了 Anthropic。那是一個痛苦的分手過程,每周都有幾個熟悉的同事離職,剩下的人又普遍沒有預訓練的經驗,大家心里還是有點慌的。 然后 Greg Brockman 帶隊組建了一個不到 10 人的團隊去接手預訓練。
![]()
圖丨姜旭在 OpenAI 任職期間拍攝于舊金山(來源:受訪者)
首先,那幾個月時間工作強度極大,我每天早上醒過來跟打了雞血一樣瘋狂地工作一直到半夜,Greg 甚至有時候會通宵寫代碼,第二天只睡一兩個小時再繼續工作,最后從數據到 infra 到優化算法都發現了非常多的問題,最終,折騰了好幾個月用了幾千卡,也沒有訓出來好的模型效果。那是一個挺痛苦的迭代經歷,不過預訓練失敗在頭部大模型公司也并不罕見,我經歷過的就有過兩次。
當然,成功的預訓練,肯定就是 GPT-4了,是預訓練的集大成者,從模型架構到優化算法到 infra,都是超越時代的, GPT-4 最終完成訓練的時間,甚至比我們一開始預計的還提前了很多。這種情況在大模型訓練里并不常見,經常都是一直延長甚至最終也訓練不出來。
還有一些項目,它的重要性最終是需要被時間證明的。
比如我們做的 InstructGPT,用人類反饋做強化學習的 RLHF,是對齊算法的奠基工作。這個工作在 2021 年初剛完成的時候并沒有受到足夠的重視,因為當時的效果還不夠好,但后面算法的開發和數據迭代并沒有停止,最終它成為了 ChatGPT 訓練里非常重要的一個環節。
大模型訓練核心就是兩步,第一步預訓練,第二步對齊,只有把對齊做好了,預訓練的模型才會變得很好用。跟預訓練不同的是,對齊需要的是逐步的迭代和提升,直到最終突破一個閾值。回頭看有一個深刻的領悟是,如果一個方向第一性原理上是正確的,就一定要堅持做下去,一定能做成也一定要做成。
DeepTech:那 ChatGPT 的走紅呢?
姜旭:其實 ChatGPT 發布的時候,OpenAI 內部并沒有人真正意識到,整個世界會這么快發生變化。
當時產品上線的時間點,正好趕上一個重要的 AI 學術會議(NeurIPS 2022),很多同事在新奧爾良參會。整個發布本身其實非常普通,完全沒有那種后來大家想象中的“歷史時刻”氛圍。它更像一次正常的產品上線。
但接下來的幾天,整個事情開始迅速發酵。
我印象特別深,一開始是零零散散有人在討論 ChatGPT。后來討論的人越來越多。再后來,整個會場幾乎所有人都在聊它。那種感覺很奇怪。你會突然意識到,一項原本只屬于 research lab 的技術,開始以一種失控的速度進入現實世界。后來回到公司之后,大概連續一兩周,我每天打開 Twitter,整個 feed 幾乎都被 ChatGPT 刷屏了。
但我后來回頭看,真正改變一切的,其實不只是模型能力本身。
GPT-3 時代,模型已經非常強了,但那個階段的大模型更像一種“隱藏的 intelligence”—它存在,但普通人感受不到。更多還是研究人員和開發者在用 API、寫復雜的 prompt、做 demo。ChatGPT 第一次把這種智能變成了一種幾乎沒有學習門檻的產品。
用戶不需要理解技術原理,不需要學習 prompt 工程,也不需要知道 transformer 是什么。你只需要像和另一個人說話一樣,去跟它interact。
我后來意識到,一個很重要的事情是:很多時候,人對 intelligence 的感知就取決于 interaction 的方式,獲取智能的容易程度是智能水平的核心體現。
錯過了物理,趕上了 AI
DeepTech:既然你在 OpenAI 收獲這么多,為什么 2023 年會選擇離開?
姜旭:一個很重要的原因是,我一直更享受開創新范式的階段。我在 OpenAI 親歷了大模型從一個幾乎沒人相信的方向,逐漸變成改變整個世界的主流技術范式。那個過程對我影響非常大。
但 ChatGPT 爆發之后,我會明顯感覺到,大模型開始逐漸進入一個“共識化”的階段。
技術路線越來越清晰,行業也開始快速 scale。很多問題雖然仍然非常難,但它們越來越像工程和資源問題,而不是新的范式問題。我自己一直更想做的,是那種還沒有被真正解決、還沒有被行業形成共識的事情。
后來我花了很長時間去思考,確認具身智能就是這樣一個方向。我覺得今天的具身智能,很像 2019 年之前的大模型。行業里有很多探索,但還沒有真正找到那個能夠 scale intelligence 的核心路徑。
這件事對我來說非常有吸引力。
DeepTech:為什么是 2023 年這個時間點?有什么契機嗎?
姜旭:ChatGPT 爆發之后,資本市場變得非常活躍,創業環境和氛圍變得很好,是有條件去創業、撬動資本和資源做一件更大更有影響力的事情的。
其次,我在那個時間點就認為大模型行業接下來要發生什么,相對來說是比較明確和確定的。當一個行業進入這種高度確定性的狀態,個人在里面發揮的作用相對就會弱很多,更多是一個堆資源問題,公司去 scale up 資源,去執行既有的路線圖。所以大模型對我來說就不再那么 exciting,不再有從 0 到 1 突破新范式的興奮和成就感。
DeepTech:問一個稍微八卦的問題,你離開 OpenAI 和 2023 年那些動蕩有關系嗎?
姜旭:沒有,我是在那之前離開的。
DeepTech:你的本科和博士讀的都是物理。當時為什么會進入 AI 行業?
姜旭:我讀博士期間其實在物理學里做了大量嘗試,如果你看我發表的文章,早些年我發過各種方向的學術文章,跟我最后做的博士課題甚至都不相關。我確實是一個比較喜歡探索、嘗試新東西的人。
回顧起來,在整個探索的過程中,我一直在找一個真正有前途的方向。我覺得人生是要去坐一次火箭的,成功的職業生涯,一定要有機會經歷一段爆發式的成長。
我讀博士的時候很快發現一個問題:對做物理學研究來說,我可能晚出生了差不多一百年。物理學的黃金時間是 20 世紀初的那幾十年,在那段時間二流的物理學家都能做一流的工作。其實今天的 AI 領域也類似,遍地都是黃金,二流的選手也可以做一流的工作。
當時我有一個很重要的觀察:科學里那些簡單的規律,差不多到 20 世紀中葉都已經被發現完了,剩下的都是硬骨頭,特別難啃。但這些遺留問題有一個共同規律,都涉及到在大量復雜的數據里找 pattern,在高度非線性的現象上做擬合。但當時我并沒有一個答案,不知道怎么解這類問題。
直到 2016 年春天,AlphaGo 下圍棋的新聞鋪天蓋地,傳播得非常廣,那也是我人生第一次了解到深度學習這個技術。我馬上意識到,這不就是一個完美的技術來解科學里遺留的難題嗎?那時候我快要博士畢業了,就堅定要往這個方向轉。
后來我開始自學 Python 編程,自學 machine learning,上的第一門課是吳恩達在 Coursera 上的公開課。我自學了一些東西,做了一些開源項目,比較容易地在硅谷找到了AI方向的第一份工作,一年之后又加入了 OpenAI。
DeepTech:你做物理出身,又想在大量數據里找 pattern,聽起來更像是該去做 AI for Science,為什么是去做大模型?
姜旭:你說得很對,當時進入這個行業最大的驅動力、最吸引我的,就是最終去解決那些科學問題。那是出發點。
但 AI 能力的演進是有一定的規律的。大模型的爆發是從數據量最多、數據最容易獲取的文本領域先開始的,之后才向各種其他領域擴散。AI for science 今天正處在爆發的過程中, 很多細分方向已經實現了突破或者處于突破的前夜。
另外,language 本身仍然是最重要的 backbone,它不僅僅是人類溝通的媒介,同時也是人思考、推理的非常重要的媒介,科學最終還是要構建在人類推理基礎之上。
DeepTech:那為什么最后又選擇去做機器人?
姜旭:我離開 OpenAI 是要去實現一件影響力更大的事。選擇機器人這個方向有幾點原因。
首先,機器人背后代表的其實是 physical AGI,是 AGI 非常重要的一部分,是其中的一半。如果能解鎖 physical AGI、通用機器人,這件事的經濟價值和歷史意義都非常重大,是一個足夠大、足夠有趣的問題。
其次,我剛離開 OpenAI 的時候,對機器人這個方向了解得不夠多。后來我花了一段時間去思考和學習,最終發現這件事的本質,跟我之前解過的所有大模型問題沒有差異。
它本質上就是一個多模態模型的問題。把機器人的輸入和輸出,都通過多模態模型數據表征的方式去處理,那機器人的問題馬上就轉變成一個多模態問題。多模態模型怎么訓練、怎么 scale,這些都是已經被充分研究過的問題。從第一性原理上,這個問題在我看來是必然可解的。
正因為如此,我相信自己過去在大模型領域豐富的經歷和背景,會為具身這個領域帶來獨特的價值。
DeepTech:從離開 OpenAI 到正式創業,中間將近一年。這段時間你在干什么?
姜旭:那段時間就是在思考和迭代方向。剛離開的時候,腦海里有幾個我覺得值得做的想法。對我來說比較自然的,是繼續做大模型,我在這個方向上也做過一些探索和嘗試。
但最終我得出一個結論:在純模型的賽道里,我很難找到一件足夠大、足夠有趣,并且頭部模型公司不會做、或者我有絕對優勢的事情。
按我對技術演進趨勢的理解,模型的能力邊界會無限拓展,頭部模型公司的業務邊界也會無限拓展,所以終極狀態下,模型就是端到端去滿足人所有的服務和內容需求,人把需求給到模型,模型把人需要的服務或內容返回回來。中間可能就沒有特別多創業公司的大機會。
所以當時一個很重要的思考是:我要做的事情里一定要有一些部分是這些模型公司不擅長的。那就一定要帶上供應鏈和硬件,這是中國獨特的優勢,所有的模型公司都不太具備這方面的基因。
DeepTech:這個結論是你自己獨自思考得出的,還是也從別人那里得到了什么啟發?
姜旭:首先我有一個自己的直覺。有了這樣一個直覺和方向感之后,就會做很多 research,然后去找這個行業里最頂尖的 researcher 交流和自己去研究,最終形成結論。
我一開始離開 OpenAI 之后直接回國了,2023 年底又重新回到美國,跟當時最頂尖的 robotics 領域的一些 researcher 交流,像 Google、伯克利、斯坦福的一些人。很難說是某一個非常具體的人,更多的是我對這件事有一套自己的認知框架,框架里有一些當時感覺比較模糊的地方,我去研究和跟這些人聊,再去確認那些點。
大部分公司都在重復苦澀的教訓
DeepTech:那現在讓我們聊聊你所選擇的這條路,大語言模型成功,是因為找到了規模化壓縮語言的方式。在具身智能領域,對應的突破是什么?物理世界的行為怎么變成可以規模化訓練的數據?
姜旭:具身智能的突破,會跟大語言模型非常類似。大語言模型最關鍵的點是壓縮了全人類互聯網的文本數據,也就是伊利亞說的壓縮即智能。
我在創業之前想清楚的,是架構層面的事情:機器人問題本質上是一個多模態模型問題,這是架構層面的時代延續性。這個時代的大主題,就是用同樣一套框架、同樣一套方法論,去一個一個突破垂直的模態,從文本到語音到視頻到圖像。對具身智能來說,這是一個比較自然的延續。
但里面有一個核心問題:這套框架到底怎么用到具身智能領域。更具體的最核心的問題是,用什么樣的數據來預訓練模型。這也是我們創業第一年最核心去探索的問題。最終我們得到的答案,跟大語言模型非常類似:最 scalable 的方式,就是去模仿、去壓縮互聯網級別的人類視頻里的 human actions。
DeepTech:你在 OpenAI 做的是預訓練和 RLHF。現在做這件事,這套思路具體怎么平移?哪些直接能用,哪些得重新發明?
姜旭:這需要先回顧一下大模型整個訓練的路徑。過去幾年大模型爆發以來,主要出現了三次范式級別的創新。
第一次是預訓練,你可以把它想象成完成了知識的壓縮。其次,在預訓練模型的基礎上做對齊,有點像知識的提取。只有這兩步都完成,模型才足夠聰明、足夠泛化、足夠好用,對齊核心解決的是好用這個問題。最后,差不多一兩年前出現了 reasoning,賦予了模型深度思考的能力。
對應到具身智能領域,我們首先要解決的就是知識壓縮的問題。這是這個領域里到目前為止很多公司都沒有解決好的一點:當模型能力不夠強的時候,它到底是預訓練的瓶頸,還是對齊的瓶頸?相對應地,我們到底是要解決知識壓縮的問題,還是知識提取的問題?
我認為大部分公司都在走彎路。具身智能正在經歷自己的 bitter lessons,大部分公司正在重復 NLP 當年的彎路,都聚焦在了知識提取這一步,跳過了預訓練,直接在做對齊。所以我們核心要為這個領域貢獻和解決的,就是人類行為的壓縮。這個壓縮是通過預訓練完成的,在以人類為中心的數據上,把人類的數據壓縮進預訓練的模型里。
DeepTech:說到數據,你們預訓練的數據主要來源是哪里?
姜旭:我們主要使用了互聯網規模的人類動作數據。
DeepTech:有觀點認為,純互聯網視頻有一些問題是完全無法解決的,還需要真機數據等其他數據來補充。你怎么看?
姜旭:這是一個非常好的問題。大模型能 work,一定是需要兩步:通過互聯網數據完成知識的壓縮,再通過后訓練完成知識的提取。對于知識壓縮這一步,只有互聯網數據才有可能完成。
但僅僅用互聯網數據做預訓練是不夠的。互聯網數據的好處是量非常大、足夠便宜,能覆蓋到各種各樣的長尾場景、各種 corner case;它的壞處也是這個,里面有各種各樣不真實的數據、噪音、錯誤的數據。這些問題,一定要通過高質量的后訓練數據才能消除掉。所以一定是這兩個結合起來。
這條路徑的核心優勢在于:如果你的預訓練做得足夠好,你就不需要那么多真機數據來做對齊,最終也能訓練出一個足夠通用和強大的模型。
我舉個例子,在 ChatGPT 的整個訓練流程里,預訓練階段我們用到幾萬億個 token,后訓練實際上只用到了不到 10 億個 token,中間差了好幾個數量級。這也是今天這個領域大部分已有玩家沒想清楚、沒解決好的問題,大家都在后訓練階段、在真機數據上做了非常多的工作。
DeepTech:互聯網數據質量參差不齊,數據清洗是不是這里面很重要的一部分?
姜旭:對,使用互聯網數據一個核心的挑戰,就是數據的清洗和處理。
我自己在 OpenAI 期間也部分參與過預訓練模型的文本數據處理,所以我知道這件事的重要性和復雜程度。而且很關鍵的是,我知道,是有可能通過一套方法,把非常復雜、噪音很大的數據處理好,變成可用的數據的。我們把同樣的思想和方法用到了視頻數據上面。
這也是我們過去一年探索出新范式過程中很重要的一個里程碑,其中差不多有一半甚至更多的精力,都花在研發數據處理和清洗的管線上,這是一個非常復雜的過程。
DeepTech:這算是你們的一個獨特壁壘嗎?
姜旭:可以這么說。它需要足夠強的人,足夠多的 know-how,再花足夠多的時間和成本在上面,才能把它做好。
DeepTech:那么在模型架構上你們做了什么選擇?比如 Physical Intelligence(Pi)用的是 flow matching,也有其他用自回歸的。你們走的是哪條路?
姜旭:我先說一個判斷。我認為具身大腦整個的框架應該跟今天 agent 采用的框架比較類似:底層有多個模型去具體執行,頂層是一套 model harness 的框架,把這些模型合理地組織、串起來。最底層的模型都是端到端的模型。所以我們訓練的是端到端的模型。
我們其實更把具身 foundation model 看成一種面向物理世界的多模態大模型。它學習的不只是語言,而是視覺、動作、交互以及真實世界中的連續行為。
從行業目前的發展來看,真正 scalable 的路線大致還是兩類:自回歸(autoregressive)和 flow matching。我們會把自回歸更多理解成一種對大規模時序行為數據的壓縮與表征學習,而 flow matching 更接近連續動作空間里的生成建模。兩者對應的是不同的 inductive bias。
現在行業里采用 flow matching 的團隊會更多一些,但并不是某一種架構絕對最優,純自回歸本身完全是可以成立的。
我們內部其實兩條路線都已經跑通了。現階段會更多聚焦在自回歸上,因為它在大規模預訓練階段訓練效率更高,也更適合快速 scale。
但坦白講,我們并不認為模型架構本身是這個階段最核心的壁壘。對具身智能來說,更關鍵的問題還是數據,尤其是大規模預訓練數據。我們現在更核心的事情,其實是先用一套相對簡單、穩定、已經被驗證 scalable 的架構,把數據規模和行為覆蓋度真正做起來。
DeepTech:自回歸有一些弊端,比如精度損失、推理速度慢。這些怎么解決?
姜旭:這里面很多問題,其實并不是自回歸本身的問題。像精度損失、訓練不穩定這些,更多還是一些關鍵算法細節沒有真正做好。包括 tokenization、長時序建模、訓練策略這些,大模型領域其實已經積累了很多成熟經驗,都是我們曾經反復解決過多次的問題。
推理速度也是類似的。現在很多 flow matching 模型之所以顯得更快,一個很重要的原因是它的 action head 還比較小,本質上還沒有進入真正 scale 的階段。未來如果具身模型繼續往更大規模發展,推理優化最終還是會變成一個非常系統性的工程問題。
而且我們覺得,自回歸還有一個很大的優勢,就是它能夠天然繼承整個 foundation model 領域過去幾年積累下來的技術紅利。無論是計算效率、長程記憶、RL 范式,還是整個訓練基礎設施,其實都已經非常成熟了。
所以我們現在更核心的事情,還是先把數據規模、預訓練和真實世界交互真正做起來。
DeepTech:我了解到你們的模型是跨本體的,目前實際跑通了哪幾種形態?
姜旭:先解釋一下,因為我們的模型模仿的是人類的動作,壓縮的是 human actions,而 human 是一個非常高自由度、動作非常豐富的本體。以這樣的本體為基礎,我們事實上可以把人體做出來的各種動作,map 到各種其他形態的硬件本體上。
到目前為止,我們有兩款全自研的硬件本體,一款人形機器人,另一款是自由度低很多的輪式產品,都可以搭載我們的模型,我們也嘗試過宇樹的本體。如果是一個低自由度的本體,我們就把人體的動作做一個更低自由度的近似就可以了。舉個例子,我們最終實現了人在物理世界里通用的行動能力、take action 的能力之后,可以把它簡化成人的重心點的移動,這時候出來的就相當于是一個移動模型。
DeepTech:你提到你們實現了初步的 scaling,這個“初步”具體是什么情況?
姜旭:我們目前所處的研發階段,如果對標 OpenAI 的 GPT 系列,相當于是 GPT-2.5 的水平。這個對標有兩個層面的意義。
第一個層面,直接從數據量上看,我們現在的數據量已經超過了當年 GPT-2 訓練用的數據體量,模型大小也比 GPT2 稍微大一些。當然模型大小在這個階段對我們來說不那么關鍵,因為怎么 scale 模型,這件事在大模型領域已經解過了,核心是沒有人解過怎么 scale 具身的數據。
第二個層面,從我們目前能實現的、從數據處理到模型訓練的整條管線來看,我們已經能做到:隨機拿來一段視頻數據,只要里面有人,就可以把它變成我們的訓練數據源,能有效地從視頻里學習到人的運動信息、視覺信息。
DeepTech:那離上限還有多遠?
姜旭:我們算過按這個路徑最終能達到的上限。我們在數據量上還可以擴充好幾個數量級,差不多有四個數量級的擴充空間。從 GPT-2 到 GPT-4,數據上差不多是擴充了三個數量級。所以相信我們的模型能力還會有多次質的飛躍。
DeepTech:到了那個數量級的上限,就足以實現通用能力了嗎?
姜旭:我相信到那個級別,就足以實現初步的通用機器人。對標 GPT 系列,應該至少能達到 GPT-3.5 那種初步可用的狀態。
核心原因是,今天我們訓練出來的模型,指令追隨能力已經表現得不錯了,已經遠遠超過我們當年訓練 GPT-3 時的狀態。我們那時候看到能說幾句完整的話、語法上沒有明顯錯誤,就很興奮了。在這個基礎上再有四個數量級的提升空間,我相信一定會有一個運動智能、具身智能上的飛躍。按照 GPT系列對模型版本迭代的定義,每一代模型要比上一代強一百倍,那提升四個數量級,差不多能實現兩代模型的迭代。
DeepTech:我聽說,在你們看來,物理世界的運動泛化可能比語言泛化容易很多。這個結論你們是怎么得出來的?
姜旭:Scaling law是我們研究怎么 scale 模型的一個很重要的工具,它核心講的是模型能力會隨著數據量、訓練算力的投入和模型大小確定性地變化。這三條趨勢線是直線,就會有斜率。我們目前看到的是,具身的斜率可能比語言的斜率還要大一些。這是一個非常有意思的發現,意味著這個問題可能比語言要簡單一些。
另外一個是自然進化的例證。掌握了高級語言能力的只有人類,但其他所有動物都具備運動的能力,具備跟物理世界交互、改變物理世界的能力。說白了,連螞蟻都有一個夾爪,可以做 pick and place。所以,這件事可能沒有語言那么難。
DeepTech:這個結論還挺反共識的。之前看到的很多說法,都是說真實世界的泛化更難。
姜旭:我認為今天大家覺得它反共識,一個很重要的原因是,大家做的方式可能都不對,沒有真的領會大模型那套思想方法論的精髓。
過去三年,整個具身智能賽道一個很重要的進展,是大家逐漸形成共識,要采用大模型那套思路。但這里面有一個很大的 gap:很多創始人、很多團隊之前沒有做過大模型,在認知層面、knowhow 層面有一些誤區,誤解了大模型里一些很核心的點。很多團隊在這方面是有知識盲區的。
DeepTech:感覺你對這個判斷很有自信。
姜旭:因為我自己在大模型方向做過太多項目,有成功的,也踩過很多坑。我在 OpenAI 四年,也見過太多周圍的同事用類似的思想方法論去解其他領域的問題。這整個過程,幫我建立起了對這條技術路線非常深刻的審美。
DeepTech:那你覺得這個判斷會被質疑嗎?我個人覺得,這篇文章發出來之后,可能會有不少人質疑你。
姜旭:可能會吧,但我其實特別享受被質疑、且最終被證明是正確的這樣一個過程。
DeepTech:你會怎么看待這些質疑?
姜旭:我可以分享一段我的經歷。我剛加入 OpenAI 的前兩周,讀的第一篇 paper 就是 Scaling Law 那篇,當時還是 draft,還沒發表出來。我讀完大受震撼,很確信我趕上了一次技術革命。
By the way,我一直覺得自己的技術 taste 還是比較不錯的,在一個技術早期的時候,我就能比較精準地看到它的未來和潛力。那個時候 OpenAI 在外界看起來還是一家比較奇怪的公司,但內部其實已經發生了翻天覆地的變化,外界并不知道。我出去跟別人聊天,經常有人問我 OpenAI 是做什么的,我說 OpenAI 是要去做 AGI 的。這個時候我會看著對方的眼神,通常對方的眼神和表情傳達出來的是質疑,仿佛在說,這是一家騙子公司。
我是很享受這個過程的。大模型被證實了,這家公司做的事情也被證實了。
我覺得最終有價值的事情,都是要反共識且正確,be contrarian and right。如果是一件強共識的事情,它的相對價值要小很多。這也是為什么我在 2023 年那個時間點選擇離開 OpenAI,我認為那個時候大模型已經變成一件強共識的事了。
交互會重新定義機器人
DeepTech:你認為具身智能的終局是什么?
姜旭:我覺得很多人現在理解具身智能,還是一種“替代人”的邏輯。比如掃地、做飯、搬東西,本質上還是在復刻人已經會做的事情。但我覺得具身智能真正有意思的地方,是很多新的能力和價值,可能會從長期 interaction 里自然長出來。
前提是,它得先真正進入現實世界。
而這背后最核心的問題,其實還是:怎么 scale intelligence。可以這么理解,大模型這幾年真正成功的地方,本質上是第一次把很多技術用一個正確的順序組合了起來。先通過預訓練,在全互聯網數據上完成大規模的模仿學習;之后再通過強化學習、對齊、reasoning,把這些能力一步一步真正釋放出來。
很多過去失敗的探索,并不是算法本身錯了,而是順序錯了。在預訓練這套范式真正被走通之前,很多 AGI 的探索其實都集中在強化學習,前大模型時代的 NLP 本質上在做對齊。
今天具身智能領域,其實也很像那個階段。真機數據、遙操、真機強化學習這些方向當然有價值,但它們更適合“后訓練”。這個行業到今天為止,其實還沒有真正解決“具身預訓練”這個問題。
缺少一個足夠強的預訓練基座,模型就很難真正獲得對物理世界的泛化理解,也很難長期在真實世界里持續移動、觀察、interaction。
真正大的變化,會發生在這之后。當 intelligence 能夠長期存在于現實世界,并持續 interaction,它會逐漸形成對環境、對人、對生活本身的理解。很多今天還不存在的 intelligence、interaction,甚至新的價值形態,可能都會從這里開始出現。
DeepTech:那這個終局,跟人的關系會是什么樣的?
姜旭:從能力演進的角度,我覺得具身智能最后會和大語言模型很像。它會先去模仿人,然后逐漸超越人的能力。今天的代碼模型,已經能看到非常明顯的跡象了,它已經不只是輔助人寫代碼,而是在進入一種新的協作狀態。具身智能以后也會是類似的過程。
但我覺得更重要的一點是,當具身智能長期存在于真實世界里,長期和人共享空間、共享環境,這里最關鍵的變化是:interaction 的時間尺度變了。
當 interaction 從幾秒鐘的一次調用,變成長期共存之后,它和人的關系也會發生本質變化。它不再只是“執行一個任務”,而會開始逐漸理解人的習慣、環境的變化、空間里的隱含規律,慢慢形成一種對真實世界的“具身直覺”(embodied intuition)。
到那個時候人和 AI 可能會一起創造出很多過去根本不存在的新價值、新行為,甚至新的生活方式。
DeepTech:要實現你說的這種機器人,它需要具備哪些能力?怎么排優先級?
姜旭:整個大模型的研發思路,并不是從需求出發去倒推說我們要做什么,它是反過來的,是從數據紅利出發。我們看這個世界上存在最大量的數據是什么,就從這些數據里把它蘊含的豐富信息做一個深度挖掘,這是大模型范式的本質。
所以沿著我們的思路,首先是能夠全面地模仿和學習人的各種各樣的能力,這取決于現有的存量數據里包含了哪些人的行為和動作。
關于技術演進的路徑,我們跟這個領域有一些不太一樣的觀點。我認為最開始能夠解鎖出來的,是通用移動的能力,是 mobility。它會最先在模型能力上突破,并且能最快形成商業閉環、最快商用。下一步才是通用 manipulation,模型能力上才足夠強,并找到合適的應用落地場景,形成商業閉環。順序上是先通過 mobility,讓具身智能安全地進入物理世界,下一步再去談如何用技能改變物理世界。
mobility 和 manipulation 這兩個,對應到大語言模型的發展歷史,相當于是 language 和 coding 之間的關系。一開始 language 的存量數據最大,能力上率先突破,找到一個合適的產品形態,就是 ChatGPT。隨著模型研發的進展、language 能力的提升以及 coding 本身能力的提升,最終才解鎖出 Claude Code 和 Codex 這種全新的產品形態,大規模發揮經濟價值。
DeepTech:也有點像人類,先從爬行、走路開始,再去學各種能力。
姜旭:對,它首先要能在開放的物理世界里安全地移動。
DeepTech:你之前在小紅書上提到你們最初的產品要先做一些好玩的東西,那么第一款產品具體會是什么樣的?
姜旭:我覺得“好玩”其實是一個很重要的詞。因為很多人會默認,機器人最重要的是“完成任務”。但如果你回頭看大模型的發展過程,會發現真正讓 AI 爆發的,其實并不是一開始就去解決生產力問題,而是 interaction。
ChatGPT 最早改變世界,也不是因為它先替人完成了什么復雜工作,而是它第一次讓大規模用戶開始自然地和 AI 交互。具身智能很多新的能力和價值,未必是一開始被設計出來的,而可能是在長期與人共存和交互中長出來的。所以我們第一代產品從能力上來說,它會具備通用的 mobility,以及通用的思考和 interaction 能力。
DeepTech:會是之前一些報道提到的那種陪伴型機器人嗎?
姜旭:“陪伴”本身并不是一種產品類型,它更像是長期共存和交互之后自然產生的一種結果、一種情緒上的價值。但我們真正感興趣的,并不只是情感價值。
更重要的是,當 intelligence 開始長期存在于真實世界,并持續 interaction 之后,它會不會開始產生很多額外的新價值。因為如果你仔細觀察,人類在現實世界里絕大部分時間,其實都不是在“操作”。更多時候,我們是在移動、觀察、思考。
按照之前的推演,我們會把率先能夠解鎖出來的移動能力去商業化,讓機器人能夠在物理世界里面主動地移動、觀察和交互,把數字世界的 agent 延伸到物理世界,實現 embodied agent。
DeepTech:我感覺現在不少人對你們的了解,可能還停留在“陪伴機器人”上。
姜旭:我們本質上還是一家基模公司,只不過做的是具身基礎模型。基模賽道有一種說法叫做“模型即是產品”,在具身領域應該是基模+硬件本體就是產品,未來我們的模型會有各種形態的“殼”,首先從一個輕巧的 embodied agent 開始,未來會有搭載我們模型的各種形態機器人產品。
DeepTech:這款產品大概多久之后能見到?
姜旭:再保留點神秘感,但肯定不會是兩年之后了!
DeepTech:你們定位是具身大模型公司,硬件本體打算自己造嗎?
姜旭:我們暫時是自己造。背后核心的原因是,整個行業還處在非常早期,還沒有形成標準和共識。雖然存在具身智能這樣一個大賽道,但大家訓練模型的方式、算法路徑、產品落地的方向、應用的場景,事實上五花八門,每家公司都有自己的答案。這個時間點,很難找到上下游的供應商來配合我們,去 exactly 打造一個能適配我們模型能力的硬件。
我們這套思路最核心的,是圍繞模型能力的變化來思考:在什么時間點能解鎖出什么樣的模型能力,我們就如何打造一款合適形態的產品。跟大模型研發和迭代的思路非常像,并不是一個傳統的、去做消費級機器人的思路。所以暫時我們只能端到端地既做模型訓練,又去定義和打造自己的硬件。
但長久看,我們會希望把模型變成一個開放的生態,去跟領域里各種各樣形態的硬件完成適配。
最終依賴的還是人
DeepTech:你團隊的規模現在有多大?
姜旭:現在全職大概六十人左右。
DeepTech:你的團隊背景很多樣,來自 OpenAI、大疆、微軟、華為、字節。你剛才也提到,OpenAI 早期團隊是比較割裂的。在組建團隊時,你會有意識地去避免這個問題嗎?
姜旭:非常好的問題。我認為 OpenAI 成功一個很核心的原因,是它后面形成的扁平文化和非常高效的組織。
我的判斷是,本質上我們就是一家多模態大模型公司,一定要采用最頂尖大模型公司的組織模式:保持一個小的團隊,保持非常高的人才密度,打造一個扁平、高效的組織。
從創立開始一年多,我也做了蠻多探索和思考。對 OpenAI 來說有一個相對容易的點,它需要的主要就是做算法的人,相似的人想法更容易統一,思考問題、做事情的方式更容易接近。對我們來說,一個核心挑戰是,團隊里既有做硬件的,又有做軟件算法的,算法這邊又分成機器人算法、大模型,還有傳統的軟件工程,是背景非常不一樣的一群人。
最終我摸索下來,發現答案其實蠻簡單的。這樣一個扁平的組織,最終不依賴于組織的結構和規則來做事情,更多依賴于人。
DeepTech:所以核心難點是篩選人?
姜旭:對,所有管理的難度都放到了篩選人這一步。篩選人又包含兩種類型。一種是已經有一些工作經驗、在職場里形成了工作習慣的人,對這些人,我們一定要按我們的標準去衡量,看他是否能適應、是否符合我們想打造的扁平文化組織的要求。另一種是可塑性更強、更白紙的,剛畢業甚至還沒畢業的學生,這些人可以在我們團隊文化磨合得比較好的情況下,在內部培養和訓練。
DeepTech:識別人這件事,是不是也需要一種 taste?
姜旭:完全是的。我在 OpenAI 期間也見過大量非常優秀的人,優秀體現在不僅僅是技能、業務水平層面,更重要的是 ownership。OpenAI 招人的時候非常喜歡招有創業經歷的人,這可能也跟 Sam Altman 的背景有關,他之前是 YC 的 president,OpenAI 也有大量人之前是 YC 的 founder。這些人除了業務能力之外,通常會有非常強的主人翁精神,會把公司的事情當成自己的事情來做。
DeepTech:那么你招人時,最看重的特質是什么?
姜旭:主要是三個方面。第一個是最基本的業務能力,他在所處的模塊上,技能要達到一定水平。其次是 ownership,主人翁精神,他是不是能把這些事情當成自己的事情來做。這個非常重要,因為一個扁平文化的組織本質上是沒有管理的,要每個人管理自己,同時管理項目,甚至管理其他人,所以對人的要求極其高。第三個方面,是一個人做選擇的能力和 taste。
這三個方面如果都很優秀,這個人就是一個很好的 manager。所以我們現在在公司里選了很多優秀的 manager,但是大家都沒有 manager 的 title,大家在這樣一個文化里共同管理、共同治理公司。
DeepTech:目前的團隊,在這個階段夠了嗎?
姜旭:我們整體的團隊擴張速度還是比較慢的,招人一直保持著比較高的篩選標準,很克制,所以我們幾乎所有崗位都有空缺。
現階段尤其是大模型方向,我們大模型團隊招的人普遍都是大模型公司背景的。這一定程度上跟我自己之前的經歷和 OpenAI 的光環有關,這個光環也能幫我們吸引到大模型領域一些頂尖的選手,加入我們一起訓練具身的 foundation model。
事實上,我們訓練的這個具身 foundation model 從整個體量到挑戰,已經不亞于訓練任何其他領域的 foundation model 了。也借這個機會說一句,我們現在一直在招人。如果你身上有我剛說的這三點特質,又相信從預訓練出發去做具身基礎模型這條路徑,想跟我們一起把具身的 foundation model 訓出來,歡迎你來找我們聊。
DeepTech:海內外的同行里,你覺得做得比較好、比較有代表性的有哪些?
姜旭:我會比較關注那些大模型公司下場去做這件事,比如我的老東家 OpenAI,我會關注他們的進展。Google 不太好說,Google 和 OpenAI 還是兩碼事,兩家公司在組織文化上其實有非常大的差異。
大公司里有非常多工作的人,但缺少 owner,大公司始終有這么一個困境,Google 也始終會有這個挑戰。
今天要在這個領域實現突破,需要的方法和技能,exactly 就是大模型那套東西。我更相信會有一些大模型公司在這個領域里比較早地做出突破。如果一個團隊里缺乏足夠多的大模型經驗和 knowhow,會碰到比較多的挑戰。
DeepTech:2026 年以來這幾個月,國內具身智能賽道已經有好幾家上百億估值的公司了。你怎么看這個賽道如今的熱度?
姜旭:一個蓬勃發展的行業,早期一定會有一些泡沫,泡沫本身是一個正常的現象。
稍微不太合理的地方在于,一些公司喜歡對標同行,缺乏獨立的探索和創造,也缺乏對行業前沿的更有力的突破和推動。
DeepTech:你一開始說,你們今年一個很重要的主題也是融資,那你們進展如何?
姜旭:我們正在 close 新的一輪融資。我們在融資節奏上,也做了一個有點反共識的選擇。
去年上半年我們融完了一輪,當時市場還是蠻火熱的。但我相信具身智能、AI 是這個時代的大主題,是全社會、全世界會 all in 的大方向。在 AI 時代大浪潮里,資源并不是最稀缺的,一個頂尖的團隊和一條真的能實現智能突破的研發路徑,才是最稀缺的。我們去年一年都在打造團隊、探索模型研發路徑和產品落地方向。今年我們除了融資外,還會有更多的對外發聲;要推動范式級別的改變一定是需要更多人的參與。
我們就活在科幻里面
DeepTech:你說你們的模型現在到了 GPT-2.5 的時刻。那距離真正的 ChatGPT 時刻,還有多遠?
姜旭:按照我們這條路徑,我們在年底之前應該能夠實現,相當于從 2.5 到 3.5,跨越一代模型。跨越一代要有一百倍的提升。對我們來說,以目前的水平為基礎,再提升一百倍應該不會是一個根本性的挑戰。
DeepTech:這個答案有點出乎我的意料,我以為會更慢一點。
姜旭:我對我們目前所走的這條路徑,極其樂觀,極其有信心。
DeepTech:今年年底有點太近了,我們再來展望更遠一點的事吧,在今年之外,你未來三到五年乃至以后的目標是什么?
姜旭:我的大判斷是,具身智能會沿著大模型走過的路徑,把大模型重要的那些里程碑再走一遍。
首先是完成預訓練,預訓練的突破和 3.5 時刻會是行業的拐點,具身智能產品才會開始大規模地落地應用,出現在我們的生活里,進一步收集到全新的、真實世界的數據。這有點像今天的 Coding Agent,當大模型做長程任務、寫代碼的能力突破到一定程度,開始能完整地交付工作,進入到用戶的電腦這樣一個更復雜、全新的環境,而那些數據是之前模型見不到、互聯網上也不存在的。由此就形成了數據飛輪。
大模型是要在數字世界里模仿和超越人的能力,具身是要在物理世界里模仿和超越人,三到五年左右,大概率會全面地超越人的能力。
DeepTech:在這個過程中,你現在最期待的一件事是什么?
姜旭:具身智能的 ChatGPT 時刻,模型能力強到可以大規模地進入到物理世界,進而出現第一個 PMF 的產品之后,數據飛輪和商業飛輪都會轉起來。在這個基礎之上,通用具身智能將會看起來不再那么遙遠和不可想象。
DeepTech:那你比較擔心的問題有哪些?
姜旭:我以前在 OpenAI 的四年期間,前后差不多有一年多時間都在對齊的團隊里。對齊核心要解決的一個非常關鍵的問題,就是安全。
具身智能存在非常類似的問題。它的技術演進路徑會跟大模型非常像,存在的風險也會跟大模型非常類似。安全問題是急需整個領域去關注、提前思考、研究和布局的方向。
看得更遠一點,現代文明社會是人創造的,但當這個星球上出現了一個從智力和體力上都全面超越人的全新群體之后,是否會影響到我們今天的文明,我們的文明會如何演變,是每個人都要去思考的問題。
DeepTech:這是一個聽起來非常科幻、又非常現實的問題。
姜旭:是的。當智能開始長期存在于物理世界,它就不再只是一個被調用的工具、而是可以通過持續觀察、持續學習、持續交互和操作反過來影響現實世界本身。
那時候,人類面對的就不再只是一次技術升級,而是一種新的“存在”。
我們其實已經活在科幻里了。
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.