![]()
34 歲的姚頌,開始了他的第三次創(chuàng)業(yè)。
如果在中國的前沿科技創(chuàng)業(yè)圈里選出幾個標(biāo)志性人物,姚頌大概率會在名單上。
2016 年,畢業(yè)于清華大學(xué)電子工程系后,他與本科導(dǎo)師、清華教授汪玉以及斯坦福大學(xué)韓松博士聯(lián)合創(chuàng)辦了 AI 芯片公司深鑒科技(Deephi Tech),并擔(dān)任 CEO,彼時他只有 24 歲。兩年后,深鑒科技以 3 億美金被賽靈思(Xilinx)收購,成為中國 AI 芯片領(lǐng)域第一家實現(xiàn)退出的創(chuàng)業(yè)企業(yè)。同年,他入選首屆《麻省理工科技評論》中國區(qū)“35 歲以下科技創(chuàng)新 35 人”。
2020 年,28 歲的姚頌再次創(chuàng)業(yè),聯(lián)合創(chuàng)立商業(yè)航天公司東方空間,創(chuàng)造了全球最大固體運載火箭等多項紀(jì)錄。
每隔幾年,他都帶來一個新愿景。只是這次,他的愿景不在數(shù)字世界,而在物理世界;不在天上,而在人們的生活之中。
姚頌的新公司叫 Striding AI,中文名“正行創(chuàng)新”。這是他們第一次對外發(fā)聲。
公司由姚頌聯(lián)合正大集團、清華青年學(xué)者于超共同發(fā)起,定位為物理智能系統(tǒng)公司,通過世界動作模型(WAM)與強化學(xué)習(xí)技術(shù),推動機器人在真實商業(yè)與工業(yè)場景中落地,最終成為一個可信賴的機器人服務(wù)提供商。目前已完成近億美元天使輪系列融資,投資方包括正大集團、華勤技術(shù)、九安醫(yī)療等多家上市企業(yè),多位國內(nèi)與國際知名企業(yè)家,以及多家一線投資機構(gòu)。
“正行創(chuàng)新”這個名字,承載了兩層含義:一方面,它對應(yīng)著人類正邁入物理智能時代的歷史進程;另一方面,則體現(xiàn)了他所認(rèn)同的價值觀:無論是做人還是創(chuàng)業(yè),都應(yīng)當(dāng)“行得正坐得端”。
“我們想從技術(shù)邏輯、商業(yè)邏輯上站得住腳,做一個令人尊重的企業(yè)。”姚頌向 DeepTech 表示。
為什么是物理智能?
過去兩年,當(dāng)人們談到讓 AI 走進物理世界,“具身智能”是最常被提起的詞匯。姚頌認(rèn)為,這個概念更多描述的是一種形態(tài),即把智能裝進一個有軀體的機器人里。他想完成的事用另一個詞更貼切:“物理智能”(Physical Intelligence)。
這一提法與英偉達(dá)黃仁勛近年來反復(fù)強調(diào)的“Physical AI”有相通之處。黃仁勛在今年CES 的主題演講中將AI 的演進劃分為感知 AI、生成式 AI、智能體 AI 和物理 AI 四個階段,并將 Physical AI 描述為 AI 發(fā)展的下一個前沿:機器不僅要理解語言和數(shù)字世界,還要理解并預(yù)測真實世界的運行規(guī)律。
![]()
(來源:NVIDIA)
姚頌有著類似的看法。在他看來,真正的挑戰(zhàn)不是讓機器人擁有一副軀體,而是讓它理解物理世界的運行規(guī)則:無論是牛頓定律、動量守恒,還是物體的密度與摩擦力。當(dāng)機器人看到一杯水,知道該用多輕的力去端;換成同樣大小的金屬塊,則能夠預(yù)判它遠(yuǎn)比看上去更重。這種對物理常識的內(nèi)化,才是機器人從“表演動作”走向“真正做事”的關(guān)鍵跨越。
而從航天到物理智能,對于姚頌來說并不是一次突然轉(zhuǎn)向,而是他過去十年興趣與判斷的延伸。
他第一次創(chuàng)業(yè)做 AI 芯片,原因其實很簡單。起點是他在高中時讀到一篇關(guān)于三維集成電路的報道,“覺得很酷,所以就開始了”。第二次創(chuàng)業(yè)做商業(yè)航天,則源于他從小對軍工和航天的熱愛。而當(dāng)創(chuàng)業(yè)實現(xiàn)了個人層面的目標(biāo)之后,他開始思考一個更大的問題:哪些技術(shù)能夠為人類社會提供更大的價值?
也是從那時起,他開始形成了一套選擇技術(shù)方向的框架。
在他看來,對人類最重要的技術(shù)大致可以分為三類。第一類關(guān)乎整個人類文明的發(fā)展,例如航天、核聚變和環(huán)保,它們決定人類能否走出地球、獲得近乎無限的能源,以及守護賴以生存的家園;第二類關(guān)乎每個個體的生存、健康與幸福,例如農(nóng)業(yè)、醫(yī)療、腦科學(xué)和抗衰老;第三類則介于整體與個體之間,解決的是社會協(xié)作效率的問題,讓組織和系統(tǒng)能夠以更低成本、更高效率運轉(zhuǎn),AGI(通用人工智能)和機器人就屬于這一類。
三次創(chuàng)業(yè),他都在這個框架中尋找方向。標(biāo)準(zhǔn)始終沒有變化:既要足夠重要,也要足夠熱愛。“創(chuàng)業(yè)選擇很像一組乘法。”他說,“個人興趣、市場判斷、時代機遇,哪個因素是零,最后結(jié)果都是零。”
按照這套標(biāo)準(zhǔn)衡量,物理智能幾乎同時滿足了所有條件。
一方面,它所對應(yīng)的市場空間極其龐大。姚頌認(rèn)為,大模型所創(chuàng)造的價值,本質(zhì)上對應(yīng)的是數(shù)字經(jīng)濟;而物理智能和機器人最終能夠創(chuàng)造的價值,則對應(yīng)著整個現(xiàn)實世界中的生產(chǎn)與服務(wù)活動。“AI 大模型能產(chǎn)生的經(jīng)濟價值,對標(biāo)的是整個數(shù)字經(jīng)濟。而物理世界機器人能夠產(chǎn)生的價值,對標(biāo)的是所有第二產(chǎn)業(yè)和第三產(chǎn)業(yè)在現(xiàn)實世界創(chuàng)造的產(chǎn)值。”
另一方面,這仍然是一片尚未被定義的領(lǐng)域。在他看來,今天的物理智能行業(yè)仍處于極早期階段,既沒有形成統(tǒng)一架構(gòu),也沒有出現(xiàn)被廣泛驗證的技術(shù)路線。所有參與者都在摸索前進。“如果說現(xiàn)在的大語言模型已經(jīng)到了博士水平,各家的物理智能模型可能還在幼兒園水平。”
雖然下一階段的答案還不明晰,但姚頌相信,技術(shù)演進中始終存在一些不會改變的東西。他記得一位做了十年 AI 的朋友曾告訴他,回頭看,自己每個階段押注的算法,沒有一個能夠永遠(yuǎn)領(lǐng)先。真正重要的并不是押中某條具體路線,而是建立起一種能力:無論新的技術(shù)范式何時出現(xiàn),都能最快把它變成可落地、可交付的產(chǎn)品。
這也是為什么正行創(chuàng)新并不把自己定義為一家單純的算法公司或機器人公司,而是一家“物理智能系統(tǒng)公司”。姚頌希望團隊盡可能打通從底層模型、軟硬件系統(tǒng)到真實場景落地的完整鏈條。這樣即便未來出現(xiàn)新的模型架構(gòu)、新的數(shù)據(jù)范式,甚至全新的技術(shù)路線,公司也能夠快速吸收、驗證和迭代,而不是被綁定在某一種既定方案之上。
在隱空間里理解物理世界
如果說“物理智能系統(tǒng)公司”回答的是正行創(chuàng)新想成為什么樣的公司,那么世界動作模型(World Action Model,WAM)就是它目前的技術(shù)答案。
過去一年,曾經(jīng)炙手可熱的 VLA 路線受到了持續(xù)的質(zhì)疑和反思。行業(yè)開始把目光轉(zhuǎn)向世界模型(World Model)。
和 VLA 的“看一步做一步”不同,世界模型試圖讓機器人先在內(nèi)部“想象”出動作執(zhí)行后物理環(huán)境會發(fā)生什么變化,再據(jù)此做出決策。某種意義上,是讓機器人具備“預(yù)見未來”的能力。而世界動作模型(WAM)在此基礎(chǔ)上更進一步:不是先想象畫面再單獨提取動作指令,而是讓對環(huán)境的預(yù)測和對動作的生成在同一個模型中同步完成。
在 WAM 內(nèi)部,也分化出了不同的技術(shù)路線。目前最受關(guān)注的是英偉達(dá)的 DreamZero,它基于視頻擴散模型,在像素級別同時預(yù)測未來畫面和生成動作,本質(zhì)上仍然是一種視頻生成的思路。
![]()
圖 | 英偉達(dá)DreamZero 技術(shù)圖(來源:NVIDIA)
姚頌認(rèn)為這條路“很難走通”。他的推理從一個簡單的對比開始:物理世界復(fù)雜還是數(shù)字世界復(fù)雜?
答案肯定是前者。“數(shù)字世界是結(jié)構(gòu)化的、離散的;物理世界是非結(jié)構(gòu)化的、連續(xù)的。它們不是一個量級的復(fù)雜。”如果大語言模型處理數(shù)字世界的語義已經(jīng)需要數(shù)萬億參數(shù),那么要用視頻生成的方式精確還原物理世界的每一幀畫面,參數(shù)量可能要再大幾個數(shù)量級。
而且物理智能和大語言模型之間,還有一個常被忽視的重要區(qū)別:物理世界對“實時性”有剛性要求。大語言模型每秒輸出幾十個文字,用戶可以等;但機器人在現(xiàn)實中工作,必須像人眼一樣以每秒 30 幀的速度持續(xù)感知和決策,慢一幀就可能打翻杯子或撞到障礙物。
他指出,目前行業(yè)里不少世界模型的演示視頻其實是以 5 倍、10 倍乃至 20 倍速播放的,掩蓋了當(dāng)前模型實際運行的速度遠(yuǎn)遠(yuǎn)達(dá)不到現(xiàn)實所需。一個龐大到能精確預(yù)測每個像素的模型,不可能在機器人搭載的芯片上實時運行。“在所有的模型評估里,只看正確率不看速度,是有問題的。”
為了解決這些問題,正行創(chuàng)新切入了 WAM 中的另一個分支:在隱空間(latent space)中工作。
團隊選擇了 LaWAM(Latent World Action Model,隱空間世界動作模型)路線。通俗地說,就是不直接處理攝像頭拍到的每一個像素,而是先把畫面壓縮成一個更精簡的信息表示,剝離掉那些對機器人操作沒有實際影響的表面信息:物體的花紋、屏幕上顯示的文字、遠(yuǎn)處不需要觸碰的背景物等,只保留與物理交互真正相關(guān)的核心要素。
在這個精簡的空間里,模型只需要學(xué)習(xí)兩件事:一是基礎(chǔ)物理定律,牛頓三大定律、動量守恒;二是物理常識,看到水就知道該用什么力度去端,換成同樣大小的其他物品,則需要預(yù)設(shè)一個完全不同的力。“我可能更希望把它叫做物理空間或者規(guī)則空間,”姚頌說。
這條路線的代價是犧牲一部分像素級的還原能力,但換來的是實時性。目前團隊發(fā)布的 LaWAM 1.0 是一個 23 億參數(shù)的模型,在 Libero 基準(zhǔn)測試中,平均任務(wù)成功率達(dá) 98.6%,同時在成功率和推理速度兩項指標(biāo)上均達(dá)到業(yè)界最優(yōu)水平。與 DreamZero 這類視頻生成式路線相比,LaWAM 一次動作規(guī)劃大約只需要 187 毫秒,在保持高成功率的同時,也顯著減輕了實時推理的負(fù)擔(dān)。
而這只是路線圖的起點。團隊已規(guī)劃了從 1.0 到 3.0 的演進路徑:2.0 將把參數(shù)規(guī)模提升至 50 億,使用兩萬小時視頻數(shù)據(jù)進行預(yù)訓(xùn)練,實現(xiàn)跨本體的通用動作表示;3.0 則將參數(shù)推至 100 億,使用百萬小時真實場景數(shù)據(jù)訓(xùn)練,最終目標(biāo)是讓模型能夠直接泛化應(yīng)用于便利店、工廠、商超等真實工作場景,開箱即用、具備高泛化性,進一步疊加團隊的Human-in-the-Loop(人在環(huán)路)強化學(xué)習(xí)方案,成功率達(dá)到 95% 以上。
姚頌認(rèn)為,WAM 的 scaling law 在未來兩三年內(nèi)會持續(xù)有效,“它的上限比 VLA 要高很多”。
速度優(yōu)勢外,正行創(chuàng)新還有一層重要的支撐。正行創(chuàng)新的聯(lián)合發(fā)起人、清華大學(xué)助理教授于超,同樣師從清華汪玉教授,與姚頌有著同門默契。她長期深耕強化學(xué)習(xí)與機器人研究,主導(dǎo)提出的多智能體強化學(xué)習(xí)算法 MAPPO 已成為領(lǐng)域基準(zhǔn)方法,并主導(dǎo)開發(fā)了一套名為 RLinf 的開源具身智能強化學(xué)習(xí)框架。
如果說世界動作模型決定了機器人“學(xué)什么”,RLinf 解決的則是“怎么高效地學(xué)”。它專門針對具身智能場景設(shè)計了一套訓(xùn)練調(diào)度系統(tǒng),能讓同樣的算力跑出比傳統(tǒng)方案高一倍以上的訓(xùn)練效率。這套框架開源不到一年,已在 GitHub 上獲得近 4,000 顆星標(biāo),被英偉達(dá) IsaacLab 接入,也被海內(nèi)外多家頭部機器人企業(yè)和頂尖高校采用。
先找到場景,再實現(xiàn)通用
除了技術(shù)路線,正行創(chuàng)新和多數(shù)具身智能公司還有一點顯著不同:目前行業(yè)中更常見的路徑是先做通用技術(shù),再找場景落地,而正行創(chuàng)新則一開始就綁定了真實場景。
公司的兩大重要股東——正大集團和華勤技術(shù),錨定了兩個落地方向。正大集團是亞洲最具代表性的跨國企業(yè)之一,業(yè)務(wù)橫跨零售、農(nóng)業(yè)、食品等多個領(lǐng)域,遍及全球 20 多個國家,為正行創(chuàng)新打開的是消費零售場景:便利店、商超、門店中那些高頻、繁重、重復(fù)的工作。華勤技術(shù)則是全球領(lǐng)先的智能產(chǎn)品平臺型公司,擁有覆蓋 3C 全品類的研發(fā)與制造能力,對應(yīng)的是電子制造產(chǎn)線上的精密操作需求。
這些豐富的場景也帶來了另一項更重要的核心資源:數(shù)據(jù)。
早在十年前,姚頌曾和一位自動駕駛創(chuàng)業(yè)者討論過:做自動駕駛最重要的東西是什么?對方的回答是“50% 數(shù)據(jù),30% 算力,20% 人的經(jīng)驗和靈感”。在他看來,這個判斷放到物理智能領(lǐng)域同樣成立。依托深度合作,正行創(chuàng)新能夠持續(xù)獲取大量低成本、高質(zhì)量、且外界難以觸達(dá)的真實場景數(shù)據(jù)。“完全依賴商業(yè)采購數(shù)據(jù),很難支撐一家公司訓(xùn)出足夠好的模型。”
同樣寶貴的還有試錯空間。有了戰(zhàn)略級合作關(guān)系,團隊可以先進場驗證方案、跑通流程,而不會被投資回報率束縛。對于仍處在早期的物理智能行業(yè),這種容錯空間尤為稀缺。
講到這里,姚頌提及自動駕駛行業(yè)的歷史。十年前,那些聚焦礦山、港口、園區(qū)物流等特定場景的自動駕駛公司,大多活到了今天;而不少一開始就瞄準(zhǔn)純 L4 通用自動駕駛的玩家,已經(jīng)消失在行業(yè)洗牌之中。
“通用不是一蹴而就的,”他說。“我不希望抱著一個技術(shù)理想,等到所有條件都成熟了才開始創(chuàng)造商業(yè)價值。”但他也強調(diào),落地和通用之間必須保持平衡。場景是為了積累能力,而不是把自己做成一家純粹的定制化方案商。“技術(shù)路線一定是朝著通用演進的。”
機器人落地的真正考驗
如果通用能力需要在真實場景中逐步積累,那么現(xiàn)階段最重要的問題就不是機器人看起來是否足夠像人,而是能否真正創(chuàng)造價值、持續(xù)獲得數(shù)據(jù),并形成能力閉環(huán)。這種思路也直接影響了正行創(chuàng)新對于產(chǎn)品形態(tài)和市場節(jié)奏的判斷。
在產(chǎn)品形態(tài)上,正行創(chuàng)新選擇同時推進輪式雙臂機器人和人形機器人兩條路線。姚頌并不否認(rèn),人形機器人可能代表著最終形態(tài),但在現(xiàn)階段,輪式平臺在成本、重心穩(wěn)定性和定位精度上仍具有明顯優(yōu)勢。電池可以放在底盤內(nèi)部,重心更低;運動和作業(yè)過程中的定位精度也能達(dá)到毫米級,而雙足機器人的步態(tài)控制目前還難以做到同等水平。
![]()
圖 | 正行創(chuàng)新機器人概念圖(來源:正行創(chuàng)新)
姚頌打了個有趣的比方:“就像全可回收火箭是終極形態(tài),但這并不妨礙行業(yè)先通過大火箭把成本降下來。”
市場選擇上,依托正大集團遍布全球的產(chǎn)業(yè)網(wǎng)絡(luò),正行創(chuàng)新從成立之初便將海外市場作為重點方向。
姚頌認(rèn)為,具身智能的大規(guī)模商業(yè)化大概率會率先發(fā)生在勞動力短缺、用工成本高昂的地區(qū)。以日本為例,全國約 5.5 萬家便利店長期面臨嚴(yán)重的用工荒,不少門店被迫縮短營業(yè)時間,甚至依賴大量外籍勞動力維持運營。歐美服務(wù)業(yè)也存在類似問題。在這樣的市場環(huán)境里,機器人出海有著較長的機會窗口。
這些零售、倉儲和工業(yè)場景既是商業(yè)化落地的起點,也是通用能力成長的土壤:抓取任意物品、識別貨架、自主規(guī)劃復(fù)雜流程、與人協(xié)同工作……這些能力看似分散,卻都是未來通用機器人乃至家庭機器人必須掌握的基礎(chǔ)模塊。
但在具備能力之后,機器人是否就能馬上走進家庭?對于這個問題,姚頌的看法相對謹(jǐn)慎。
他認(rèn)為,這不僅關(guān)乎技術(shù)成熟度,更涉及整個行業(yè)需要共同解決的安全課題。“比如電池安全性,這是所有進入家庭環(huán)境的電子產(chǎn)品都繞不開的問題,需要整個產(chǎn)業(yè)鏈一起把基礎(chǔ)打牢。”他判斷,家庭機器人的普及節(jié)奏很可能會與固態(tài)電池等下一代關(guān)鍵技術(shù)的成熟同步發(fā)生。“先把基礎(chǔ)安全性做好,等行業(yè)標(biāo)準(zhǔn)和認(rèn)證體系逐步完善之后,功能和成本層面的突破會更順暢。”
等待物理智能的 GPT 時刻
在采訪尾聲,聊到對行業(yè)未來的期待時,姚頌將物理智能和大語言模型做了一個類比。他認(rèn)為后者能夠走到今天,經(jīng)歷了三個關(guān)鍵時刻:GPT-3.5 讓世界看到技術(shù)可行;DeepSeek 的開源讓公眾真正認(rèn)知到這項技術(shù)的價值;Claude Code 等編程應(yīng)用實現(xiàn)大規(guī)模營收,證明了商業(yè)可行性。
物理智能的這三個時刻,一個都還沒來。
“首先沒有拿出一個足夠通用、足夠智能的東西,讓大家覺得機器人真的能做這么多事。其次沒有實現(xiàn)一個像 DeepSeek 那樣的全民認(rèn)知時刻。現(xiàn)在公眾看到的還是機器人在跳舞,不是在干活。最后,沒有在任何一個領(lǐng)域形成大規(guī)模的收入和利潤。”
他希望正行創(chuàng)新能參與到這三個時刻當(dāng)中。在技術(shù)突破上,成為重要拼圖的一部分。“我們大概率不是 Transformer 這樣的東西的提出者,但有可能是它之后重要的改進者,或者往應(yīng)用方向延伸的貢獻(xiàn)者。”在落地上,讓人們在便利店、在工廠里真正看到機器人在提供服務(wù),“不是在零售倉里面,而是在你身邊。”在商業(yè)化上,找到類似于 AI coding 之于大模型的“殺手級”場景。
這是一個很大的目標(biāo)。不過姚頌似乎已經(jīng)習(xí)慣了給自己設(shè)定大目標(biāo)。十年前他 24 歲,想做一顆改變 AI 計算的芯片;五年前他 29 歲,想造一枚送人上太空的火箭。這一次,他想讓機器人真正走進人們的生活。
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.