獨家｜姚頌三度創(chuàng)業(yè)，獲近億美元融資入局物理智能

2026-06-23 10:49:50　來源: DeepTech深科技

北京舉報

分享至

34 歲的姚頌，開始了他的第三次創(chuàng)業(yè)。

如果在中國的前沿科技創(chuàng)業(yè)圈里選出幾個標(biāo)志性人物，姚頌大概率會在名單上。

2016 年，畢業(yè)于清華大學(xué)電子工程系后，他與本科導(dǎo)師、清華教授汪玉以及斯坦福大學(xué)韓松博士聯(lián)合創(chuàng)辦了 AI 芯片公司深鑒科技（Deephi Tech），并擔(dān)任 CEO，彼時他只有 24 歲。兩年后，深鑒科技以 3 億美金被賽靈思（Xilinx）收購，成為中國 AI 芯片領(lǐng)域第一家實現(xiàn)退出的創(chuàng)業(yè)企業(yè)。同年，他入選首屆《麻省理工科技評論》中國區(qū)“35 歲以下科技創(chuàng)新 35 人”。

2020 年，28 歲的姚頌再次創(chuàng)業(yè)，聯(lián)合創(chuàng)立商業(yè)航天公司東方空間，創(chuàng)造了全球最大固體運載火箭等多項紀(jì)錄。

每隔幾年，他都帶來一個新愿景。只是這次，他的愿景不在數(shù)字世界，而在物理世界；不在天上，而在人們的生活之中。

姚頌的新公司叫 Striding AI，中文名“正行創(chuàng)新”。這是他們第一次對外發(fā)聲。

公司由姚頌聯(lián)合正大集團、清華青年學(xué)者于超共同發(fā)起，定位為物理智能系統(tǒng)公司，通過世界動作模型（WAM）與強化學(xué)習(xí)技術(shù)，推動機器人在真實商業(yè)與工業(yè)場景中落地，最終成為一個可信賴的機器人服務(wù)提供商。目前已完成近億美元天使輪系列融資，投資方包括正大集團、華勤技術(shù)、九安醫(yī)療等多家上市企業(yè)，多位國內(nèi)與國際知名企業(yè)家，以及多家一線投資機構(gòu)。

“正行創(chuàng)新”這個名字，承載了兩層含義：一方面，它對應(yīng)著人類正邁入物理智能時代的歷史進程；另一方面，則體現(xiàn)了他所認(rèn)同的價值觀：無論是做人還是創(chuàng)業(yè)，都應(yīng)當(dāng)“行得正坐得端”。

“我們想從技術(shù)邏輯、商業(yè)邏輯上站得住腳，做一個令人尊重的企業(yè)。”姚頌向 DeepTech 表示。

為什么是物理智能？

過去兩年，當(dāng)人們談到讓 AI 走進物理世界，“具身智能”是最常被提起的詞匯。姚頌認(rèn)為，這個概念更多描述的是一種形態(tài)，即把智能裝進一個有軀體的機器人里。他想完成的事用另一個詞更貼切：“物理智能”（Physical Intelligence）。

這一提法與英偉達(dá)黃仁勛近年來反復(fù)強調(diào)的“Physical AI”有相通之處。黃仁勛在今年CES 的主題演講中將AI 的演進劃分為感知 AI、生成式 AI、智能體 AI 和物理 AI 四個階段，并將 Physical AI 描述為 AI 發(fā)展的下一個前沿：機器不僅要理解語言和數(shù)字世界，還要理解并預(yù)測真實世界的運行規(guī)律。

(來源：NVIDIA）

姚頌有著類似的看法。在他看來，真正的挑戰(zhàn)不是讓機器人擁有一副軀體，而是讓它理解物理世界的運行規(guī)則：無論是牛頓定律、動量守恒，還是物體的密度與摩擦力。當(dāng)機器人看到一杯水，知道該用多輕的力去端；換成同樣大小的金屬塊，則能夠預(yù)判它遠(yuǎn)比看上去更重。這種對物理常識的內(nèi)化，才是機器人從“表演動作”走向“真正做事”的關(guān)鍵跨越。

而從航天到物理智能，對于姚頌來說并不是一次突然轉(zhuǎn)向，而是他過去十年興趣與判斷的延伸。

他第一次創(chuàng)業(yè)做 AI 芯片，原因其實很簡單。起點是他在高中時讀到一篇關(guān)于三維集成電路的報道，“覺得很酷，所以就開始了”。第二次創(chuàng)業(yè)做商業(yè)航天，則源于他從小對軍工和航天的熱愛。而當(dāng)創(chuàng)業(yè)實現(xiàn)了個人層面的目標(biāo)之后，他開始思考一個更大的問題：哪些技術(shù)能夠為人類社會提供更大的價值？

也是從那時起，他開始形成了一套選擇技術(shù)方向的框架。

在他看來，對人類最重要的技術(shù)大致可以分為三類。第一類關(guān)乎整個人類文明的發(fā)展，例如航天、核聚變和環(huán)保，它們決定人類能否走出地球、獲得近乎無限的能源，以及守護賴以生存的家園；第二類關(guān)乎每個個體的生存、健康與幸福，例如農(nóng)業(yè)、醫(yī)療、腦科學(xué)和抗衰老；第三類則介于整體與個體之間，解決的是社會協(xié)作效率的問題，讓組織和系統(tǒng)能夠以更低成本、更高效率運轉(zhuǎn)，AGI（通用人工智能）和機器人就屬于這一類。

三次創(chuàng)業(yè)，他都在這個框架中尋找方向。標(biāo)準(zhǔn)始終沒有變化：既要足夠重要，也要足夠熱愛。“創(chuàng)業(yè)選擇很像一組乘法。”他說，“個人興趣、市場判斷、時代機遇，哪個因素是零，最后結(jié)果都是零。”

按照這套標(biāo)準(zhǔn)衡量，物理智能幾乎同時滿足了所有條件。

一方面，它所對應(yīng)的市場空間極其龐大。姚頌認(rèn)為，大模型所創(chuàng)造的價值，本質(zhì)上對應(yīng)的是數(shù)字經(jīng)濟；而物理智能和機器人最終能夠創(chuàng)造的價值，則對應(yīng)著整個現(xiàn)實世界中的生產(chǎn)與服務(wù)活動。“AI 大模型能產(chǎn)生的經(jīng)濟價值，對標(biāo)的是整個數(shù)字經(jīng)濟。而物理世界機器人能夠產(chǎn)生的價值，對標(biāo)的是所有第二產(chǎn)業(yè)和第三產(chǎn)業(yè)在現(xiàn)實世界創(chuàng)造的產(chǎn)值。”

另一方面，這仍然是一片尚未被定義的領(lǐng)域。在他看來，今天的物理智能行業(yè)仍處于極早期階段，既沒有形成統(tǒng)一架構(gòu)，也沒有出現(xiàn)被廣泛驗證的技術(shù)路線。所有參與者都在摸索前進。“如果說現(xiàn)在的大語言模型已經(jīng)到了博士水平，各家的物理智能模型可能還在幼兒園水平。”

雖然下一階段的答案還不明晰，但姚頌相信，技術(shù)演進中始終存在一些不會改變的東西。他記得一位做了十年 AI 的朋友曾告訴他，回頭看，自己每個階段押注的算法，沒有一個能夠永遠(yuǎn)領(lǐng)先。真正重要的并不是押中某條具體路線，而是建立起一種能力：無論新的技術(shù)范式何時出現(xiàn)，都能最快把它變成可落地、可交付的產(chǎn)品。

這也是為什么正行創(chuàng)新并不把自己定義為一家單純的算法公司或機器人公司，而是一家“物理智能系統(tǒng)公司”。姚頌希望團隊盡可能打通從底層模型、軟硬件系統(tǒng)到真實場景落地的完整鏈條。這樣即便未來出現(xiàn)新的模型架構(gòu)、新的數(shù)據(jù)范式，甚至全新的技術(shù)路線，公司也能夠快速吸收、驗證和迭代，而不是被綁定在某一種既定方案之上。

在隱空間里理解物理世界

如果說“物理智能系統(tǒng)公司”回答的是正行創(chuàng)新想成為什么樣的公司，那么世界動作模型（World Action Model，WAM）就是它目前的技術(shù)答案。

過去一年，曾經(jīng)炙手可熱的 VLA 路線受到了持續(xù)的質(zhì)疑和反思。行業(yè)開始把目光轉(zhuǎn)向世界模型（World Model）。

和 VLA 的“看一步做一步”不同，世界模型試圖讓機器人先在內(nèi)部“想象”出動作執(zhí)行后物理環(huán)境會發(fā)生什么變化，再據(jù)此做出決策。某種意義上，是讓機器人具備“預(yù)見未來”的能力。而世界動作模型（WAM）在此基礎(chǔ)上更進一步：不是先想象畫面再單獨提取動作指令，而是讓對環(huán)境的預(yù)測和對動作的生成在同一個模型中同步完成。

在 WAM 內(nèi)部，也分化出了不同的技術(shù)路線。目前最受關(guān)注的是英偉達(dá)的 DreamZero，它基于視頻擴散模型，在像素級別同時預(yù)測未來畫面和生成動作，本質(zhì)上仍然是一種視頻生成的思路。

圖｜英偉達(dá)DreamZero 技術(shù)圖（來源：NVIDIA）

姚頌認(rèn)為這條路“很難走通”。他的推理從一個簡單的對比開始：物理世界復(fù)雜還是數(shù)字世界復(fù)雜？

答案肯定是前者。“數(shù)字世界是結(jié)構(gòu)化的、離散的；物理世界是非結(jié)構(gòu)化的、連續(xù)的。它們不是一個量級的復(fù)雜。”如果大語言模型處理數(shù)字世界的語義已經(jīng)需要數(shù)萬億參數(shù)，那么要用視頻生成的方式精確還原物理世界的每一幀畫面，參數(shù)量可能要再大幾個數(shù)量級。

而且物理智能和大語言模型之間，還有一個常被忽視的重要區(qū)別：物理世界對“實時性”有剛性要求。大語言模型每秒輸出幾十個文字，用戶可以等；但機器人在現(xiàn)實中工作，必須像人眼一樣以每秒 30 幀的速度持續(xù)感知和決策，慢一幀就可能打翻杯子或撞到障礙物。

他指出，目前行業(yè)里不少世界模型的演示視頻其實是以 5 倍、10 倍乃至 20 倍速播放的，掩蓋了當(dāng)前模型實際運行的速度遠(yuǎn)遠(yuǎn)達(dá)不到現(xiàn)實所需。一個龐大到能精確預(yù)測每個像素的模型，不可能在機器人搭載的芯片上實時運行。“在所有的模型評估里，只看正確率不看速度，是有問題的。”

為了解決這些問題，正行創(chuàng)新切入了 WAM 中的另一個分支：在隱空間（latent space）中工作。

團隊選擇了 LaWAM（Latent World Action Model，隱空間世界動作模型）路線。通俗地說，就是不直接處理攝像頭拍到的每一個像素，而是先把畫面壓縮成一個更精簡的信息表示，剝離掉那些對機器人操作沒有實際影響的表面信息：物體的花紋、屏幕上顯示的文字、遠(yuǎn)處不需要觸碰的背景物等，只保留與物理交互真正相關(guān)的核心要素。

在這個精簡的空間里，模型只需要學(xué)習(xí)兩件事：一是基礎(chǔ)物理定律，牛頓三大定律、動量守恒；二是物理常識，看到水就知道該用什么力度去端，換成同樣大小的其他物品，則需要預(yù)設(shè)一個完全不同的力。“我可能更希望把它叫做物理空間或者規(guī)則空間，”姚頌說。

這條路線的代價是犧牲一部分像素級的還原能力，但換來的是實時性。目前團隊發(fā)布的 LaWAM 1.0 是一個 23 億參數(shù)的模型，在 Libero 基準(zhǔn)測試中，平均任務(wù)成功率達(dá) 98.6%，同時在成功率和推理速度兩項指標(biāo)上均達(dá)到業(yè)界最優(yōu)水平。與 DreamZero 這類視頻生成式路線相比，LaWAM 一次動作規(guī)劃大約只需要 187 毫秒，在保持高成功率的同時，也顯著減輕了實時推理的負(fù)擔(dān)。

而這只是路線圖的起點。團隊已規(guī)劃了從 1.0 到 3.0 的演進路徑：2.0 將把參數(shù)規(guī)模提升至 50 億，使用兩萬小時視頻數(shù)據(jù)進行預(yù)訓(xùn)練，實現(xiàn)跨本體的通用動作表示；3.0 則將參數(shù)推至 100 億，使用百萬小時真實場景數(shù)據(jù)訓(xùn)練，最終目標(biāo)是讓模型能夠直接泛化應(yīng)用于便利店、工廠、商超等真實工作場景，開箱即用、具備高泛化性，進一步疊加團隊的Human-in-the-Loop（人在環(huán)路）強化學(xué)習(xí)方案，成功率達(dá)到 95% 以上。

姚頌認(rèn)為，WAM 的 scaling law 在未來兩三年內(nèi)會持續(xù)有效，“它的上限比 VLA 要高很多”。

速度優(yōu)勢外，正行創(chuàng)新還有一層重要的支撐。正行創(chuàng)新的聯(lián)合發(fā)起人、清華大學(xué)助理教授于超，同樣師從清華汪玉教授，與姚頌有著同門默契。她長期深耕強化學(xué)習(xí)與機器人研究，主導(dǎo)提出的多智能體強化學(xué)習(xí)算法 MAPPO 已成為領(lǐng)域基準(zhǔn)方法，并主導(dǎo)開發(fā)了一套名為 RLinf 的開源具身智能強化學(xué)習(xí)框架。

如果說世界動作模型決定了機器人“學(xué)什么”，RLinf 解決的則是“怎么高效地學(xué)”。它專門針對具身智能場景設(shè)計了一套訓(xùn)練調(diào)度系統(tǒng)，能讓同樣的算力跑出比傳統(tǒng)方案高一倍以上的訓(xùn)練效率。這套框架開源不到一年，已在 GitHub 上獲得近 4,000 顆星標(biāo)，被英偉達(dá) IsaacLab 接入，也被海內(nèi)外多家頭部機器人企業(yè)和頂尖高校采用。

先找到場景，再實現(xiàn)通用

除了技術(shù)路線，正行創(chuàng)新和多數(shù)具身智能公司還有一點顯著不同：目前行業(yè)中更常見的路徑是先做通用技術(shù)，再找場景落地，而正行創(chuàng)新則一開始就綁定了真實場景。

公司的兩大重要股東——正大集團和華勤技術(shù)，錨定了兩個落地方向。正大集團是亞洲最具代表性的跨國企業(yè)之一，業(yè)務(wù)橫跨零售、農(nóng)業(yè)、食品等多個領(lǐng)域，遍及全球 20 多個國家，為正行創(chuàng)新打開的是消費零售場景：便利店、商超、門店中那些高頻、繁重、重復(fù)的工作。華勤技術(shù)則是全球領(lǐng)先的智能產(chǎn)品平臺型公司，擁有覆蓋 3C 全品類的研發(fā)與制造能力，對應(yīng)的是電子制造產(chǎn)線上的精密操作需求。

這些豐富的場景也帶來了另一項更重要的核心資源：數(shù)據(jù)。

早在十年前，姚頌曾和一位自動駕駛創(chuàng)業(yè)者討論過：做自動駕駛最重要的東西是什么？對方的回答是“50% 數(shù)據(jù)，30% 算力，20% 人的經(jīng)驗和靈感”。在他看來，這個判斷放到物理智能領(lǐng)域同樣成立。依托深度合作，正行創(chuàng)新能夠持續(xù)獲取大量低成本、高質(zhì)量、且外界難以觸達(dá)的真實場景數(shù)據(jù)。“完全依賴商業(yè)采購數(shù)據(jù)，很難支撐一家公司訓(xùn)出足夠好的模型。”

同樣寶貴的還有試錯空間。有了戰(zhàn)略級合作關(guān)系，團隊可以先進場驗證方案、跑通流程，而不會被投資回報率束縛。對于仍處在早期的物理智能行業(yè)，這種容錯空間尤為稀缺。

講到這里，姚頌提及自動駕駛行業(yè)的歷史。十年前，那些聚焦礦山、港口、園區(qū)物流等特定場景的自動駕駛公司，大多活到了今天；而不少一開始就瞄準(zhǔn)純 L4 通用自動駕駛的玩家，已經(jīng)消失在行業(yè)洗牌之中。

“通用不是一蹴而就的，”他說。“我不希望抱著一個技術(shù)理想，等到所有條件都成熟了才開始創(chuàng)造商業(yè)價值。”但他也強調(diào)，落地和通用之間必須保持平衡。場景是為了積累能力，而不是把自己做成一家純粹的定制化方案商。“技術(shù)路線一定是朝著通用演進的。”

機器人落地的真正考驗

如果通用能力需要在真實場景中逐步積累，那么現(xiàn)階段最重要的問題就不是機器人看起來是否足夠像人，而是能否真正創(chuàng)造價值、持續(xù)獲得數(shù)據(jù)，并形成能力閉環(huán)。這種思路也直接影響了正行創(chuàng)新對于產(chǎn)品形態(tài)和市場節(jié)奏的判斷。

在產(chǎn)品形態(tài)上，正行創(chuàng)新選擇同時推進輪式雙臂機器人和人形機器人兩條路線。姚頌并不否認(rèn)，人形機器人可能代表著最終形態(tài)，但在現(xiàn)階段，輪式平臺在成本、重心穩(wěn)定性和定位精度上仍具有明顯優(yōu)勢。電池可以放在底盤內(nèi)部，重心更低；運動和作業(yè)過程中的定位精度也能達(dá)到毫米級，而雙足機器人的步態(tài)控制目前還難以做到同等水平。

圖｜正行創(chuàng)新機器人概念圖（來源：正行創(chuàng)新）

姚頌打了個有趣的比方：“就像全可回收火箭是終極形態(tài)，但這并不妨礙行業(yè)先通過大火箭把成本降下來。”

市場選擇上，依托正大集團遍布全球的產(chǎn)業(yè)網(wǎng)絡(luò)，正行創(chuàng)新從成立之初便將海外市場作為重點方向。

姚頌認(rèn)為，具身智能的大規(guī)模商業(yè)化大概率會率先發(fā)生在勞動力短缺、用工成本高昂的地區(qū)。以日本為例，全國約 5.5 萬家便利店長期面臨嚴(yán)重的用工荒，不少門店被迫縮短營業(yè)時間，甚至依賴大量外籍勞動力維持運營。歐美服務(wù)業(yè)也存在類似問題。在這樣的市場環(huán)境里，機器人出海有著較長的機會窗口。

這些零售、倉儲和工業(yè)場景既是商業(yè)化落地的起點，也是通用能力成長的土壤：抓取任意物品、識別貨架、自主規(guī)劃復(fù)雜流程、與人協(xié)同工作……這些能力看似分散，卻都是未來通用機器人乃至家庭機器人必須掌握的基礎(chǔ)模塊。

但在具備能力之后，機器人是否就能馬上走進家庭？對于這個問題，姚頌的看法相對謹(jǐn)慎。

他認(rèn)為，這不僅關(guān)乎技術(shù)成熟度，更涉及整個行業(yè)需要共同解決的安全課題。“比如電池安全性，這是所有進入家庭環(huán)境的電子產(chǎn)品都繞不開的問題，需要整個產(chǎn)業(yè)鏈一起把基礎(chǔ)打牢。”他判斷，家庭機器人的普及節(jié)奏很可能會與固態(tài)電池等下一代關(guān)鍵技術(shù)的成熟同步發(fā)生。“先把基礎(chǔ)安全性做好，等行業(yè)標(biāo)準(zhǔn)和認(rèn)證體系逐步完善之后，功能和成本層面的突破會更順暢。”

等待物理智能的 GPT 時刻

在采訪尾聲，聊到對行業(yè)未來的期待時，姚頌將物理智能和大語言模型做了一個類比。他認(rèn)為后者能夠走到今天，經(jīng)歷了三個關(guān)鍵時刻：GPT-3.5 讓世界看到技術(shù)可行；DeepSeek 的開源讓公眾真正認(rèn)知到這項技術(shù)的價值；Claude Code 等編程應(yīng)用實現(xiàn)大規(guī)模營收，證明了商業(yè)可行性。

物理智能的這三個時刻，一個都還沒來。

“首先沒有拿出一個足夠通用、足夠智能的東西，讓大家覺得機器人真的能做這么多事。其次沒有實現(xiàn)一個像 DeepSeek 那樣的全民認(rèn)知時刻。現(xiàn)在公眾看到的還是機器人在跳舞，不是在干活。最后，沒有在任何一個領(lǐng)域形成大規(guī)模的收入和利潤。”

他希望正行創(chuàng)新能參與到這三個時刻當(dāng)中。在技術(shù)突破上，成為重要拼圖的一部分。“我們大概率不是 Transformer 這樣的東西的提出者，但有可能是它之后重要的改進者，或者往應(yīng)用方向延伸的貢獻(xiàn)者。”在落地上，讓人們在便利店、在工廠里真正看到機器人在提供服務(wù)，“不是在零售倉里面，而是在你身邊。”在商業(yè)化上，找到類似于 AI coding 之于大模型的“殺手級”場景。

這是一個很大的目標(biāo)。不過姚頌似乎已經(jīng)習(xí)慣了給自己設(shè)定大目標(biāo)。十年前他 24 歲，想做一顆改變 AI 計算的芯片；五年前他 29 歲，想造一枚送人上太空的火箭。這一次，他想讓機器人真正走進人們的生活。

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.