網易首頁 > 網易號 > 正文申請入駐

復旦鐵三角：開辟最優物理AI路徑！時空一體世界動作模型問世

2026-05-31 13:08:37　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】當通用人工智能全面邁向物理世界，最缺的不是硬件，而是真正懂物理、會規劃、能落地的「大腦」。眸深智能STI-WM來了，打響中國原生物理AI全球領跑的第一槍！

當前，通用人工智能的競爭正從虛擬數字空間全面邁向真實物理世界，具身智能、機器人大腦已然成為AGI賽道的核心決勝高地。

當前行業主流的VLA視覺語言動作模型、通用世界模型、視頻推演方案，普遍存在空間感知精度不足、物理邏輯約束缺失、長時序規劃能力薄弱、真機落地魯棒性差等一系列痛點，無法支撐機器人實現真正的自主感知、自主推理、自主決策與穩定交互。

在物理AI產業快速迭代的關鍵節點，深耕世界動作模型底層技術五年的復旦系科創企業眸深智能，正式推出STI-WM時空一體世界動作模型（Spatiotemporally Integrated World Model）。

作為專為機器人原生打造的通用具身大腦，該模型以時空一體化建模、物理一致性約束、端到端原生融合為核心，徹底打破傳統模型的技術桎梏，開辟了物理世界AGI落地的最優技術路徑。

復旦+英特爾+英偉達，

學術成果穩居全球第一梯隊

眸深智能的技術突破，源于長期深耕的學術積淀與全棧工程能力。

公司核心團隊源自復旦大學深度學習實驗室，構建了學術科研、工程落地、產業商業化三位一體的頂級團隊架構：

由復旦大學未來信息創新學院教授、深度學習實驗室主任陳濤坐鎮科研底層，

原英特爾中國首席科學家張益民博士和來自英偉達的技術負責人掌舵工程化落地，

95后復旦連續創業者穆澤林主導商業化布局，形成實力強勁的「復旦鐵三角」核心陣容。

團隊超九成核心研發人員來自復旦大學，匯聚百余名校碩博人才，自2021年行業風口未至之時，便前瞻性布局世界模型、三維感知、時序動作生成三大底層核心技術，持續深耕技術攻堅。

多年來，團隊斬獲多項全球頂尖賽事冠軍與頂級學術榮譽：

推出全球首個人形動作生成大模型MotionGPT、三維世界模型HL3DWM；

拿下ICCV 2023全球三維目標識別冠軍、CVPR 2024三維密集語義推理冠軍，斬獲IJCAI 2025杰出論文獎，是近五年國內唯一斬獲該獎項的具身智能團隊，團隊技術負責人斬獲2025年中國具身智能新秀EAI榜單20強。

其原創技術成果被英偉達DAIR等國際頂尖實驗室引用，學術創新與工程落地能力穩居全球第一梯隊。

重構行業技術范式

5年沉淀，開創并引領世界動作模型路線

當前行業多數方案仍采用通用世界模型+VLA拼接的改良模式，模態割裂、信息損耗嚴重，缺乏真實物理世界約束，只能實現「視覺合理」，無法適配機器人真機落地的真實需求。

眸深智能從AGI本質出發，率先確立世界動作模型原生融合路線：

機器人與物理世界的一切交互，最終都落地為動作，

唯有精準理解時空演化規律、遵守物理邏輯、實現端到端原生映射，才能真正解決機器人泛化性差、落地難的行業頑疾。

早在2022年，團隊便創新性提出全球首個影空間語言-動作端到端映射MLD模型，成果發表于CVPR 2023，該核心思路在2025年5月被英偉達DAIR實驗室核心工作引用驗證。

歷經五年迭代，團隊已完成7代動作模型技術更新，在多模態端到端融合、高精度動作生成、時序邏輯推演領域積累深厚，動作精度、推理速度、任務泛化性持續領跑行業。

（眸深大腦全自主抓取與自主修正）

機器人原生架構四維統一，

破解真機落地核心痛點

不同于行業依托大語言模型二次改造的適配性方案，STI-WM時空一體世界動作模型是完全面向機器人長時序規劃、在線閉環控制、真實物理交互打造的原生具身智能框架，實現空間結構、時間演化、物理一致性、執行魯棒性四維一體化統一。

模型可兼容RGB圖像、深度點云、機器人本體多模態感知輸入，將復雜環境信息統一編碼為緊湊高效的時空潛在世界狀態，上層支撐百秒級長時程任務推演與全局軌跡規劃，下層輸出精準可控的精細化動作片段。

同時依托實時環境觀測動態糾偏、在線重規劃，構建出「理解世界—推演未來—規劃動作—執行糾錯」的完整物理智能閉環。

相較于Dreamer系列偏重環境預測、忽視真機控制的通用世界模型，LWM、PWM等時空割裂的抽象動作模型，以及僅追求視覺逼真、無視物理可行性的視頻生成模型，STI?WM跳出純視覺推演誤區，以三維幾何約束、動力學校驗、真機閉環執行為核心，徹底解決傳統模型信息失真、泛化薄弱、落地困難的核心痛點，讓機器人真正做到看懂三維空間、遵守物理規則、自主規劃任務、穩定閉環執行。

（眸深STI-WM1.0時空一體世界動作模型架構）

六大核心技術壁壘，

支撐機器人規模化落地

依托五年全鏈路自研積淀，STI?WM構建起行業難以復刻的技術優勢：

時空一體化原生建模：空間結構與時間動態實時耦合，消除多模塊拼接的信息損耗，大幅提升推理效率與決策精準度；
原生三維感知能力：基于點云直接還原真實物理空間，徹底規避2D視覺深度缺失、空間誤判的固有缺陷；
內置物理一致性引擎：融合碰撞檢測、動力學約束，從底層杜絕不合理動作與環境崩壞，保障真機執行安全穩定；
長時程高階規劃：突破傳統短片段動作局限，支持百秒級連續復雜任務自主推演，適配真實場景復雜作業需求；
端側輕量化部署：自研模型壓縮、量化蒸餾技術，實現百億級大模型低成本落地機器人端側芯片，大幅降低產業化算力門檻；
小樣本強泛化能力：依托虛擬世界大規模預訓練+少量真機微調，高效適配陌生場景與長尾任務，大幅降低數據依賴。

（眸深「一腦多形」跨本體通用大腦）

資本與商業雙爆發，

產業化進程突飛猛進

憑借底層架構原創創新、全棧自研技術壁壘、可落地的商業化能力，眸深智能迎來高速發展期，半年內完成5輪融資，3億元Pre-A輪融資獲5倍超額認購，獲得國家級投資平臺、頭部產業資本、券商機構的高度認可。

商業化落地同步駛入快車道，公司已與宇樹科技、禾川科技、頤家養老等行業頭部企業達成深度合作，技術落地覆蓋工業制造、居家康養、商業服務等多元真實場景。

目前，眸深智能已與近十家上市公司達成戰略合作，其中包含五家以上千億級產業龍頭，未來三年預計可鎖定10億元訂單支撐，技術產業化速度遠超行業平均水平。

（眸深智能與居家養老頭部企業頤家戰略合作）

當下，AGI競爭正式進入物理智能新時代，以世界動作模型為核心的原生具身大腦，已然成為通用機器人的核心底座。

未來，眸深智能將持續迭代STI?WM模型體系，全面賦能人形機器人、四足機器人、工業機械臂、服務機器人等全品類硬件，加速通用具身智能的規模化落地，推動中國原生物理AI技術領跑全球，開啟物理世界AGI全新紀元。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.