作者|黃楠
編輯|袁斯來
硬氪獲悉,具身智能世界模型公司「千訣科技」日前完成數億元A輪融資,本輪由京銘資本領投,山東新動能、山東財金資本、元禾厚望、芯能創投、南創投、英諾天使基金、尚勢資本、仁愛集團、玄素投資等機構共同投資,投資方陣容匯集了國家隊、產業方、市場化基金及家族辦公室。Maple Pledge楓承資本長期出任私募股權融資顧問。
資金將重點用于自研世界模型的架構搭建、算法迭代與場景落地,同步擴充核心研發與項目交付團隊,完善商業化落地配套能力。
千訣科技創立于2023年6月,核心團隊孵化自清華大學類腦研究中心,長期聚焦具身智能決策與規劃大模型研發落地,突破傳統設備任務局限,以幫助機器人實現環境動態自適應與全自主作業。
世界模型的熱潮正迅速卷向具身智能領域,成為通用人工智能落地物理世界的核心突破口。卷積神經網絡之父Yann LeCun(楊立昆)率先提出世界模型核心理論,其創辦的AMI團隊持續專注抽象表征空間建模、物理世界規律預測的技術方向研究,為行業奠定了核心理論基礎。
從因果推理到空間智能,從物理仿真到生成式預測,基于不同技術范式、不同理論底座的研究在業內正同步展開。這是個尚未收斂、想象力巨大的賽道。各路探索者都在試圖回答同一個問題:如何讓機器真正理解并預知物理世界的變化。
在主流的生成式路線中,典型做法是通過像素級重構來預測下一幀畫面。但千訣科技CTO章天任向硬氪指出,這種方法往往存在一個容易被忽視的問題——特征污染。
“真實物理世界的圖像輸入信息量極大,包含大量與任務無關的噪聲,比如光影、紋理。”章天任解釋,模型為了追求像素級的無損重構,不得不把有效特征和無效信息強行綁定在一起,結果可能導致模型內部表征不再“純凈”,“它確實能從現實數據中提取出具有泛化性的特征,但這些特征里混入了干擾項。”
這種污染會直接影響模型對物理世界的理解能力。世界模型的本意是讓模型學會符合物理規律的預測,而不是單純地擬合圖像。一旦特征被污染,模型就很難提煉出真正的因果關系和物理不變性,泛化能力自然受限。
“人看一張圖時,不會平均分配注意力在每個像素上,而是快速鎖定與任務相關的區域。”章天任說,“但生成式模型與其說是理解世界,卻更容易發生復刻表象的情況。”
面對生成式路線存在特征提取的這一局限,預測式世界模型提供了另一種思路。 其核心邏輯是,讓機器人真正理解物理世界,不是靠還原每一幀像素,而是靠預測物理狀態的低維演化軌跡。
千訣科技CEO高海川用一個案例解釋了兩者的本質區別:人在打球時,不會在腦中想象一幀幀清晰的畫面,而是直接揮拍,依靠對球軌跡的低維預測。這種預測不包含像素信息,只包含物理規律的狀態演化。“人類在物理世界中玩球類游戲,不可能去想象清晰完整的像素畫面,來不及,而且這種信息不穩定。”高海川說。
同樣的邏輯適用于具身智能。執行任務時,機器人需要的不是“未來會長什么樣”的想象,而是“下一個狀態該往哪走”的預判。預測式模型的核心輸出不是視頻幀,而是低維抽象特征,這些特征可以直接解碼為動作軌跡或規劃指令,從而繞開像素重構帶來的計算負擔和特征污染問題。
在預測式路線基礎上,千訣科技還進一步提出了分布式預測架構。其架構采用了類人腦的腦區連接方式,大腦不同區域各司其職,連接緊密的區域內部協同,區域之間則相對獨立。
對比傳統方法把所有信息揉在一起壓縮處理,分布式預測架構會先把信息分到不同的區域里,再分別壓縮和預測,從而實現樣本效率更高,推理速度更快。“同樣一個任務,從零開始可能需要1000個‘狀態-動作’對;有了好的表征,100個就夠了,有效減少了機器人適應新場景所需的示教數據。”章天任說。
通過這種分布式架構,可以幫助模型在抽象表征空間中學習物理狀態的演化規律,而非僅僅是像素的時序關聯,更好地服務于下游的規劃與控制。當機器人面對新環境時,可以更快地理解“什么會導致什么”,對真實場景落地尤為關鍵。
![]()
搭載千訣世界模型的機器人在餐廳打工(圖源/企業)
具體到應用端,千訣科技將具身大腦與小腦解耦,由其世界模型負責感知、預測與規劃,不綁定具體的執行動作空間。只要共享同一模態,模型就能將其觀察到的環境變化作為統一的數據來源進行訓練。這意味著,同一個“大腦”可以快速遷移到不同本體上,解耦設計有效降低了遷移成本,并加速了真實場景中的數據飛輪閉環。
據硬氪了解,千訣科技自研具身大腦已完成輪式、四足、雙足人形、無人機、清掃機器人等多品類硬件適配,落地酒店保潔、商用服務、精密室內作業等實景項目,當前接入終端設備規模達十萬臺。依托海量終端持續產生的真實交互數據,未來將反哺世界模型進一步迭代優化。
![]()
搭載千訣世界模型的機器人在咖啡店自主配送(圖源/企業)
以下為硬氪與千訣科技CEO高海川、CTO章天任的訪談節選(略經編輯):
硬氪:開環預測場景下,世界模型的長時推理誤差會隨步數累積。千訣的預測式架構如何應對這一問題?具身任務的閉環反饋機制能在多大程度上抑制誤差放大?
章天任:這個問題分幾個層面。第一,累積誤差的大小取決于應用場景是否具備閉環反饋。視頻生成模型是純開環的,一次性預測未來很多幀,中間沒有任何外部信息校正,所以誤差容易累積。但具身不同在于它有閉環反饋,我們不會讓機器人一次性預測1000步、把整個任務全部規劃完再執行,而是先預測50步,選出動作去執行,執行完后環境會給出新的狀態作為反饋,基于反饋修正后續預測。
這種“執行-觀測-修正”的循環,是具身任務與視頻生成最本質的區別,能有效抑制誤差放大。
第二是關于記憶模塊。千訣目前已經在一些平臺上嘗試搭建Memory系統,但還沒有與視覺中心直接融合。原因在于,既然已經有了閉環反饋,很多場景下暫時不需要顯式的長期記憶。
第三,千訣的模型支持多步預測,模型預測的“一步”不一定對應底層的一個控制指令,而可以對應一個完整的語義動作,比如50個底層step。預測步數越少,累積誤差發生的概率和幅度就越小。
總的來說,我們認為世界模型的能力上限挑戰在于完全開環的超長時規劃,比如機器人還沒開始行動,就要一次性規劃好未來幾百步的所有細節。但這種使用場景在真實的具身任務中很少見,更自然、更現實的做法還是“邊做邊看”,發現問題隨時調整。
硬氪:千訣已實現十萬臺級別的規模化部署。在實際落地過程中,客戶反饋中有哪些超出預期的發現?對你們的產品迭代有什么影響?
高海川:千訣目前已有十萬臺機器在真實場景中運行,用戶把機器人當真實產品使用,給出的反饋也是真實的。因此,我們訓練的模型與落地場景之間不存在“real-to-real gap”。
![]()
搭載千訣世界模型的機器人自主清潔桌面(圖源/企業)
市場反饋中有兩個點超出了我們的預期。
一個是響應速度的敏感度。 不同場景對延遲的容忍度差異很大。生成式模型4秒級的響應,在機器人場景中基本不可用。我們的預測式模型雖然推理速度快、可以在0.5秒內返回結果,但部分機器人需要云端傳輸延遲在1秒左右,客戶仍然反饋“卡頓”。當我們把延遲降低0.5秒,用戶體驗就有了質的飛躍,這種毫秒級的延遲優化,往往比模型能力的提升更能直接轉化為用戶滿意度。
另一方面在于主動性的價值。 大多數時候,客戶并不希望機器人只是一個被動執行指令的工具,而是期待它能“眼里有活”——主動感知環境、自主決策,而不是逐條等人類發令。比如在酒店場景中,機器人主動發現地面有污漬并啟動清潔,比接到指令再執行,更能讓客戶感受到“智能化”。這種從“被驅動設備”到“智能體成員”的體驗躍遷,正在成為產品差異化的關鍵維度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.