无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

港大團隊開源FASTER,讓VLA模型真正實現「即刻響應」

0
分享至



本文的第一作者為香港大學博士生陸宇翔,團隊包括香港大學博士后劉哲、香港大學博士生范嫻喆、楊振亞、侯京華、李俊奕、丁凱欣,通訊作者為香港大學助理教授趙恒爽。

具身智能正以前所未有的速度發展,VLA 模型展現出越來越強的動作和泛化能力。然而,當我們真正把 VLA 模型部署到物理世界時,一個核心挑戰浮出水面:實時性。

想象一下讓機器人打乒乓球:球高速飛來時,哪怕只有 100 毫秒的延遲,也可能意味著錯過最佳擊球時機。對于真實世界中的機器人來說,動作不僅要「做得準」,還必須「反應得快」。

現有實時 VLA 方法大多關注如何讓動作更連續、更平滑。但這些方法往往忽略了動態環境中更關鍵的一點:機器人到底能多快根據新變化做出反應?

來自香港大學和大曉機器人的研究團隊提出了FASTERFastActionSampling for ImmediaTEReaction),首次系統性地重新審視了動作分塊策略中的反應延遲問題,并提出了一種面向流匹配 VLA 模型的快速動作采樣方法。通過將即時動作的采樣過程壓縮至單步完成,顯著降低了機器人開始行動所需的時間。

FASTER 是一個即插即用方案:無需修改模型架構,也無需額外訓練成本。目前代碼已開源,歡迎學術界和工業界試用,共同推動具身智能在真實場景的落地。



  • 論文鏈接:https://arxiv.org/abs/2603.19199
  • 項目主頁:https://innovator-zero.github.io/FASTER/
  • 開源代碼:https://github.com/innovator-zero/FASTER

VLA 模型是如何運行的?

目前主流的 VLA 模型,例如 π0.5、X-VLA 等,采用的是動作分塊(Action Chunking)策略。模型不是每次只預測下一個動作,而是一次性預測未來幾十步的連續動作。這樣做的好處是,機器人可以獲得更長時間范圍內的動作計劃,執行起來也更加平滑。

但 VLA 面對著一個現實問題:模型推理速度往往跟不上機器人控制頻率。

在真實機器人系統中,控制器通常以固定頻率運行,例如 30Hz,也就是每 33.3 毫秒執行一次控制指令。但 VLA 的推理基本無法在一個控制周期內完成,即使用 RTX 4090、5090 這類高端 GPU,生成一個動作塊也可能需要遠超一個控制周期的時間。

因此,機器人端側通常會采用兩類推理管線:同步推理異步推理



  • 同步推理:機器人執行完當前動作塊后,會停下來等待模型生成下一段動作。這樣做可以避免觀測狀態和執行狀態之間出現偏差,即感知-執行差異。但問題也很明顯:機器人會頻繁停頓,動作不連貫,任務表現也會受到影響。
  • 異步推理:機器人會提前開始下一段動作的推理。模型在生成新動作的同時,機器人繼續執行當前還沒有執行完的動作。這樣可以消除動作塊之間的停頓,讓機器人運動更加絲滑。為進一步緩解感知-執行差異,RTC、VLASH 等方法會將重疊時間內已經規劃好的動作作為先驗輸入給 VLA,使模型能夠生成符合當前運動慣性的后續動作。

Rethinking:什么才是真正的「反應能力」?

異步推理解決了動作卡頓的問題,但它真的提升了 VLA 的反應能力嗎?

本文的一個關鍵洞見是:反應時間并不是一個簡單等于模型推理延遲的常數,而應該被建模為一個隨機變量。

這是因為真實世界中的外部事件是隨機發生的。

如果事件恰好發生在模型開始推理之前,那么機器人可以在本輪推理完成后盡快響應,反應最快。但如果事件剛好發生在模型開始推理之后,那么這次推理已經「錯過」了這個新事件,只能等到下一輪推理完成后才能響應。



論文進一步分析指出,從期望反應時間來看,普通異步推理相比同步推理的收益其實相當有限:僅僅縮短了 0.5 倍的推理延遲。也就是說,如果推理延遲不變,單純改成異步并不能從根本上解決問題。

這就引出了本文提出的一個新指標:TTFA(Time to First Action)

在動作分塊策略中,機器人并不需要等待整個動作塊都生成完才能開始動。真正決定機器人能否快速響應的,是第一個動作什么時候能夠生成出來。

這和 LLM 中的 TTFT(Time to First Token)很類似,用戶感受到的響應速度很大程度上取決于第一個 token 出現得有多快。

因此,FASTER 認為:要提升 VLA 的真實反應能力,不能只做異步推理,還必須同時壓縮 TTFA,并提高推理-執行閉環的頻率。

VLA 的瓶頸在哪里?

當前許多 VLA 都采用基于流匹配(Flow Matching)或 Diffusion 的動作專家來生成動作。

這類模型通常采用恒定時間步調度,動作塊中的每一個動作,無論是馬上要執行的第一個動作,還是幾十步之后才會執行的遠期動作,都會使用相同數量的采樣步。

如果模型默認使用 10 步采樣,那么它必須完成全部 10 步采樣之后,才能輸出第一個動作。這就形成了一個明顯的反應瓶頸:機器人明明只需要第一個動作就可以開始動,卻必須等待整個動作塊完成全部采樣。

于是,一個很自然的問題出現了:為什么近期動作和遠期動作需要同等程度的「精雕細琢」?



FASTER 對動作采樣過程進行了實驗分析,并發現動作塊內部存在明顯的非均勻性。具體來說,論文使用了平直度(Straightness)指標來衡量流匹配采樣路徑的彎曲程度。路徑越接近直線,說明這個動作越容易通過少量采樣步準確生成。

實驗結果顯示:

  • 早期動作的采樣路徑更接近直線插值;
  • 早期動作的中間估計結果與最終輸出之間的偏差更??;
  • 早期動作的生成復雜度明顯低于遠期動作。

這也符合物理世界中的直覺:基于當前狀態,下一瞬間該怎么動通常約束更強、變化更??;而越遠期的動作受到更多未來不確定性的影響,自然更難預測。

既然近期動作更容易預測,而又直接決定機器人的反應速度,那么為什么不讓模型優先生成這些動作?

核心創新:Horizon-Aware Schedule



為了解決上述問題,FASTER 提出了Horizon-Aware Schedule(HAS),思想是解耦動作塊中不同時間位置動作的采樣進度。HAS 會為動作塊中的每一個動作分配一個不同的完成時刻(hit time)。

近期動作使用較少的采樣步數,優先生成;遠期動作仍然保留較完整的采樣過程,保持動作軌跡質量。

這樣,模型不再需要等到整個動作塊全部采樣完成后才輸出動作,而是可以先把最關鍵的即時動作生成出來,讓機器人盡快開始響應。

混合調度策略:讓預訓練模型平滑適應 HAS

直接用 HAS 去微調一個預訓練 VLA 模型,可能會帶來兩個問題。

第一個問題是,現有預訓練模型通常是在恒定時間步調度下訓練出來的。如果微調時突然切換成動態變化的 HAS,會額外拉大預訓練和微調之間的差距。

第二個問題是,在訓練中隨機采樣時間步時,對于近期動作來說,在 HAS 下它們對應的局部時間步有較大概率變成 0,使得這些動作幾乎總是直接使用真實動作作為輸入,模型反而學不到如何自己生成這些動作。

為了解決這兩個問題,FASTER 提出了一種混合調度策略(Mixed Scheduling Strategy)。

具體做法是:給定一個混合概率 p,每個訓練樣本都有 p 的概率使用 HAS,同時也有 1-p 的概率保留原來的恒定時間步調度。模型在微調時既能學習新的 HAS 時間步參數化方式,也不會完全丟掉預訓練階段熟悉的固定時間步設置。

最重要的是,這個過程不需要修改模型結構,也不會引入額外訓練成本,可以直接整合進現有 VLA 的微調流程。

流式推理接口:生成一個,執行一個

有了 HAS 之后,動作可以被漸進式生成。FASTER 因此進一步設計了一個流式客戶端-服務器接口(Streaming Client-Server Interface)。

在模型端,一旦某個動作完成采樣,就會立即發送給機器人控制器,模型則繼續采樣和完善后續動作。

機器人客戶端則會持續監聽來自模型的新動作,并將接收到的動作加入緩沖區,機器人可以一邊執行已經收到的動作,一邊等待后續動作到來。

此外,FASTER 還引入了早停機制。當執行范圍內需要的動作都已完成采樣時,模型可以提前終止剩余采樣步驟,直接進入下一輪推理準備。這等價于縮短了一次推理-執行周期,從而進一步提高閉環響應頻率。

因此,FASTER 不只是降低了第一個動作的生成延遲,也提高了整個系統的更新頻率。

實驗結果:更低 TTFA,更快反應

FASTER 在兩種 GPU 平臺上進行了真實測速實驗,分別是高性能的 RTX 4090 和消費級的 RTX 4060。



結果顯示,FASTER 可以顯著降低 TTFA 和期望反應時間。尤其是在 RTX 4060 上,X-VLA 的 TTFA 從 399.5 ms 降低到 129.2 ms,達到 3 倍以上加速;期望反應時間也從 599.5 ms 降低到 229.2 ms,提升約 2.6 倍。對于 π0.5,FASTER 同樣帶來了穩定提升。



由于真實環境中的外部事件是隨機發生的,論文進一步統計了不同方法在隨機事件下誰更可能反應更快。

結果表明,FASTER 相比同步推理有超過 80% 的概率反應更快;相比普通異步推理也具有明顯優勢。尤其是在 X-VLA 上,FASTER 達到了 100% 的優勢概率。這意味著 FASTER 的反應時間上界甚至低于基線方法的下界,形成了嚴格的性能支配。

VLA 打乒乓球:反應速度決定能不能接到球

在乒乓球任務中,機器人需要根據高速飛來的乒乓球及時調整球拍姿態,并在合適的位置和角度完成擊球。這不僅要求動作準確,也對反應速度提出了極高要求。





實驗結果顯示:

  • 同步推理方法由于反應太慢,幾乎無法接到球。
  • 普通異步方法雖然動作更連續,但反應速度仍然不足,導致回球角度不佳或擊球無力。
  • 使用 FASTER 后,機器人能夠更早開始調整球拍姿態,在接觸球的一瞬間保持更合理、更有力的擊球角度,因此最終得分顯著領先。

這個結果很好地說明了一個事實:在動態交互任務中,動作質量不僅取決于預測是否準確,還取決于這個動作是否來得及執行。

日常操作任務:更快,也更穩定

除了高動態任務,本文也在抓放飲料和疊毛巾等日常操作任務中進行了測試。





在這些任務中,反應速度并不像乒乓球那樣關鍵,但實時交互仍然會影響任務完成效率和動作穩定性。

FASTER 在這些任務中也能實現更快、更穩定的運動表現。相比同步推理,它減少了動作塊之間的停頓;相比普通異步推理,它進一步提升了閉環更新頻率,使機器人能夠更及時地根據當前狀態調整動作。

仿真評測:加速不以犧牲質量為代價

為了驗證 HAS 是否會影響動作預測質量,本文還在 LIBERO 和 CALVIN 兩個常用仿真基準上進行了測試。



需要注意的是,仿真基準本身通常不會直接受到推理延遲的影響,因此這些實驗主要用于評估:FASTER 在加速采樣后,是否仍然能保持原模型的任務性能。

結果顯示,FASTER 基本保持了與原始模型相當的性能,僅在個別任務上出現輕微下降。這說明 HAS 雖然對近期動作采用了更激進的采樣策略,但整體上仍能維持較高的動作生成質量。

總結

當前具身智能研究大多關注如何讓機器人在更復雜的任務中「做得更好」,FASTER 則提出了一個同樣重要但被低估的問題:在物理世界中部署 VLA 模型時,「多快能開始動」與「動作做得多準」同樣關鍵。

傳統評價往往更關注動作預測精度或任務成功率,但在動態交互場景中,反應速度本身就可能決定動作是否還有意義。對于乒乓球、動態抓取等任務來說,一個再準確的動作,如果來得太晚,也就失去了價值。

FASTER 通過 Horizon-Aware Schedule 將即時動作的采樣壓縮到單步完成,并結合流式推理接口和早停機制,同時降低 TTFA、提高推理-執行閉環頻率。在真機實驗中,顯著提升了 VLA 的反應能力,尤其是在消費級 GPU 上展現出很強的實際部署價值。

總體來看,FASTER 為實時 VLA 和通用具身智能的落地提供了一條簡單、有效且可擴展的路徑:不是讓整個動作塊都更快生成,而是讓機器人最需要的第一個動作先到。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬尼拉國會響起15聲槍響,菲特工沖進參議院抓人,全程被直播?

馬尼拉國會響起15聲槍響,菲特工沖進參議院抓人,全程被直播?

肖茲探秘說
2026-05-14 15:05:17
“收到”和“好的”,兩字之差,天壤之別:社交里的情商潛規則

“收到”和“好的”,兩字之差,天壤之別:社交里的情商潛規則

心理觀察局
2026-05-12 09:17:11
整11師被殲一個團,胡璉借酒罵座,邱清泉:你打仗總靠別人支援?

整11師被殲一個團,胡璉借酒罵座,邱清泉:你打仗總靠別人支援?

云霄紀史觀
2026-05-14 15:30:52
市值暴漲4100億!徹底放棄手機的諾基亞,早已賺得盆滿缽滿

市值暴漲4100億!徹底放棄手機的諾基亞,早已賺得盆滿缽滿

李砍柴
2026-05-13 19:16:14
馬斯克公開質疑Lupita Nyong'o美貌,再向《奧德賽》開炮

馬斯克公開質疑Lupita Nyong'o美貌,再向《奧德賽》開炮

熱搜摘要官
2026-05-13 11:32:02
碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

今朝牛馬
2026-05-08 16:14:02
越扒越有!閆學晶風波僅3月,難堪的一幕發生,王紅梅成眾矢之的

越扒越有!閆學晶風波僅3月,難堪的一幕發生,王紅梅成眾矢之的

星娛叨叨社
2026-05-14 15:30:00
俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領土”

俄羅斯又開始許愿,要求烏克蘭撤出“俄羅斯領土”

山河路口
2026-05-13 20:35:10
“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

“我老公喜歡大胸,能做多大做多大”,女子身高174,體重47公斤,想做隆胸手術被醫生勸退,醫生:她本身是A減,一心想做E杯

觀威海
2026-04-07 10:15:03
乒乓球界有個最難破的紀錄,就連張怡寧都沒能實現!

乒乓球界有個最難破的紀錄,就連張怡寧都沒能實現!

小光侃娛樂
2026-04-13 06:50:05
無緣四強,此4人大概與廣東隊說再見!

無緣四強,此4人大概與廣東隊說再見!

體育哲人
2026-05-14 13:38:55
外媒:烏克蘭軍隊中出現東大FN-16便攜式防空導彈,真實來源成疑

外媒:烏克蘭軍隊中出現東大FN-16便攜式防空導彈,真實來源成疑

零度Military
2026-05-14 05:49:57
一定要多存錢,大量存錢,特別是2026-2028年。

一定要多存錢,大量存錢,特別是2026-2028年。

老陸不老
2026-05-10 15:37:02
金價延續跌勢!5月14日國內品牌金店報價速遞!

金價延續跌勢!5月14日國內品牌金店報價速遞!

金投網
2026-05-14 15:36:57
黑尾醬,徹底消失了?

黑尾醬,徹底消失了?

生如稗草
2026-03-15 08:48:11
中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

中紀委劃紅線:嚴查公務員出現這5種行為,觸碰將一律嚴肅處理

細說職場
2026-05-06 14:21:03
騰訊辟謠“AI一號位即將離職”

騰訊辟謠“AI一號位即將離職”

21世紀經濟報道
2026-05-14 15:40:59
我帶員工幫親家母抽蒜薹,中午還請吃飯,親家母卻嫌我們干得不好

我帶員工幫親家母抽蒜薹,中午還請吃飯,親家母卻嫌我們干得不好

我是三月魚H
2026-05-13 15:10:11
正式離隊!王少杰驅車離開基地 廣東隊無人送行 一細節說明他不再

正式離隊!王少杰驅車離開基地 廣東隊無人送行 一細節說明他不再

陌識
2026-05-14 13:35:33
采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

采訪了100個娶了小三的男人,他們幾乎都說了同一句話,讓人恍然

千秋文化
2026-04-15 20:18:32
2026-05-14 16:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12995文章數 142648關注度
往期回顧 全部

科技要聞

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

頭條要聞

男子稱火車站走錯口遭安檢員追打 被認定互毆各拘5天

頭條要聞

男子稱火車站走錯口遭安檢員追打 被認定互毆各拘5天

體育要聞

登海報!哈登30+8+6創多項紀錄 第8次贏天王山

娛樂要聞

肖戰提名金海燕獎,這一步走得太穩

財經要聞

習近平同美國總統特朗普會談

汽車要聞

云輦-P Ultra降維打擊!三輪也能越野?方程豹豹8/豹5閃充版30.58萬起

態度原創

游戲
家居
房產
本地
公開課

別回頭,快跑!心理恐怖游戲《深巷》試玩版上線

家居要聞

精神奢享 對話塔尖需求

房產要聞

海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

本地新聞

用蘇繡的方式,打開江西婺源

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版