網易首頁 > 網易號 > 正文申請入駐

港大團隊開源FASTER，讓VLA模型真正實現「即刻響應」

2026-05-14 15:10:56　來源: 機器之心Pro

河北舉報

分享至

本文的第一作者為香港大學博士生陸宇翔，團隊包括香港大學博士后劉哲、香港大學博士生范嫻喆、楊振亞、侯京華、李俊奕、丁凱欣，通訊作者為香港大學助理教授趙恒爽。

具身智能正以前所未有的速度發展，VLA 模型展現出越來越強的動作和泛化能力。然而，當我們真正把 VLA 模型部署到物理世界時，一個核心挑戰浮出水面：實時性。

想象一下讓機器人打乒乓球：球高速飛來時，哪怕只有 100 毫秒的延遲，也可能意味著錯過最佳擊球時機。對于真實世界中的機器人來說，動作不僅要「做得準」，還必須「反應得快」。

現有實時 VLA 方法大多關注如何讓動作更連續、更平滑。但這些方法往往忽略了動態環境中更關鍵的一點：機器人到底能多快根據新變化做出反應？

來自香港大學和大曉機器人的研究團隊提出了FASTERFastActionSampling for ImmediaTEReaction），首次系統性地重新審視了動作分塊策略中的反應延遲問題，并提出了一種面向流匹配 VLA 模型的快速動作采樣方法。通過將即時動作的采樣過程壓縮至單步完成，顯著降低了機器人開始行動所需的時間。

FASTER 是一個即插即用方案：無需修改模型架構，也無需額外訓練成本。目前代碼已開源，歡迎學術界和工業界試用，共同推動具身智能在真實場景的落地。

論文鏈接：https://arxiv.org/abs/2603.19199
項目主頁：https://innovator-zero.github.io/FASTER/
開源代碼：https://github.com/innovator-zero/FASTER

VLA 模型是如何運行的？

目前主流的 VLA 模型，例如 π0.5、X-VLA 等，采用的是動作分塊（Action Chunking）策略。模型不是每次只預測下一個動作，而是一次性預測未來幾十步的連續動作。這樣做的好處是，機器人可以獲得更長時間范圍內的動作計劃，執行起來也更加平滑。

但 VLA 面對著一個現實問題：模型推理速度往往跟不上機器人控制頻率。

在真實機器人系統中，控制器通常以固定頻率運行，例如 30Hz，也就是每 33.3 毫秒執行一次控制指令。但 VLA 的推理基本無法在一個控制周期內完成，即使用 RTX 4090、5090 這類高端 GPU，生成一個動作塊也可能需要遠超一個控制周期的時間。

因此，機器人端側通常會采用兩類推理管線：同步推理異步推理

同步推理：機器人執行完當前動作塊后，會停下來等待模型生成下一段動作。這樣做可以避免觀測狀態和執行狀態之間出現偏差，即感知-執行差異。但問題也很明顯：機器人會頻繁停頓，動作不連貫，任務表現也會受到影響。
異步推理：機器人會提前開始下一段動作的推理。模型在生成新動作的同時，機器人繼續執行當前還沒有執行完的動作。這樣可以消除動作塊之間的停頓，讓機器人運動更加絲滑。為進一步緩解感知-執行差異，RTC、VLASH 等方法會將重疊時間內已經規劃好的動作作為先驗輸入給 VLA，使模型能夠生成符合當前運動慣性的后續動作。

Rethinking：什么才是真正的「反應能力」？

異步推理解決了動作卡頓的問題，但它真的提升了 VLA 的反應能力嗎？

本文的一個關鍵洞見是：反應時間并不是一個簡單等于模型推理延遲的常數，而應該被建模為一個隨機變量。

這是因為真實世界中的外部事件是隨機發生的。

如果事件恰好發生在模型開始推理之前，那么機器人可以在本輪推理完成后盡快響應，反應最快。但如果事件剛好發生在模型開始推理之后，那么這次推理已經「錯過」了這個新事件，只能等到下一輪推理完成后才能響應。

論文進一步分析指出，從期望反應時間來看，普通異步推理相比同步推理的收益其實相當有限：僅僅縮短了 0.5 倍的推理延遲。也就是說，如果推理延遲不變，單純改成異步并不能從根本上解決問題。

這就引出了本文提出的一個新指標：TTFA（Time to First Action）

在動作分塊策略中，機器人并不需要等待整個動作塊都生成完才能開始動。真正決定機器人能否快速響應的，是第一個動作什么時候能夠生成出來。

這和 LLM 中的 TTFT（Time to First Token）很類似，用戶感受到的響應速度很大程度上取決于第一個 token 出現得有多快。

因此，FASTER 認為：要提升 VLA 的真實反應能力，不能只做異步推理，還必須同時壓縮 TTFA，并提高推理-執行閉環的頻率。

VLA 的瓶頸在哪里？

當前許多 VLA 都采用基于流匹配（Flow Matching）或 Diffusion 的動作專家來生成動作。

這類模型通常采用恒定時間步調度，動作塊中的每一個動作，無論是馬上要執行的第一個動作，還是幾十步之后才會執行的遠期動作，都會使用相同數量的采樣步。

如果模型默認使用 10 步采樣，那么它必須完成全部 10 步采樣之后，才能輸出第一個動作。這就形成了一個明顯的反應瓶頸：機器人明明只需要第一個動作就可以開始動，卻必須等待整個動作塊完成全部采樣。

于是，一個很自然的問題出現了：為什么近期動作和遠期動作需要同等程度的「精雕細琢」？

FASTER 對動作采樣過程進行了實驗分析，并發現動作塊內部存在明顯的非均勻性。具體來說，論文使用了平直度（Straightness）指標來衡量流匹配采樣路徑的彎曲程度。路徑越接近直線，說明這個動作越容易通過少量采樣步準確生成。

實驗結果顯示：

早期動作的采樣路徑更接近直線插值；
早期動作的中間估計結果與最終輸出之間的偏差更??；
早期動作的生成復雜度明顯低于遠期動作。

這也符合物理世界中的直覺：基于當前狀態，下一瞬間該怎么動通常約束更強、變化更??；而越遠期的動作受到更多未來不確定性的影響，自然更難預測。

既然近期動作更容易預測，而又直接決定機器人的反應速度，那么為什么不讓模型優先生成這些動作？

核心創新：Horizon-Aware Schedule

為了解決上述問題，FASTER 提出了Horizon-Aware Schedule（HAS），思想是解耦動作塊中不同時間位置動作的采樣進度。HAS 會為動作塊中的每一個動作分配一個不同的完成時刻（hit time）。

近期動作使用較少的采樣步數，優先生成；遠期動作仍然保留較完整的采樣過程，保持動作軌跡質量。

這樣，模型不再需要等到整個動作塊全部采樣完成后才輸出動作，而是可以先把最關鍵的即時動作生成出來，讓機器人盡快開始響應。

混合調度策略：讓預訓練模型平滑適應 HAS

直接用 HAS 去微調一個預訓練 VLA 模型，可能會帶來兩個問題。

第一個問題是，現有預訓練模型通常是在恒定時間步調度下訓練出來的。如果微調時突然切換成動態變化的 HAS，會額外拉大預訓練和微調之間的差距。

第二個問題是，在訓練中隨機采樣時間步時，對于近期動作來說，在 HAS 下它們對應的局部時間步有較大概率變成 0，使得這些動作幾乎總是直接使用真實動作作為輸入，模型反而學不到如何自己生成這些動作。

為了解決這兩個問題，FASTER 提出了一種混合調度策略（Mixed Scheduling Strategy）。

具體做法是：給定一個混合概率 p，每個訓練樣本都有 p 的概率使用 HAS，同時也有 1-p 的概率保留原來的恒定時間步調度。模型在微調時既能學習新的 HAS 時間步參數化方式，也不會完全丟掉預訓練階段熟悉的固定時間步設置。

最重要的是，這個過程不需要修改模型結構，也不會引入額外訓練成本，可以直接整合進現有 VLA 的微調流程。

流式推理接口：生成一個，執行一個

有了 HAS 之后，動作可以被漸進式生成。FASTER 因此進一步設計了一個流式客戶端-服務器接口（Streaming Client-Server Interface）。

在模型端，一旦某個動作完成采樣，就會立即發送給機器人控制器，模型則繼續采樣和完善后續動作。

機器人客戶端則會持續監聽來自模型的新動作，并將接收到的動作加入緩沖區，機器人可以一邊執行已經收到的動作，一邊等待后續動作到來。

此外，FASTER 還引入了早停機制。當執行范圍內需要的動作都已完成采樣時，模型可以提前終止剩余采樣步驟，直接進入下一輪推理準備。這等價于縮短了一次推理-執行周期，從而進一步提高閉環響應頻率。

因此，FASTER 不只是降低了第一個動作的生成延遲，也提高了整個系統的更新頻率。

實驗結果：更低 TTFA，更快反應

FASTER 在兩種 GPU 平臺上進行了真實測速實驗，分別是高性能的 RTX 4090 和消費級的 RTX 4060。

結果顯示，FASTER 可以顯著降低 TTFA 和期望反應時間。尤其是在 RTX 4060 上，X-VLA 的 TTFA 從 399.5 ms 降低到 129.2 ms，達到 3 倍以上加速；期望反應時間也從 599.5 ms 降低到 229.2 ms，提升約 2.6 倍。對于 π0.5，FASTER 同樣帶來了穩定提升。

由于真實環境中的外部事件是隨機發生的，論文進一步統計了不同方法在隨機事件下誰更可能反應更快。

結果表明，FASTER 相比同步推理有超過 80% 的概率反應更快；相比普通異步推理也具有明顯優勢。尤其是在 X-VLA 上，FASTER 達到了 100% 的優勢概率。這意味著 FASTER 的反應時間上界甚至低于基線方法的下界，形成了嚴格的性能支配。

VLA 打乒乓球：反應速度決定能不能接到球

在乒乓球任務中，機器人需要根據高速飛來的乒乓球及時調整球拍姿態，并在合適的位置和角度完成擊球。這不僅要求動作準確，也對反應速度提出了極高要求。

實驗結果顯示：

同步推理方法由于反應太慢，幾乎無法接到球。
普通異步方法雖然動作更連續，但反應速度仍然不足，導致回球角度不佳或擊球無力。
使用 FASTER 后，機器人能夠更早開始調整球拍姿態，在接觸球的一瞬間保持更合理、更有力的擊球角度，因此最終得分顯著領先。

這個結果很好地說明了一個事實：在動態交互任務中，動作質量不僅取決于預測是否準確，還取決于這個動作是否來得及執行。

日常操作任務：更快，也更穩定

除了高動態任務，本文也在抓放飲料和疊毛巾等日常操作任務中進行了測試。

在這些任務中，反應速度并不像乒乓球那樣關鍵，但實時交互仍然會影響任務完成效率和動作穩定性。

FASTER 在這些任務中也能實現更快、更穩定的運動表現。相比同步推理，它減少了動作塊之間的停頓；相比普通異步推理，它進一步提升了閉環更新頻率，使機器人能夠更及時地根據當前狀態調整動作。

仿真評測：加速不以犧牲質量為代價

為了驗證 HAS 是否會影響動作預測質量，本文還在 LIBERO 和 CALVIN 兩個常用仿真基準上進行了測試。

需要注意的是，仿真基準本身通常不會直接受到推理延遲的影響，因此這些實驗主要用于評估：FASTER 在加速采樣后，是否仍然能保持原模型的任務性能。

結果顯示，FASTER 基本保持了與原始模型相當的性能，僅在個別任務上出現輕微下降。這說明 HAS 雖然對近期動作采用了更激進的采樣策略，但整體上仍能維持較高的動作生成質量。

總結

當前具身智能研究大多關注如何讓機器人在更復雜的任務中「做得更好」，FASTER 則提出了一個同樣重要但被低估的問題：在物理世界中部署 VLA 模型時，「多快能開始動」與「動作做得多準」同樣關鍵。

傳統評價往往更關注動作預測精度或任務成功率，但在動態交互場景中，反應速度本身就可能決定動作是否還有意義。對于乒乓球、動態抓取等任務來說，一個再準確的動作，如果來得太晚，也就失去了價值。

FASTER 通過 Horizon-Aware Schedule 將即時動作的采樣壓縮到單步完成，并結合流式推理接口和早停機制，同時降低 TTFA、提高推理-執行閉環頻率。在真機實驗中，顯著提升了 VLA 的反應能力，尤其是在消費級 GPU 上展現出很強的實際部署價值。

總體來看，FASTER 為實時 VLA 和通用具身智能的落地提供了一條簡單、有效且可擴展的路徑：不是讓整個動作塊都更快生成，而是讓機器人最需要的第一個動作先到。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.