无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

VeRL-Omni:面向擴散和全模態生成模型的通用RL后訓練框架

0
分享至



VeRL-Omni 是一個面向多模態生成模型的通用 RL 后訓練框架,由VeRL-Omni 團隊在 verl 與 vllm-omni 之上構建。覆蓋擴散 transformer(Qwen-Image)、混合 AR-DiT(Qwen-Omni)、統一理解 + 生成(BAGEL、HunyuanImage-3.0)等架構。

多模態 rollout 走 vLLM-Omni 的異步高吞吐 serving,VLM-as-judge / OCR 獎勵模型走 vLLM 推理,并與 rollout、訓練 overlap。Qwen-Image OCR FlowGRPO 演示中,把獎勵模型放到獨立 GPU 可將每步 wall-clock 時間降低約 14%。



VeRL-Omni 架構

  • 代碼: github.com/verl-project/verl-omni
  • 文檔: verl-omni.readthedocs.io
  • vLLM 官方博客:vllm.ai/blog/verl-omni

為什么需要 VeRL-Omni

RL 已經成為把大型生成模型對齊到人類偏好與下游任務獎勵的有力手段。過去一年 LLM 的 RL 訓練棧飛快演進,但多模態生成 RL—— 覆蓋圖像 / 視頻 / 音頻理解與生成的擴散和全模態模型 —— 還有幾個關鍵缺口:

  • 擴散與全模態擴展:把 verl 的靈活性和性能延伸到多模態、非自回歸 RL 訓練的世界,包括擴散 transformer 主干(Qwen-Image)、混合 AR-DiT 架構(Qwen-Omni)、統一理解 + 生成模型(BAGEL、HunyuanImage-3.0);
  • 異構 rollout 流水線:Rollout 是連續 latent 空間里的去噪軌跡,而不是 token 序列;單次 rollout 還可能調用多個異構模型組件、走多階段流水線(text encoder → DiT → VAE);
  • 復雜的負載調度:多模態 RL 訓練的獎勵函數本身就是多模態模型(VLM judge、OCR scorer 等),多模態生成 rollout 的峰值顯存又比文本生成高得多,把這些工作流編排好并不簡單。

關鍵特性

  • 高效的多模態 rollout:集成 vLLM-Omni 的異步高吞吐多模態生成 serving,精度與 diffusers 持平。VeRL-Omni 與 vLLM-Omni 協同,通過 step-wise continuous batching、embedding caching 等持續優化 rollout 效率。
  • 靈活的獎勵引擎:同時支持基于規則的獎勵與基于模型的獎勵(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 獎勵模型推理。獎勵計算與 rollout、訓練流程 overlap,降低端到端延遲。
  • 模塊化訓練后端:提供多種 trainer(DiffusersFSDP / Megatron / VeOmni),針對擴散和全模態模型內置優化,便于接入不同并行策略(FSDP / USP / TP)。
  • 廣泛的硬件兼容:同時支持 NVIDIA GPU 和昇騰 NPU,部署可在多種硬件后端之間靈活切換。
  • 端到端訓練 recipe 與基準:提供參考性能結果;得益于上述特性,訓練吞吐可以做得很高。

算法與模型支持




上手指南

  • 安裝

詳見安裝文檔:

https://verl-omni.readthedocs.io/en/latest/start/install.html

  • 訓練擴散模型

examples 目錄(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的啟動腳本,覆蓋圖像 / 音頻 / 視頻理解與生成任務。訓練性能與結果可以通過 wandb 跟蹤。

  • Demo:Qwen-Image FlowGRPO 后訓練

在 flowgrpo 示例中,團隊用 OCR 獎勵任務訓練 Qwen-Image。獎勵模型采用 Qwen3-VL-8B-Instruct,通過讀取生成圖像里的渲染文字、與數據集 ground truth 比對,對生成圖像評分。

  • flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法回顧



FlowGRPO 算法示意

FlowGRPO 示意

FlowGRPO 是面向 flow-matching 模型的在線策略方法。它通過 diffusion policy 模型做多步 SDE 采樣以實現高效 RL 探索,并采用基于模型的獎勵評估生成質量。

訓練流程主要分四步:

  1. Rollout 生成:擴散 policy 模型生成樣本 rollout,收集 log probability 和生成圖像的軌跡。
  2. 獎勵模型打分:獎勵模型給每個生成樣本打分,用于計算 trajectory advantage。
  3. 策略優化:用 FlowGRPO CLIP-style loss 更新策略,基于 advantage 優化獎勵。
  4. 權重同步:定期把 trainer 最新的策略權重同步到 rollout worker,確保生成樣本反映最新策略。

LoRA 微調

NVIDIA H800 GPU 上的訓練吞吐如下:



把獎勵模型放到獨立 GPU 上,與策略訓練 overlap,每步 wall-clock 時間降低約 14%。

全模型微調

團隊還驗證了 non-CFG 全模型 Qwen-Image OCR 訓練,在 4×NVIDIA H200 上達到 0.510 images/GPU/s,每步約 250 s。

下面可以看到,僅 120 步訓練后,生成圖像的文字渲染質量已有顯著提升。



下面是參考訓練曲線,critic reward 與 validation reward 都收斂穩定。



完整訓練指標說明見 Training Metrics 文檔。

  • 文檔地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后續路線圖

VeRL-Omni 仍處于活躍迭代的預發布階段,擴散 RL 核心棧已經穩定。路線圖聚焦在擴展模型 / 算法支持,并繼續推進高效多模態 RL 訓練的邊界。

  • 模型支持擴展:跟進開源的擴散和全模態模型,覆蓋圖像 / 視頻 / 音頻生成任務以及統一理解 + 生成任務;
  • 算法支持擴展:持續集成穩定、先進的 RL 算法(如 DiffusionNFT);
  • 全異步 RL:在 actor、rollout、reward 之間走端到端異步流水線,超出當前的異步獎勵范圍,進一步提升訓練吞吐和 GPU/NPU 利用率;
  • 與 vLLM-Omni 協同優化:生成 rollout 在訓練時間中占比很大,將通過更緊密的 vLLM-Omni 集成(并行、量化、batching、調度優化等)繼續加速多模態 rollout;
  • 高效全模態 trainer:在 DiffusersFSDPTrainer 之外,計劃放出更多針對全模態與擴散模型的高度優化 trainer 引擎,基于 Megatron-core 與 VeOmni;
  • 更廣的硬件支持:繼續打磨昇騰 NPU 路徑,并通過 hardware plugin 系統歡迎更多硬件后端。

擴散和全模態 RL 后訓練只是個開始。VeRL-Omni 團隊正在持續支持更多架構與算法,歡迎一起塑造未來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CBA重磅!首鋼續約陳盈駿,主帥楊鳴確定簽約,下家要浮出水面了

CBA重磅!首鋼續約陳盈駿,主帥楊鳴確定簽約,下家要浮出水面了

隱于山海
2026-05-25 15:18:54
秀恩愛,亞馬爾社媒首次曬出他和新女友的合照

秀恩愛,亞馬爾社媒首次曬出他和新女友的合照

懂球帝
2026-05-25 10:24:10
交易方案曝光!小薩莫蘭特互換,國王徹底贏麻了,西部恐要變天

交易方案曝光!小薩莫蘭特互換,國王徹底贏麻了,西部恐要變天

體育大朋說
2026-05-25 15:40:03
生育大局已定:不出意外的話,2026年起中國人口將迎來5大變化

生育大局已定:不出意外的話,2026年起中國人口將迎來5大變化

云景侃記
2026-05-25 14:34:23
中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

中國6000萬簽下世界杯后,第一個心態崩掉的國家出現:只有2000萬

混沌錄
2026-05-19 23:49:35
我國有眾多后備宇航員,為什么偏用44歲“高齡”香港女士

我國有眾多后備宇航員,為什么偏用44歲“高齡”香港女士

阿龍聊軍事
2026-05-24 09:48:35
汪峰和4個孩子合體音樂會!醒醒彈琴落落大方,3個女兒3個母親

汪峰和4個孩子合體音樂會!醒醒彈琴落落大方,3個女兒3個母親

林大師熱點
2026-05-24 22:59:33
鄭爽精神失常?34歲滿頭白發,抱娃當街與張恒家吵架,孩子嚇到大哭

鄭爽精神失常?34歲滿頭白發,抱娃當街與張恒家吵架,孩子嚇到大哭

八卦王者
2026-05-24 11:58:10
六塊腹肌清晰可見!楊瀚森社交媒體曬休賽期訓練照

六塊腹肌清晰可見!楊瀚森社交媒體曬休賽期訓練照

懂球帝
2026-05-25 03:23:12
廣西皮卡墜河遇難村民家屬:嫂子39歲,家里5個孩子,此行是第一次去幫工種紅薯,一天能掙160元

廣西皮卡墜河遇難村民家屬:嫂子39歲,家里5個孩子,此行是第一次去幫工種紅薯,一天能掙160元

黃河新聞網呂梁
2026-05-25 09:36:16
高考履歷空白、與劣跡醫生合作!“逼”耿同學退學的美女導師被扒

高考履歷空白、與劣跡醫生合作!“逼”耿同學退學的美女導師被扒

小鋭有話說
2026-05-24 11:56:27
68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

68歲丈夫出軌90后女子還生下雙胞胎,5年轉賬4800萬元?妻子怒告二人要求還錢,男子承認出軌否認轉賬:妻子知情同意,從沒想過離婚……

都市快報橙柿互動
2026-05-24 16:32:21
44歲深圳失業老板:老婆問家里錢能撐多久,我說半年其實心里沒底

44歲深圳失業老板:老婆問家里錢能撐多久,我說半年其實心里沒底

王二哥老搞笑
2026-05-25 03:34:43
這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

這3種魚中老年人要常吃,不是鱸魚、不是鯽魚,刺少、低脂高蛋白

江江食研社
2026-05-24 14:30:07
四川“釣魚俠”在浙江勇救墜河女童 村干部:女童1歲7個月,被姐姐帶著在河邊玩耍不慎落水

四川“釣魚俠”在浙江勇救墜河女童 村干部:女童1歲7個月,被姐姐帶著在河邊玩耍不慎落水

紅星新聞
2026-05-25 13:53:42
竇靖童在節目中稱那英“老師”,卻遭那英反問“叫我啥?” 曝嬰兒時期叫“老那”,平時叫“那英阿姨”

竇靖童在節目中稱那英“老師”,卻遭那英反問“叫我啥?” 曝嬰兒時期叫“老那”,平時叫“那英阿姨”

天津生活通
2026-05-23 14:47:55
80歲的特朗普,憑啥比年輕人還能折騰?——讓養生博主集體沉默

80歲的特朗普,憑啥比年輕人還能折騰?——讓養生博主集體沉默

民間胡扯老哥
2026-05-18 07:27:54
萬萬沒想到,杜特爾特女兒談到南海異常強硬,她拋棄親華路線了?

萬萬沒想到,杜特爾特女兒談到南海異常強硬,她拋棄親華路線了?

超喜歡我
2026-05-25 17:49:19
回歸無望!趙睿想回廣東難如登天,3大死結卡死,朱芳雨也沒轍

回歸無望!趙睿想回廣東難如登天,3大死結卡死,朱芳雨也沒轍

生活新鮮市
2026-05-25 17:15:10
跑步跑多了,那方面是不是就不行啦?

跑步跑多了,那方面是不是就不行啦?

馬拉松跑步健身
2026-05-25 17:16:09
2026-05-25 18:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13078文章數 142652關注度
往期回顧 全部

科技要聞

華為:沒有先進光刻機也能造出高端芯片

頭條要聞

牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

頭條要聞

牛彈琴:伊朗現在哭笑不得 美官員讓伊別理特朗普推文

體育要聞

如果不好好守門,他可能早就繼承家業了

娛樂要聞

李晨鄭愷跑男停宣:12年元老被邊緣化

財經要聞

紙包火的秘密:前發審委員的冒險游戲

汽車要聞

啟境GT7定檔5月29日預售 提供三電機版本

態度原創

游戲
手機
房產
公開課
軍事航空

《鐵拳8》聯動《刃牙》!地球最強生物帶動銷量暴漲

手機要聞

iQOO 16工程機配置曝光,大電池無風扇

房產要聞

工抵房騙局!134套房款入私賬!海南這個盤,坑慘買房人!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄軍出動“榛樹”導彈襲擊烏克蘭

無障礙瀏覽 進入關懷版