阿里開源：用凍結(jié)多模態(tài)大模型為文生圖訓(xùn)練提供高質(zhì)量Reward

2026-05-06 16:50:57　來源: 機器之心Pro

天津舉報

分享至

本文作者團隊來自阿里巴巴集團，共同第一作者為深度學(xué)習(xí)研究員劉錦龍和何旺貴，通訊作者為姜浩。

用強化學(xué)習(xí)（RL）優(yōu)化文生圖模型的 prompt following 能力，是一條被廣泛驗證的路徑 —— 讓模型根據(jù) prompt 用不同隨機種子生成多張圖片，通過 reward model 計算 reward，再利用相關(guān) RL 算法優(yōu)化模型。

這里面最核心的問題在于：reward 信號從哪來？

傳統(tǒng)的對齊指標如 CLIP Score 粒度過粗，無法捕捉屬性綁定、空間關(guān)系、計數(shù)等復(fù)雜語義。當(dāng)前一些開源的 reward 模型（PickScore、ImageReward、HPS v2 等）受限于模型規(guī)模和有限的標注數(shù)據(jù)，難以為最前沿的工業(yè)級的文生圖模型提供有效反饋信號。而訓(xùn)練一個高質(zhì)量的 reward 模型往往代價不低 —— 需要耗費大量人力和成本進行標注和訓(xùn)練。

另一方面，開源社區(qū)的多模態(tài)大模型（VLM）持續(xù)發(fā)展，這些模型在預(yù)訓(xùn)練中見過海量圖文數(shù)據(jù)，本身就具備豐富的圖文對齊知識，是天然的圖文一致性 reward 信號來源。問題在于：如何把這些知識從 VLM 中高效地提取出來作為 reward？

為此，來自阿里巴巴的研究團隊提出了PromptEcho—— 一種無需任何標注、無需訓(xùn)練 reward 模型，僅通過凍結(jié) VLM 的一次前向推理就能獲得高質(zhì)量 reward 的方法。

論文：https://arxiv.org/abs/2604.12652
開源代碼 & 模型權(quán)重：https://github.com/roooobotx/prompt_echo

核心方法：「PromptEcho」

一個直覺：如果圖畫對了，VLM 就能「復(fù)述」出 prompt

想象一下：你根據(jù) prompt 畫了一幅畫，然后把畫給一位朋友看，然后問他「請描述這幅畫」。如果畫面忠實地描繪了「一只紅色的貓站在藍色的桌子上」，他大概率能準確復(fù)述出這些內(nèi)容。VLM 也是一樣 —— 如果生成圖像忠實遵循了 prompt，VLM 在看到圖像后就能以很高的概率（似然）逐 token 復(fù)述出原始 prompt。或者說把 prompt 的內(nèi)容「回響」（Echo）了回來，而這個復(fù)述的對數(shù)似然就是我們要找的 reward。

反過來，如果畫面中貓的顏色搞錯了，或者桌子不見了，VLM 復(fù)述出原始 prompt 的概率就會顯著下降，reward 隨之降低。

圖 1：PromptEcho 流程。給定生成圖像和引導(dǎo) query，凍結(jié) VLM 在 teacher-forcing 模式下計算原始 prompt 的 token 級交叉熵損失，取負值作為 reward。

具體而言，PromptEcho 有三個輸入：

然后，將圖像和 query 輸入凍結(jié)的 VLM，在teacher-forcing模式下（即不讓模型自由生成，而是強制輸入 prompt 的每個 token），計算 VLM 對原始 prompt 中每個 token 的預(yù)測概率。最終的 reward 就是：

一句話總結(jié)：reward = VLM 看到圖像后，能多大概率「復(fù)述」出原始 prompt。

這個 reward 與 VLM 預(yù)訓(xùn)練的損失函數(shù)完全一致，只是優(yōu)化對象從 VLM 的模型權(quán)重變成了文生圖模型生成的圖片。這種一致性正是 PromptEcho 高效的原因，它復(fù)用了 VLM 在預(yù)訓(xùn)練中習(xí)得的圖文對齊知識。

為什么不直接讓 VLM 打分？

一個自然的問題是：既然用的是凍結(jié) VLM，為什么不直接輸入 prompt 和圖片讓 VLM 推理圖文一致性評分做 reward？為了回答這個問題，研究團隊設(shè)計了一個對比方法「InferScore」—— 使用同一個凍結(jié) VLM，但讓它以自回歸方式生成對圖文一致性的評分，作為 reward 信號。兩者的區(qū)別在于：

InferScore：讓 VLM 自回歸生成離散評分 → 受幻覺和采樣隨機性影響，reward 信號不穩(wěn)定；更關(guān)鍵的是，受限于離散打分機制，對于當(dāng)前最先進的文生圖模型，VLM 經(jīng)常無法區(qū)分同一 prompt 下不同種子生成的多張圖片在 prompt following 程度上的細微差異 —— 很多時候?qū)λ袌D片都給出相同分數(shù)，導(dǎo)致 reward 信號幾乎失效
PromptEcho：通過預(yù)訓(xùn)練損失函數(shù)計算連續(xù)的對數(shù)似然值 → 確定性、無采樣噪聲，天然具備細粒度區(qū)分能力

后續(xù)實驗將直接驗證這一點 —— 同樣基于 Qwen3-VL-32B，PromptEcho 全面優(yōu)于 InferScore。

實驗

PromptEcho 在兩個當(dāng)前最前沿的開源文生圖模型（Z-Image 和 QwenImage-2512）上進行了實驗，使用 Qwen3-VL-32B 作為 reward VLM。

訓(xùn)練數(shù)據(jù)構(gòu)建。研究團隊收集了約 10 萬張高質(zhì)量圖片，使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 為每張圖片生成約 200–400 詞的詳細描述（dense caption），涵蓋對象、屬性、空間關(guān)系、顏色、紋理等多維信息。這些 caption 構(gòu)成了 RL 訓(xùn)練的 prompt 集合。

DenseAlignBench ：密集描述場景下對前沿模型的大幅改進

研究團隊從同源數(shù)據(jù)中劃出 2000 條不在訓(xùn)練集中的 caption，構(gòu)建了DenseAlignBench測試集。該測試集與訓(xùn)練數(shù)據(jù)同源同分布，用于直接驗證 PromptEcho 的有效性。使用 Gemini-3-flash-preview 進行成對指令遵循維度的 GSB 評估：

在密集描述的場景下，PromptEcho 取得了對前沿模型的大幅改進。

公開 Benchmark：指令遵循能力提升的泛化測試

需要強調(diào)的是，以下公開 benchmark 的測試 prompt 與訓(xùn)練數(shù)據(jù)在分布上存在顯著差異 PromptEcho 沒有針對任何 benchmark 做針對性訓(xùn)練，以下結(jié)果完全反映指令遵循能力的泛化提升：

PromptEcho 在所有公開 benchmark 上均取得了一致的提升，體現(xiàn)了其 reward 信號源自 VLM 海量預(yù)訓(xùn)練數(shù)據(jù)中的圖文對齊知識，具備跨分布、跨架構(gòu)的泛化能力。

Reward VLM 越大越好：Scaling 有效

為了驗證 VLM 模型本身的質(zhì)量對 PromptEcho 效果的影響，研究團隊在 Z-Image 上分別使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作為 reward VLM 進行了對比實驗：

32B 在所有關(guān)鍵指標上領(lǐng)先 8B，表明 reward 質(zhì)量隨 VLM 規(guī)模增長。這意味著隨著開源 VLM 持續(xù)進化，PromptEcho 的效果上限也會不斷提高。

PromptEcho vs InferScore

同樣使用 Qwen3-VL-32B，PromptEcho 和 InferScore 的對比：

InferScore 在 DenseAlignBench 上甚至不如 baseline。這個驗證了前面的結(jié)論：通過預(yù)訓(xùn)練損失函數(shù)計算連續(xù)對數(shù)似然值，遠比讓 VLM 自回歸生成離散評分更可靠。

文字渲染：通用性驗證

PromptEcho 作為通用 Reward 范式

PromptEcho 的核心機制（VLM 交叉熵 reward）并不局限于文生圖模型的指令遵循優(yōu)化。為了驗證其通用性，研究團隊將其遷移到了一個截然不同的任務(wù)：電商海報文字渲染。

遷移過程中，PromptEcho 的核心計算完全不變，僅需適配兩個輸入：

引導(dǎo) query：從通用描述（「Describe this image in detail」）改為結(jié)構(gòu)化 OCR 識別 prompt—— 要求 VLM 識別圖中所有設(shè)計 / 營銷文字，并按語義角色分類為主標題、副標題、賣點文案、其他文字
：從自然語言 caption 改為 JSON 格式的結(jié)構(gòu)化文字標簽（直接從編輯指令中提取）

經(jīng)過 PromptEcho 強化學(xué)習(xí)之后，在 5000 條測試樣本上，海報生成模型全圖文字正確率從68% 提升到 75%（+7pp）。這說明 PromptEcho 是一種通用的 reward 構(gòu)建范式—— 只需調(diào)整引導(dǎo) query 和標簽格式，同一套機制就能適配不同的圖像生成模型和優(yōu)化目標，無需為每個新任務(wù)重新訓(xùn)練專用 reward 模型。

Case 展示

下圖展示了一些實際的 case： QwenImage-2512（Baseline）與經(jīng)過 PromptEcho 訓(xùn)練后的模型在同一 prompt 下的生成對比。QwenImage-2512 作為當(dāng)前最先進的開源文生圖模型，整體指令遵循能力已經(jīng)不錯。可以看到，經(jīng)過 PromptEcho 訓(xùn)練后，模型在畫面細節(jié)、空間關(guān)系、對象計數(shù)等方面有了進一步的顯著改進。

圖 2：QwenImage-2512 Baseline vs PromptEcho 生成結(jié)果對比。

總結(jié)與展望

PromptEcho 揭示了一個簡潔而深刻的洞察：VLM 的預(yù)訓(xùn)練損失函數(shù)本身就是一個高質(zhì)量的文圖對齊 reward 信號。不需要標注數(shù)據(jù)，不需要訓(xùn)練 reward 模型，直接利用開源 VLM 的一次前向推理，就能提供高質(zhì)量的指令遵循 reward 信號。

這開辟了一條全新的 reward 構(gòu)建路徑 —— 未來隨著開源社區(qū) VLM 持續(xù)改進，PromptEcho 將獲得更高質(zhì)量的 reward 信號，帶來更好的優(yōu)化效果。

為了方便社區(qū)的進一步研究，研究團隊已開源代碼、模型權(quán)重和 DenseAlignBench 測試集，詳見：https://github.com/roooobotx/prompt_echo。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.