亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

西交大 x A*STAR 論文:讓 AI 學(xué)會「保持一致」,多圖生成迎來關(guān)鍵突破丨CVPR 2026

0
分享至


PaCo-RL:基于成對獎勵與強化學(xué)習(xí)的圖像一致性生成方法。

作者丨鄭佳美

編輯丨岑 峰

很多人都有這樣的體驗:讓 AI 畫一個角色,第一張很好看,但第二張開始有點不一樣,第三張基本就像換了個人。你讓它做一套海報,單張都不錯,但放在一起風(fēng)格卻完全不統(tǒng)一,再或者你讓它畫一個故事分鏡,人物形象會一會胖一會瘦,甚至連臉都對不上,你只是改一下衣服顏色,它卻順手把臉也改了。

這些看起來像小問題,但在真實應(yīng)用中卻是致命的。在 IP 設(shè)計、品牌視覺、內(nèi)容生產(chǎn)甚至工業(yè)和醫(yī)療場景中,要求的從來不是某一張圖好看,而是一整組都要一致。

問題的關(guān)鍵在于,當(dāng)前圖像生成模型雖然已經(jīng)從“能用”走向“高質(zhì)量”,但能力仍停留在單次生成優(yōu)化,也就是“單樣本最優(yōu)”。它擅長把一張圖畫好,卻不知道哪些東西必須在多張圖之間保持不變。換句話說,模型缺少的不是生成能力,而是一種對跨圖關(guān)系的穩(wěn)定建模能力,而這一能力,正是生成模型走向規(guī)模化應(yīng)用的關(guān)鍵瓶頸。

在這一背景下,來自西安交通大學(xué)與新加坡 A*STAR 的研究團隊提出了論文《PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling 》,從建模范式層面對這一問題進(jìn)行重構(gòu)。

這項研究沒有沿用傳統(tǒng)的單圖打分或圖文對齊思路,而是將一致性問題轉(zhuǎn)化為“跨圖比較”的學(xué)習(xí)問題,通過構(gòu)建成對比較的獎勵模型,使模型能夠?qū)W習(xí)人類在判斷一致性時所依賴的相對關(guān)系與多維標(biāo)準(zhǔn),并進(jìn)一步結(jié)合強化學(xué)習(xí),將這種判斷能力反向作用于生成過程之中,從而實現(xiàn)從“會判斷”到“會生成”的能力閉環(huán)。


論文地址:https://arxiv.org/pdf/2512.04784

01


從「不會判斷」到「 穩(wěn)定生成」

整體來看,實驗結(jié)果可以歸納為一條完整且有數(shù)據(jù)支撐的邏輯鏈。

首先,研究團隊通過對比實驗發(fā)現(xiàn),現(xiàn)有模型并不具備真正的圖像一致性理解能力。在 ConsistencyRank 基準(zhǔn)測試中,大模型 Qwen2.5-VL-7B 的準(zhǔn)確率僅為 0.344,而傳統(tǒng)方法 CLIP-I 和 DreamSim 分別達(dá)到 0.394 和 0.403,反而表現(xiàn)更好,同時在排序相關(guān)性指標(biāo)上也明顯領(lǐng)先。

這說明通用大模型雖然具備較強的圖文理解能力,但在需要跨圖比較并綜合身份、風(fēng)格和邏輯等多維因素的一致性判斷任務(wù)中存在明顯不足,因此一致性屬于一種無法通過通用能力直接獲得的專門能力。

在此基礎(chǔ)上,研究團隊訓(xùn)練了 PaCo-Reward 模型,并在同一基準(zhǔn)上測試,結(jié)果顯示準(zhǔn)確率提升至 0.449,相比原模型提升超過 10%,同時在 Spearman 相關(guān)系數(shù)上也達(dá)到 0.288,顯著優(yōu)于所有對比方法,說明這一模型在排序能力上更接近人類判斷標(biāo)準(zhǔn)。


進(jìn)一步地,在 EditReward-Bench 測試中,PaCo-Reward 在一致性指標(biāo)上達(dá)到 0.709,在整體指標(biāo)上達(dá)到 0.751,不僅超過所有開源方法,而且接近 GPT-5 的表現(xiàn),說明模型具備良好的跨任務(wù)泛化能力,而不是簡單記憶訓(xùn)練數(shù)據(jù)。在此基礎(chǔ)上,研究人員將這一獎勵模型引入強化學(xué)習(xí)訓(xùn)練,在生成任務(wù)中進(jìn)一步驗證性能提升。


在 Text-to-ImageSet 任務(wù)中,一致性指標(biāo)整體提升約 10.3% 到 11.7%,在身份、風(fēng)格和邏輯等多個維度均有明顯改善,同時在 GEdit-Bench 圖像編輯任務(wù)中,語義一致性和提示質(zhì)量指標(biāo)均持續(xù)提升,例如在 Qwen-Image-Edit 模型上,整體分?jǐn)?shù)從 7.307 提升至 7.451,在多語言設(shè)置下也表現(xiàn)出一致的改進(jìn)趨勢,這說明模型不僅能夠提升一致性,還能夠保持甚至提升生成質(zhì)量。


在訓(xùn)練效率方面,研究發(fā)現(xiàn)采用低分辨率訓(xùn)練策略時,512 分辨率訓(xùn)練大約 6 小時即可達(dá)到與 1024 分辨率約 12 小時訓(xùn)練相當(dāng)?shù)男Ч诩s 50 個訓(xùn)練輪次后性能基本收斂一致,顯著降低計算成本。

在訓(xùn)練穩(wěn)定性方面,傳統(tǒng)多獎勵加權(quán)方法會導(dǎo)致獎勵比例在訓(xùn)練過程中迅速超過 2.5,從而出現(xiàn)單一獎勵主導(dǎo)優(yōu)化的問題,而改進(jìn)方法能夠?qū)ⅹ剟畋壤€(wěn)定控制在 1.8 以內(nèi),從而避免優(yōu)化偏移并保持多目標(biāo)平衡。

綜合以上實驗結(jié)果可以得出結(jié)論,研究不僅成功訓(xùn)練出能夠準(zhǔn)確建模人類一致性判斷的模型,而且能夠?qū)⑦@一能力有效用于生成模型優(yōu)化,并在保證訓(xùn)練效率和穩(wěn)定性的前提下實現(xiàn)性能提升,從而形成一個完整且可行的技術(shù)閉環(huán)。

02


從可解釋判斷,到可控生成

整個實驗過程可以清晰地劃分為兩個階段。第一階段圍繞如何判斷圖像一致性展開。研究團隊首先發(fā)現(xiàn)缺乏可以直接用于訓(xùn)練一致性判斷的數(shù)據(jù),其根本原因在于一致性本身具有較強的主觀性,同時涉及身份、風(fēng)格和邏輯等多維度因素,很難通過統(tǒng)一標(biāo)準(zhǔn)進(jìn)行標(biāo)注。

因此,研究人員設(shè)計了一套結(jié)合自動生成與人工標(biāo)注的數(shù)據(jù)構(gòu)建流程。具體而言,首先利用生成模型構(gòu)建數(shù)據(jù)源,通過生成約 2000 條文本 prompt,并進(jìn)一步篩選出 708 條具有代表性和多樣性的 prompt,然后基于這些 prompt 使用圖像生成模型生成具有內(nèi)部一致性的圖像網(wǎng)格,每個 prompt 會生成多個圖像網(wǎng)格,每個網(wǎng)格包含多個子圖。

接下來進(jìn)入關(guān)鍵步驟,即對子圖進(jìn)行拆分與組合,也就是將每個圖像網(wǎng)格劃分為多個 sub-figure,并在不同網(wǎng)格之間進(jìn)行組合,從而構(gòu)造出大量具有不同一致性關(guān)系的圖像對。這一過程通過組合方式顯著擴大數(shù)據(jù)規(guī)模,在約 708 個 prompt 和 2832 張圖像的基礎(chǔ)上構(gòu)造出 33984 個排序樣本。


隨后,研究人員構(gòu)建排序任務(wù),每個樣本包含 1 張參考圖和 4 張候選圖,標(biāo)注任務(wù)是根據(jù)視覺一致性對候選圖進(jìn)行排序。標(biāo)注過程由 6 名標(biāo)注人員完成,每人標(biāo)注約 5664 個樣本,標(biāo)注過程中不依賴嚴(yán)格規(guī)則,而是基于人類直覺對一致性進(jìn)行判斷,同時保留部分?jǐn)?shù)據(jù)作為評測基準(zhǔn)。

為了便于模型訓(xùn)練,研究團隊進(jìn)一步將排序數(shù)據(jù)轉(zhuǎn)換為 pairwise 數(shù)據(jù)形式,即將排序關(guān)系轉(zhuǎn)化為兩兩比較的樣本,例如將多個候選之間的排序關(guān)系拆解為多個 A 與 B 的一致性判斷,從而得到超過 54624 個圖像對,其中包括 27599 個一致樣本和 27025 個不一致樣本,每個樣本不僅包含標(biāo)簽,還配有對應(yīng)的推理解釋,從而增強數(shù)據(jù)的可解釋性與泛化能力。


在完成數(shù)據(jù)構(gòu)建之后,研究團隊進(jìn)一步設(shè)計獎勵模型的訓(xùn)練方式。傳統(tǒng)方法通常采用輸入圖像并輸出一個標(biāo)量分?jǐn)?shù)的方式來表示質(zhì)量或一致性,但這種方式與視覺語言模型基于自回歸生成的機制不匹配,同時難以表達(dá)復(fù)雜判斷過程。

為了解決這一問題,研究人員提出將一致性判斷建模為生成任務(wù),在 PaCo-Reward 模型中,輸入由兩張圖像和對應(yīng)文本組成,模型輸出為 Yes 或 No,用于表示兩張圖像是否一致,同時還會生成一段推理過程來解釋判斷依據(jù)。這一設(shè)計使一致性判斷轉(zhuǎn)化為語言生成問題,從而能夠直接利用視覺語言模型的生成能力進(jìn)行訓(xùn)練,并提升模型穩(wěn)定性與可解釋性。

模型在訓(xùn)練過程中不僅學(xué)習(xí)最終的判斷結(jié)果,還學(xué)習(xí)推理過程,從而避免僅依賴表面特征進(jìn)行判斷。完成訓(xùn)練后,研究人員通過排序一致性任務(wù)和圖像編輯任務(wù)對模型進(jìn)行驗證,結(jié)果表明這一獎勵模型在多個指標(biāo)上均優(yōu)于現(xiàn)有方法。


第二階段圍繞如何生成一致圖像展開。研究人員在這一階段引入強化學(xué)習(xí)框架,其基本流程包括模型根據(jù)輸入生成圖像集合,然后由獎勵模型對生成結(jié)果進(jìn)行評分,再根據(jù)評分信號更新生成模型參數(shù),這一過程類似人類通過反饋不斷優(yōu)化行為的學(xué)習(xí)方式。

在具體實現(xiàn)中,研究團隊提出了兩個關(guān)鍵優(yōu)化策略以提升訓(xùn)練效率與穩(wěn)定性。首先是分辨率解耦策略,即在訓(xùn)練階段使用低分辨率圖像進(jìn)行采樣與優(yōu)化,而在推理階段仍然生成高分辨率圖像,這樣可以顯著降低計算開銷,因為圖像生成模型的計算復(fù)雜度與分辨率呈平方關(guān)系增長,而實驗表明低分辨率圖像已經(jīng)能夠提供足夠的獎勵信號來指導(dǎo)優(yōu)化方向。

其次是獎勵平衡策略,用于解決多目標(biāo)優(yōu)化中的沖突問題。在一致性生成任務(wù)中,模型通常需要同時優(yōu)化一致性與文本對齊等多個目標(biāo),而不同獎勵之間可能存在尺度差異和波動差異,從而導(dǎo)致某一獎勵在訓(xùn)練過程中占據(jù)主導(dǎo)地位。為了解決這一問題,研究人員對波動較大的獎勵進(jìn)行壓縮處理,從而降低其影響范圍,使多個獎勵在優(yōu)化過程中保持相對平衡,避免訓(xùn)練偏移。

最終,研究團隊在多圖生成任務(wù)和圖像編輯任務(wù)上對方法進(jìn)行驗證,結(jié)果顯示模型在身份一致性、風(fēng)格一致性以及邏輯一致性等多個方面均得到明顯提升,同時在編輯任務(wù)中能夠?qū)崿F(xiàn)局部修改與整體保持之間的良好平衡,從而驗證整個方法在實際生成任務(wù)中的有效性。


03


從單點生成到關(guān)系建模的范式變化

這項研究的意義不僅體現(xiàn)在技術(shù)層面,也正在改變普通人使用 AI 的體驗。首先在問題層面,研究團隊解決了多圖一致性這一長期存在的難題。過去人工智能模型雖然可以生成單張高質(zhì)量圖像,但一旦需要連續(xù)生成角色、設(shè)計系列海報或制作故事分鏡,就會出現(xiàn)人物變化、風(fēng)格不統(tǒng)一甚至邏輯混亂的問題。

這意味著普通用戶即使生成了好看的圖片,也很難真正用在創(chuàng)作、設(shè)計或內(nèi)容生產(chǎn)中。而通過系統(tǒng)性的設(shè)計與訓(xùn)練,這項研究讓模型能夠在多張圖像之間保持一致,使 AI 從“能用”走向“可用”,真正具備連續(xù)創(chuàng)作能力。

在方法層面,研究提出了一種更接近人類思維的學(xué)習(xí)方式,即通過比較來學(xué)習(xí),而不是直接打分。對于普通用戶來說,這種變化意味著模型更“懂人”的審美和判斷標(biāo)準(zhǔn),不再只是機械優(yōu)化指標(biāo),而是能夠更自然地理解“像不像”“一致不一致”這樣的主觀概念,從而生成更符合人類預(yù)期的結(jié)果。

在訓(xùn)練層面,研究進(jìn)一步推動了強化學(xué)習(xí)在圖像生成中的實際應(yīng)用。過去這類方法往往成本高、訓(xùn)練不穩(wěn)定,難以真正落地,而研究通過低分辨率訓(xùn)練與獎勵平衡機制,在降低計算成本的同時提升穩(wěn)定性。這不僅提升了模型性能,也意味著未來類似能力可以更快進(jìn)入產(chǎn)品,普通用戶在工具中直接體驗到更穩(wěn)定、更一致的生成效果。

更深層來看,這項研究構(gòu)建了一種生成與評價相結(jié)合的閉環(huán)機制。傳統(tǒng)模型只負(fù)責(zé)“生成”,而在這一方法中,模型不僅能夠生成圖像,還能夠在生成過程中不斷“自我檢查”和優(yōu)化結(jié)果。

對于普通人而言,這意味著未來的 AI 不再需要反復(fù)手動調(diào)整提示詞,而是可以自動修正偏差,逐步生成符合預(yù)期的內(nèi)容,從而大幅降低使用門檻。

04


構(gòu)建 PaCo-RL 的人

這篇論文的共同一作分別是平博文賈成銪。其中,賈成銪目前是西安交通大學(xué)計算機科學(xué)專業(yè)博士研究生,處于博士階段后期,導(dǎo)師為羅敏楠教授,同時與常曉軍教授開展合作研究,并且未來將加入騰訊混元的青云計劃從事研究工作。在科研經(jīng)歷方面,賈成銪曾在新加坡進(jìn)行訪問研究,并在上海人工智能實驗室擔(dān)任研究實習(xí)生。

在學(xué)術(shù)成果方面,賈成銪已在多個國際頂級會議和期刊發(fā)表論文,包括 CVPR、AAAI、ACL、IEEE TIP 等,同時擔(dān)任 NeurIPS、ICML、CVPR、ECCV 等重要會議與期刊的審稿人,體現(xiàn)出較高的學(xué)術(shù)影響力與認(rèn)可度。

在研究方向上,主要從事計算機視覺與多模態(tài)領(lǐng)域的研究,重點關(guān)注視覺生成與智能體相關(guān)問題。具體研究內(nèi)容包括一致性圖像生成、視頻生成,以及獎勵模型與強化學(xué)習(xí)在視覺生成中的應(yīng)用,整體目標(biāo)是提升模型在生成任務(wù)中的一致性、可控性與智能性。


參考地址:https://chengyou-jia.github.io/

這篇論文的通訊作者錢航薇,目前在新加坡 A*STAR 前沿人工智能研究中心從事研究工作。

在研究方向方面,錢航薇主要從事人工智能與多模態(tài)學(xué)習(xí)相關(guān)研究,重點包括多模態(tài)大語言模型、面向科學(xué)研究的人工智能、生成式人工智能與智能體系統(tǒng),以及基于大模型的科學(xué)發(fā)現(xiàn)方法,同時還關(guān)注可信與可解釋人工智能以及時間序列建模等方向 。

在科研成果方面,錢航薇在 AAAI、IJCAI、KDD 等國際會議以及人工智能領(lǐng)域重要期刊發(fā)表多篇論文,研究內(nèi)容涵蓋對比學(xué)習(xí)、強化學(xué)習(xí)、時間序列建模以及可解釋性等方向,并參與多個科研項目,包括 A*STAR Career Development Fund 和相關(guān)研究基金項目 。


參考鏈接:https://hangwei12358.github.io/

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

互聯(lián)網(wǎng).亂侃秀
2026-04-18 11:34:41
你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

你見過哪些結(jié)婚作死行為?網(wǎng)友:這種親戚以后就別來往了

帶你感受人間冷暖
2026-04-01 00:15:03
王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

王立群教授:用權(quán)力泡女人,女人在你面前服服帖帖,用金錢泡女人,女人是滿臉不服氣,甚至討價還價...

深度知局
2026-04-08 07:41:14
59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

59歲王志文已準(zhǔn)備好了后事,一切從簡,骨灰回歸自然,遺憾公開

孤芳自賞的小李
2026-04-17 19:16:25
瓦爾·基爾默"復(fù)活"出演:AI演員時代真的來了嗎

瓦爾·基爾默"復(fù)活"出演:AI演員時代真的來了嗎

報錯免疫體
2026-04-17 21:31:57
吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

吳彥祖女兒高調(diào)亮相,太漂亮了吧,恐怕是娛樂圈顏值最高的星二代了!

手工制作阿殲
2026-04-17 09:52:59
徐帆回應(yīng)離婚5個月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

徐帆回應(yīng)離婚5個月,馮小剛狀態(tài)曝光,他的“小心思”再藏不住了

青橘罐頭
2026-04-17 17:08:26
真拼!鄺兆鐳踢中超高光時刻:5秒讓對手摔2次,最后拉傷3次倒地

真拼!鄺兆鐳踢中超高光時刻:5秒讓對手摔2次,最后拉傷3次倒地

足球大腕
2026-04-18 11:12:31
美軍司令部:發(fā)動打擊

美軍司令部:發(fā)動打擊

陸棄
2026-04-17 08:45:03
65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

65歲東北老兩口定居廈門半年后,哭著說:這哪是養(yǎng)老,分明是遭罪

今日搞笑分享
2026-04-18 00:02:50
藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

藍(lán)綠新北市長參選人上淡江大橋,侯友宜:李四川的奉獻(xiàn)大家有目共睹

海峽導(dǎo)報社
2026-04-17 22:28:05
再次反轉(zhuǎn)!美伊都否認(rèn)了

再次反轉(zhuǎn)!美伊都否認(rèn)了

陸棄
2026-04-16 09:41:04
中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

中國駐俄領(lǐng)館:俄羅斯一起交通事故致中國公民1死10傷

界面新聞
2026-04-18 18:15:00
章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

章澤天穿最新款出席晚宴,網(wǎng)友這才是她的賽道,不要和別人搶飯碗

動物奇奇怪怪
2026-04-18 15:45:11
阿里開源"小鋼炮":30億參數(shù)干翻270億

阿里開源"小鋼炮":30億參數(shù)干翻270億

我是一個粉刷匠2
2026-04-16 22:48:49
劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

草莓解說體育
2026-04-18 12:17:27
1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點不對勁

1953年陳賡向周總理撥通了緊急電話:總理,高崗現(xiàn)在有點不對勁

輝輝歷史記
2026-04-18 04:17:21
退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

退休以后,提醒大家:盡量別讓任何人知道你的狀態(tài),尤其這5件事

小談食刻美食
2026-03-28 09:42:18
突發(fā)!全球巨震!霍爾木茲海峽完全開放

突發(fā)!全球巨震!霍爾木茲海峽完全開放

新浪財經(jīng)
2026-04-17 21:18:35
瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

瘋狂小楊哥最新照片曝光,滿臉憔悴,神采不再

微微熱評
2026-04-17 12:35:11
2026-04-19 00:08:49
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

健康
教育
時尚
藝術(shù)
親子

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

教育縱深 | 聚焦春招進(jìn)行時

選對發(fā)型,真的能少走很多變美彎路

藝術(shù)要聞

耗資600億,貴陽人的“上海外灘”,現(xiàn)在去看,荒得嚇人

親子要聞

退燒藥怎么用?90%家長都搞錯了

無障礙瀏覽 進(jìn)入關(guān)懷版