亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大&騰訊打破圖像編輯「規(guī)模-質(zhì)量」魔咒:1000萬數(shù)據(jù)+統(tǒng)一驗證框架,讓開源模型追上閉源SOTA | CVPR 2026

0
分享至


他們用一套"質(zhì)檢+改題"雙系統(tǒng),造出了AI圖像編輯領(lǐng)域的第一套標準化教材。

不知你有沒有發(fā)現(xiàn),用ChatGPT里的圖像編輯挺順,但換幾個開源工具就頻頻翻車?這不是錯覺——頂尖閉源模型(如GPT-Image-1)和開源模型之間的差距,正在被越拉越大。 根源在于:開源陣營手里沒有兩樣東西——足夠多且足夠好的訓練素材,以及一套能全面體檢模型能力的'診斷系統(tǒng)'。

更麻煩的是,做數(shù)據(jù)就像走鋼絲:純手工打造的精品數(shù)據(jù)集,質(zhì)量過硬但根本攢不夠量;全自動流水線倒是能批量生產(chǎn),但環(huán)節(jié)一多,前面的小錯會一路放大成災難——比如第一步識別錯了物體,后面所有編輯都跟著跑偏。

具體來說,現(xiàn)在的數(shù)據(jù)生產(chǎn)有三個漏銅:

? '傳話游戲'式誤差:一個編輯任務要過N個工具(識別→分割→生成→融合),前面一步歪一點,后面步步歪;

? '安檢'走過場:要么只查'有沒有出圖'而不管文本指令對不對,要么花大價錢調(diào)API改文字描述,卻不管圖本身質(zhì)量;

? '考試范圍'太窄:現(xiàn)有測試只考'換顏色'、'加物體'這種基礎題,不考'從空中俯瞰這個建筑'這種空間理解題,也不考'將咖啡壺變?yōu)橹蠓袪顟B(tài)'這種需要常識推理的題。而且評分標準還有bug——背景被偷偷改了看不出來,風格一變就扣冤枉分。


圖1: UnicEdit-10M 涵蓋了跨越基礎與復雜編輯的 22 種編輯任務。該數(shù)據(jù)集采用統(tǒng)一的后置驗證階段,通過過濾失敗樣本并精煉指令,從而產(chǎn)出高質(zhì)量的三元組數(shù)據(jù)。此外,我們還推出了配套的 UnicBench,利用細粒度指標進行全面評估。

針對這個痛點,浙江大學和騰訊聯(lián)合搞了個大動作:他們不僅造出了1000萬組高質(zhì)量的"圖像編輯練習題"(UnicEdit-10M),還配了一套22類難度遞進的"全真模擬考卷"(UnicBench)。簡單來說,就是給AI圖像編輯領(lǐng)域提供了標準化的教材+考試系統(tǒng)。除此之外,他們還配置了一名"嚴格判官"(Qwen-Verify),對生成的圖像編輯數(shù)據(jù)進行嚴格的篩選和優(yōu)化,保證最終得到的"練習題"的答案都是正確且高質(zhì)量的。


論文標題:UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

論文地址:https://arxiv.org/pdf/2512.02790

代碼倉庫:https://github.com/WeChatCV/UnicBench

項目主頁:https://hongsexiaotanhua.github.io/UnicEdit-10M/

數(shù)據(jù)集:https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M

Benchmark:https://huggingface.co/datasets/xiaotanhua/UnicBench

01


核心亮點

1. 大規(guī)模高質(zhì)量數(shù)據(jù)集 UnicEdit-10M:構(gòu)建了包含 10M 樣本的高質(zhì)量圖像編輯數(shù)據(jù)集,覆蓋 22 種編輯任務,不僅包含基礎的屬性和對象編輯,還涵蓋幾何空間變化和基于推理知識的編輯任務,同時,該數(shù)據(jù)集的圖像美學得分也超越其他數(shù)據(jù)集。

2. Qwen-Verify 后校驗專家模型:訓練了一個 7B 規(guī)模的雙任務專家模型,能夠同時進行細粒度的失敗檢測和指令重寫,在計算成本和經(jīng)濟成本遠低于 Qwen2.5-VL-72B 的情況下,實現(xiàn)了更優(yōu)的性能。

3. UnicBench 綜合評估基準:提出了覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,引入了非編輯一致性和推理準確性等新穎評估指標,能夠全面診斷模型的編輯能力,為未來研究提供了清晰的方向。


圖2: UnicEdit-10M 中所有子任務的代表性編輯樣例。

02


UnicEdit-10M數(shù)據(jù)集構(gòu)建

UnicEdit-10M 的構(gòu)建采用了三階段的高效自動化流水線:

1. 指令生成階段:使用 Qwen2.5-VL-72B 模型,基于預定義的編輯分類體系,為每張圖像生成 3-7 個不同的、符合內(nèi)容的編輯指令,確保任務分布均衡,無需人工標注。

2. 圖像編輯階段:使用 FLUX.1-Kontext 和 Qwen-Image-Edit 兩款領(lǐng)先的開源編輯模型,對每一對〈原始圖像,指令〉進行處理,生成編輯后的圖像,形成初始的三元組。同時對源圖像進行中心裁剪和縮放預處理,并進行質(zhì)量檢查,丟棄需要超過 20% 裁剪的圖像,避免內(nèi)容丟失。

3. 后校驗階段:所有合成的三元組都經(jīng)過統(tǒng)一的后校驗環(huán)節(jié),不僅過濾掉失敗的樣本,還會優(yōu)化對應的指令,增強其與視覺編輯的語義對齊。

最終生成的 UnicEdit-10M 數(shù)據(jù)集包含約 10M 個三元組,分為 4 大編輯類型:場景編輯(3.063M 樣本)、屬性編輯(3.529M 樣本)、對象編輯(3.242M 樣本)和推理編輯(1.746M 樣本),其中 50% 的圖像為 1024×1024 的高分辨率圖像。


圖3: 包含三個階段的數(shù)據(jù)構(gòu)建流水線:(1) 數(shù)據(jù)準備;(2) 圖像編輯;(3) 后校驗,用于過濾失敗的編輯樣本并進行指令重寫(Recaption)。

03


后校驗專家模型

在后校驗階段,為了實現(xiàn)更為準確和高效的質(zhì)量控制,作者訓練了7B的雙任務后校驗專家模型Qwen-Verify,通過使用人類標注的偏好數(shù)據(jù)進行偏好對齊,實現(xiàn)更為準確的數(shù)據(jù)篩選。該專家模型能夠同時執(zhí)行如下兩個關(guān)鍵任務::

1. 編輯失敗檢測:能夠細粒度地識別出編輯失敗的樣本,包括無編輯、幻覺等情況,相比傳統(tǒng)的 SSIM 等像素級指標,Qwen-Verify 具備語義理解能力,能夠準確識別出語義上有變化但視覺上細微的編輯,同時忽略生成過程中微小的像素級噪聲。

2. 編輯指令重寫:能夠?qū)εc編輯結(jié)果語義對齊不足的指令進行重寫,確保指令與實際的視覺變換精確匹配。

對比實驗顯示,Qwen-Verify 在正常編輯、無編輯和幻覺檢測的準確率上均顯著優(yōu)于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基線模型,在人臉一致性等關(guān)鍵指標上,UnicEdit-10M 的一致性得分達到 0.89,遠優(yōu)于 GPT-Image-Edit-1.5M 的 0.3025,展現(xiàn)出在保持關(guān)鍵主體細節(jié)上的卓越能力。


圖4: 專家模型后校驗樣例。其中:Base 表示 Qwen2.5-VL-7B 模型;SFT 表示經(jīng)過第一階段指令微調(diào)后的基礎模型;Ours 表示我們提出的雙任務專家模型 Qwen-Verify。

04


UnicBench:綜合編輯能力評測

UnicBench 是一個覆蓋基礎編輯、幾何空間變化以及基于推理知識編輯任務的綜合基準,其構(gòu)建過程采用了 VLM 與人工結(jié)合的工作流:首先由 Qwen2.5-VL 生成候選指令,再由人類專家進行審核,移除模糊或語義不一致的提示,并進行重寫以匹配特定的編輯任務類別,每個類別包含 50 個測試用例。

為了實現(xiàn)更精準的評估,UnicBench 引入了四個專門的評估指標:

1. 指令遵循度(IF):通過基于 VLM 的跨模態(tài)對齊分數(shù),衡量編輯圖像滿足指令的程度。

2. 非編輯一致性(NC):評估非目標區(qū)域的保留情況,對編輯區(qū)域外的意外變化進行懲罰。

3. 視覺質(zhì)量(VQ):基于指令的自然度、連貫性和視覺風格一致性的評估。

4. 推理準確性(RA):針對基于推理知識的編輯任務,VLM會利用所提供的reasoning points 列表,針對實際編輯變化進行對比打分,該列表均經(jīng)過人工進行核驗優(yōu)化。

對主流模型的評估結(jié)果顯示,閉源模型在整體能力上顯著優(yōu)于開源模型,GPT-Image-1 在英文和中文任務上均取得了最高的綜合得分,展現(xiàn)出最優(yōu)的通用編輯能力。開源模型中,Qwen-Image-Edit 表現(xiàn)最佳,開始縮小與閉源模型的差距。但所有模型在推理準確性(RA)指標上均出現(xiàn)了顯著的性能下降,這表明當前模型在執(zhí)行需要復雜邏輯推理或世界知識的編輯任務時存在普遍的局限性,為未來的研究指明了方向。


圖5: 各模型在 UnicBench 子任務上的綜合評分,左側(cè)為英文(EN)指令結(jié)果,右側(cè)為中文(CN)指令結(jié)果。所有結(jié)果均由 GPT-4o 進行評估。


表1: 不同模型在 UnicBench 上的綜合性能表現(xiàn)。開源模型與閉源模型的結(jié)果分別標注,其中最優(yōu)性能以加粗表示,次優(yōu)性能以下劃線表示。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
地質(zhì)專家在洞穴中,發(fā)現(xiàn)2臺發(fā)電機,專家說發(fā)電機已經(jīng)工作了80年

地質(zhì)專家在洞穴中,發(fā)現(xiàn)2臺發(fā)電機,專家說發(fā)電機已經(jīng)工作了80年

咸説歷史
2026-04-14 09:47:27
后悔莫及!火箭不要的新秀,徹底完成蛻變,21歲有望成為聯(lián)盟超巨

后悔莫及!火箭不要的新秀,徹底完成蛻變,21歲有望成為聯(lián)盟超巨

體育大朋說
2026-04-18 05:05:03
六小齡童回應 “煩死了” 表情包,稱這是當年拍戲時導演抓拍到的真實狀態(tài),意外成了全網(wǎng)爆款表情

六小齡童回應 “煩死了” 表情包,稱這是當年拍戲時導演抓拍到的真實狀態(tài),意外成了全網(wǎng)爆款表情

魯中晨報
2026-04-18 17:20:04
星光大道多位冠軍現(xiàn)狀:大多已無人問津,有人負債累累當搬運工

星光大道多位冠軍現(xiàn)狀:大多已無人問津,有人負債累累當搬運工

雅兒姐游世界
2026-04-14 16:52:38
恒大0.69%清償率:一個時代神話的墓志銘

恒大0.69%清償率:一個時代神話的墓志銘

流蘇晚晴
2026-04-17 18:20:43
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術(shù),縫合針突然斷體內(nèi),瞬間崩潰

丫頭舫
2026-03-03 21:33:10
為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

呼呼歷史論
2026-04-10 21:17:24
鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

阿器談史
2026-01-26 20:48:30
深夜猝死的人增多!醫(yī)生反復強調(diào):吃完晚飯后,盡量少做這4件事

深夜猝死的人增多!醫(yī)生反復強調(diào):吃完晚飯后,盡量少做這4件事

岐黃傳人孫大夫
2026-04-18 11:45:03
高中女生借攤主手機帶入考場 企圖作弊被抓 家長遷怒攤主 攤主被逼下跪道歉

高中女生借攤主手機帶入考場 企圖作弊被抓 家長遷怒攤主 攤主被逼下跪道歉

閃電新聞
2026-04-18 17:32:26
NBA季后賽G1明天4月19日賽程:森林狼VS掘金,殘陣湖人VS火箭

NBA季后賽G1明天4月19日賽程:森林狼VS掘金,殘陣湖人VS火箭

薇說體育
2026-04-18 12:45:27
事發(fā)浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網(wǎng)友:我也遇到過!別心軟!

事發(fā)浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網(wǎng)友:我也遇到過!別心軟!

新民晚報
2026-04-18 21:15:45
60歲的郭富城在香港銅鑼灣街邊被撞見,染著一頭黃發(fā),腳蹬帆布鞋

60歲的郭富城在香港銅鑼灣街邊被撞見,染著一頭黃發(fā),腳蹬帆布鞋

可樂談情感
2026-04-18 00:18:37
經(jīng)濟熱點快評|全島封關(guān)運作后“首秀”,今年消博會有啥不一樣?

經(jīng)濟熱點快評|全島封關(guān)運作后“首秀”,今年消博會有啥不一樣?

環(huán)球網(wǎng)資訊
2026-04-18 23:39:12
衛(wèi)冕冠軍險象環(huán)生!趙心童5-4險勝海菲爾德,狀態(tài)低迷敲響警鐘

衛(wèi)冕冠軍險象環(huán)生!趙心童5-4險勝海菲爾德,狀態(tài)低迷敲響警鐘

十一體育館
2026-04-18 21:43:48
伊朗副外長:伊朗絕不接受被當作國際法的“例外”對待

伊朗副外長:伊朗絕不接受被當作國際法的“例外”對待

財聯(lián)社
2026-04-18 23:18:09
曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

美家指南
2026-03-06 10:31:36
不會干,你就別干了!中國勒令馬士基停運,巴拿馬的反應很有意思

不會干,你就別干了!中國勒令馬士基停運,巴拿馬的反應很有意思

阿腩講娛樂
2026-04-18 13:00:07
芭蕾姐喊我練一字馬,這不純扯蛋了嗎!

芭蕾姐喊我練一字馬,這不純扯蛋了嗎!

飛娛日記
2026-04-17 08:02:36
2026-04-19 00:04:49
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7198文章數(shù) 20744關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

藝術(shù)
手機
旅游
健康
軍事航空

藝術(shù)要聞

耗資600億,貴陽人的“上海外灘”,現(xiàn)在去看,荒得嚇人

手機要聞

榮耀600系列參數(shù)、外觀全曝光

旅游要聞

花開如雪 暗香浮動|濟寧戴莊流蘇花迎來最美花期 引市民打卡

干細胞抗衰4大誤區(qū),90%的人都中招

軍事要聞

解放軍護衛(wèi)艦與外艦纏斗20小時 細節(jié)披露

無障礙瀏覽 進入關(guān)懷版