網易首頁 > 網易號 > 正文申請入駐

AI生成圖片正在反向對齊人類的審美？ICML 2026觀點論文Spotlight

2026-06-25 13:14:12　來源: 機器之心Pro

天津舉報

分享至

UBC 和 Weathon Software 的研究提出，圖像的美學對齊正在削弱藝術表達。

論文標題：Position: Universal Aesthetic Alignment Narrows Artistic Expression作者：郭聞起，錢青云，Khalad Hasan，Shan Du
論文地址：
https://arxiv.org/abs/2512.11883
代碼和數據（已開源）：
https://github.com/weathon/icml2026_position
展覽網站：
https://weathon.github.io/icml2026_position/
ICML Event Page：https://icml.cc/virtual/2026/poster/67242

本文第一作者郭聞起是 University of British Columbia（UBC）的計算機系碩士生，主攻 AI 生成模型的安全和隱私問題。他和共同作者錢青云（法學系畢業生，UBC 計算機系本科在讀）一起提出了對 AI 模型普遍追求單一價值對齊的擔憂。此前兩人曾批判模型在醫學方向過度謹慎的情況。

本文主要討論圖像生成模型在美學對齊中對藝術表達的限制問題。本文的指導教授是 UBC 的 Khalad Hasan，主攻人機交互方向，以及 Shan Du，主要研究計算機視覺和計算機圖形學。

該論文在 ICML 上的海報：一定程度上擺脫了傳統學術海報的風格束縛。

當「更好看」成為默認目標

AI 圖片生成模型最開始只能生成 8 根手指、扭曲面部等不符合正常生理結構的圖片，而現在已經進化到了可以生成正常、符合人類生理結構的圖片。

在解決了此類圖像生成的正確性問題后，AI 開發者們的目標轉向了如何讓 AI 生成的圖片更符合人類的審美。

于是，ImageReward、HPSv2、HPSv3 等圖像質量評估模型被相繼開發出來，且被廣泛應用于對齊圖像生成模型，以產出更符合人類偏好的圖片。

然而，當圖像生成模型被強制對齊到開發者們預先設定好的審美標準，被強化學習訓練成只會產出網紅風的「糖水片」——也就是色彩艷麗、對比度鮮明、在社交媒體上備受青睞的一類圖片時，圖像生成模型所能產出的圖片是否已一步步偏離人類社會中真正的藝術？

藝術的表達本應是多元的，除去主流審美框架，藝術還應包含小眾風格、非主流文化，甚至于是「丑陋」的文化。但是當此類色彩明艷、對比度鮮明的「糖水片」占據主流，而其他小眾風格被悄然邊緣化時，我們是否會產生一個疑問：百花齊放的藝術何時變成了一枝獨秀的「色彩大片」？

這真的反映了全人類的審美偏好嗎？或者說人類真的有所謂絕對意義上的通用審美偏好嗎？用戶在美學上的個性化需求需要讓位于開發者所理解的通用人類審美嗎？所謂的「使用美學對齊，生成更符合人類偏好的圖片」，到底是開發者在訓練模型去對齊人類的審美，還是處于相反的情況——模型正通過生產絕對數量的單獨一種風格的圖片，悄悄地把用戶的審美反向對齊到模型自身的審美偏好上？

圖中展示的這些是經過 DanceGRPO 對齊之后的 Flux Dev 生成的圖片?？陀^地說，這些圖片確實非常符合「大眾」的口味和喜好：鮮艷的顏色、強烈的對比度，以及清晰的細節。

然而，對于這些被訓練好的圖片生成模型，無論用戶提出的要求是什么，甚至即使用戶明確要求避免此類風格（例如要求生成模糊昏暗的風格），它們仍然固執地運用同一套審美標準，輸出同質化嚴重的「糖水大片」。這不僅違背了用戶的真實需求，還在無形中限制了用戶的想象空間。

六個相互關聯的擔憂

針對這種普適的、同質化的審美標準，本文作者郭聞起和錢青云提出了六個相互關聯的擔憂。

首先是關于開發者預設的通用審美標準影響用戶個性化審美權利的擔憂。采用這種通用審美真的能更好地服務用戶，滿足用戶的審美需求嗎？亦或者它的目的只是為了滿足開發者規避聲譽、法律和市場風險的私欲？

文章認為，這種預先排除非主流風格、只保留單一審美標準的做法可能會造成創造可能性的單一性。它通過算法設計，將生成的圖片局限于預設的審美標準內，并剝奪了用戶提出異議的權利。在此背景下，這套審美標準是否能真正滿足用戶偏好是存疑的。

其次是開發者在制定審美標準時引入的偏見性問題。即使開發者本身沒有明顯的利益需求，他們本身也沒有有意識地引入偏見，他們對人類審美偏好的理解也會通過數據選擇、標注實踐和建模選擇隱性地傳遞給模型，從而形成一種看似寬大，實則狹隘的通用人類偏好，排斥了多樣化的審美。

比如：HPSv3 的標注者絕大部分都是年輕人，他們所選擇的「好圖像」可能會偏向年輕一代的審美。此外，HPSv3 還要求標注者必須通過一個和專家的標注結果保持一致的測試，這導致了標注結果無法跳出特定預設的審美框架。

第三是個體偏好和群體偏好的矛盾問題。當開發者事先制定好的審美標準，也就是這份帶有隱性偏見的固有偏好，被設置為為所有用戶提供服務時的默認質量標準時，這份「開發者眼中有利于大多數人的普適標準」可能會凌駕于部分用戶的明確意愿之上。

這既導致了群體偏好對個體偏好的沖突——模型采用統一審美框架，而非遵從特定用戶的明確指令；又導致了群體客戶的審美同質化：在模型絕大多數只生成同一種風格的圖片，而用戶只能被動接受該類風格的圖片時，用戶的美學偏好被反向對齊到模型的偏好上了。

第四，被統一標準強行矯正過的審美框架可能會過度美化和修飾現實的問題。當圖像生成模型在審美框架的限制下，只能生成光鮮亮麗、完美無瑕的圖像時，與「完美圖像」背道而馳的「丑」，亦或者其余小眾的風格、現實中的黑暗，是否正在被悄悄地忽略？模型生成的圖片可能無法代表用戶想要的現實，而是只呈現了其理想化的一面。

第五，色彩過于鮮明的圖片存在「正能量過?！沟膯栴}。鑒于上述提及的審美框架，許多獎勵模型會有針對性地給圖片評分：他們會給帶有強烈積極情緒和明亮色彩的圖像更高的分數，并系統性地懲罰帶有消極情緒和風格的圖像。嘗試讓圖片給予觀眾更多的積極情緒似乎是正確的，然而，拒絕消極風格的圖像似乎又帶來了另一個問題。消極情緒和風格在人類認知和社會互動中扮演著不可替代的角色，不允許消極風格的出現會扭曲情感表達，削弱模型的表現力。

第六，固定不變的、被稱之為「人類普遍愛好的審美方向」存在藝術價值單一、去多元化的問題。美學是人類最豐富、最具爭議、也最多元的價值之一，將其簡化為單一的獎勵分數是典型的價值捕獲。它將多元、復雜、多維度的美學探索壓縮成一個單一的數字，限制了不同風格藝術的出現，也壓制了人類對于多元美學圖片的探討。

如何驗證模型有多固執？

為了驗證現在的模型有多固執地執行此類審美標準，本文作者設計了 300 條 prompt。這些 prompt 以 COCO 數據集中的 prompt 作為基底，再根據 VisionReward 中用于標注圖像的 guideline 選擇了一些「反美學」維度，如光線昏暗、顏色沖突、不合比例和負面情緒等，最后通過 Qwen3 合成反美學的圖像，并生成數據集。

然后，他們將這些 prompt 送入主流的圖像生成模型家族來測試生成的圖片。為了形成對比，并排除「模型只是無法遵循復雜反美學 prompt」這一可能性，他們測試了同一家族內沒有經過額外美學對齊的模型，以及經過社區或學術界額外美學對齊的模型。他們同時測試了圖像生成模型和獎勵模型。

獎勵模型是否真的理解反美學？

為了評估獎勵模型，他們把一張原始圖片（由 COCO 基礎 prompt 生成）和一張已成功生成的反美學圖片同時給獎勵模型，并明確提供希望生成反美學圖片的 prompt，觀察獎勵模型會選擇輸出哪一張圖片。同時，他們測試了簡單的圖文匹配模型：BLIP 和 CLIP。

結果顯示，即使是最新的獎勵模型，如 HPSv3 和 HPSv2.1，當拿到反美學 prompt 時，也幾乎無法正確地選出那張反美學圖片。而沒有經過美學訓練的 CLIP 和 BLIP 卻可以完美地選出這張反美學圖片。由于使用的是同樣的反美學 prompt，這兩項測試結果排除了反美學 prompt 過于復雜、模型無法理解的可能。

圖像生成模型能否遵循反美學要求？

為了測試圖像生成模型，本文作者用 COCO 原始 prompt 通過獎勵模型給圖片打分。在這種情況下，模型輸出越偏離傳統美學（也就是越成功地反美學），就越說明它能夠遵循用戶的反美學要求。

他們還在 VisionReward 數據集上訓練了一個小的、不用 prompt 作為輸入的裁判模型，用來判斷在沒有 prompt 的影響時，模型是否可以生成反美學圖片。最后，他們用了 BLIP 模型（如前文所述，可以很好地判斷反美學程度）來判斷圖片是否符合反美學 prompt。

表中的結果可以看出，模型在經過美學對齊之后，普遍獲得了更低的反美學能力。唯一例外的是 Nano Banana，盡管用戶對其美學質量感到驚嘆，它依舊能在要求時成功地生成反美學圖片。其生成的 COCO 基礎 prompt 圖片和反美學圖片的 HPSv3 分數差異也是最大的，達到了 9.351。

成功與失敗的反美學生成

成功（Nano Banana）和失?。―anceFlux）的反美學圖像生成。兩個模型都被給予了一個反美學 prompt（特征標注在圖像上，如 clashing color，distortion）。Nano Banana 可以在一定程度上很好地表達出這些反美學特征，然而 DanceFlux 忽略了這些要求，生成出了傳統的網美風圖像，甚至在用戶明確要求生成反美學圖片時也依舊如此。

真實圖片的測試

為了測試獎勵模型在 AI 生成圖像之外的表現，研究者還考察了真實的反美學攝影作品。他們從 AVA 數據集中以 agentic 的方式篩選出一批反美學照片。AVA 數據集來自專業攝影平臺，其中的反美學攝影更接近有意的藝術表達，而不是單純的失敗作品。

具體來說，他們讓 LLM 為這些圖片生成兩類標題：一類明確包含反美學元素，另一類只簡單描述圖片內容。隨后，他們使用這些「簡單表述圖片內容的標題」作為 prompt，通過 AI 重新生成一張更「干凈」的圖片，再讓 HPSv3 對真實反美學照片和 AI 生成的干凈版本進行打分。結果顯示，HPSv3 嚴重偏好后者，即使真實的反美學作品更符合原本 prompt 中的藝術表達。下圖展示了一些極端案例。

美學對齊對情緒的偏見

本文作者的其中一個擔憂是美學對齊會過度偏好正面情緒，且壓制負面情緒的表達。為了測試這一點，研究者讓 Nano Banana 生成 4 張除表情外幾乎完全相同的照片，分別對應開心、憤怒、傷心和恐懼。結果發現，即使 prompt 明確要求負面情緒，HPSv3 仍然強烈偏好那張正面情緒的照片，HPSv3 成功選擇負面情緒圖片的準確率甚至低于隨機猜測的 50%。而 HPSv2 和 ImageReward 的表現雖然好一些，但仍然達不到 BLIP 的水平。

在生成側，這種現象同樣存在：經過美學對齊的模型幾乎無法穩定生成負面情緒。更值得警惕的是，當用戶要求一張圖片表達戰爭的殘酷時，DanceFlux 生成的畫面仍讓廢墟中的母親帶著一絲微笑，削弱了用戶原本想表達的對戰爭的批判。這也引出了作者們對美學對齊更深一層的質疑：如果模型總是把圖像修飾得積極、明亮、討喜，它是否會讓生成圖像失去通過「負面情緒」「滑稽」「丑陋」等風格，對事物進行批判的能力？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.