无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態與布局

0
分享至

Canvas-to-Image 是一個面向組合式圖像創作的全新框架。它取消了傳統「分散控制」的流程,將身份參考圖、空間布局、姿態線稿等不同類型的控制信息全部整合在同一個畫布中。用戶在畫布上放置或繪制的內容,會被模型直接解釋為生成指令,簡化了圖像生成過程中的控制流程。

  • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
  • 通訊作者:Guocheng Gordon Qian
  • 機構:1Snap Inc. 2UC Merced 3Virginia Tech
  • 論文標題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
  • 項目主頁:https://snap-research.github.io/canvas-to-image/
  • arXiv:arxiv.org/abs/2511.21691

為什么要把控制方式合并到一張畫布上?

在以往的生成流程中,身份參考、姿態線稿、布局框等控制方式往往被設計成互不相干的獨立輸入路徑

例如:

  • 身份控制需要貼一張獨立的參考圖;
  • 姿態控制依賴單獨的骨架圖;
  • 空間布局要再通過另一個模塊或附加輸入傳給模型。

這些控制信號分別從不同通道進入模型,各自擁有獨立的編碼方式與預處理邏輯。結果就是:用戶無法在畫面的同一位置疊加多種控制信息,也無法用「一個局部區域里的組合提示」來告訴模型該怎么生成。

換句話說,傳統方法的輸入結構是多入口、分散式的,缺乏統一的表達空間。這使得復雜場景的構建流程變得冗長且割裂,用戶只能一次提供一種控制,無法在同一個圖像區域上同時表達身份 + 姿態 + 位置等組合指令。

Canvas-to-Image 正是針對這一結構性限制提出新的方案:所有控制信號都匯聚到同一張畫布中,由模型在同一個像素空間內理解、組合并執行。

核心方法論

(a) 多任務畫布(Multi-Task Canvas)

Canvas-to-Image 設計的關鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現:

  • 一小塊真實人物的圖像,用于指定人物;
  • 一組簡單的骨架線條,用來調節肢體姿勢;
  • 框選區域,用來定義人物或物體應處的位置。

這些異構視覺符號中包含的空間關系、語義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

在訓練過程中,Canvas-to-Image 的多任務畫布從跨幀圖像集(cross-frame image sets)中自動生成。具體流程如下:

  • 隨機選取一幀作為目標圖像。
  • 從其他幀中抽取目標幀所需要不同的視覺元素(人物片段,背景,姿態結構,框選區域等)。
  • 將抽取的視覺元素,按照目標幀中的相應位置,擺放在輸入畫布中。

這樣的跨幀采樣策略會在輸入畫布中自然引入姿態、光照、表情等方面的顯著差異,使得輸入提示與目標圖像之間不存在可直接復用的像素對應關系。由此,模型無法依賴簡單的拷貝機制來完成訓練任務,而必須學習更抽象的語義關聯與結構映射。這一設計在訓練階段有效規避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現 copy-paste 式的生成行為。

為了保持訓練的簡潔性,在每一次訓練中,模型只會接收到一種隨機選定的控制模態(例如空間布局、姿態骨架或邊界框)。這樣可以讓模型分別學會獨立理解不同類型的控制提示,并在推理階段自然實現多控制的組合能力。

(b) 多控制推理

在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態,例如同時提供身份參考區域、姿態骨架以及空間布局框,從而實現復雜的多控制場景生成。與傳統「單一路徑控制」的方案不同,用戶無需在不同模塊之間切換或分階段注入條件,而是通過統一畫布一次性給出所有約束信號。

從學習機制上看,模型在訓練過程中僅接觸到單一控制模態的樣本:每個訓練樣本只隨機激活其中一種控制形式(身份、姿態或位置),使模型分別掌握對單獨控制信號的理解與對齊能力。值得注意的是,即便在數據中并不存在顯式標注的「多模態組合控制」樣本,模型在推理階段仍然能夠在統一畫布中同時解析并整合多種控制信號:它會在身份參考的約束下保持人物外觀一致性,在姿態骨架約束下生成結構合理的姿態,并在布局框條件下遵循全局空間排布。

這一現象表明,模型在統一畫布表示的框架下,學到的并不是對某一種控制模態的簡單記憶,而是對「畫布上局部區域與目標圖像結構之間關系」的更高層次建模能力。換言之,模型在僅依賴單模態訓練的前提下,仍然展現出對未見過控制組合的泛化能力:在推理中面對新的、復雜的多控制配置時,依然能夠生成結構一致、外觀可信且各控制信號相互兼容的高質量結果。這也從實驗角度驗證了統一畫布設計在提升組合式可控生成能力方面的有效性。

實驗結果

多控制組合(Multi-Control Composition)

Canvas-to-Image 能夠同時處理身份、姿態和布局框,而基線方法往往會失敗。Canvas-to-Image 能:

  • 遵循畫布中給定的姿態與空間約束;
  • 保持人物外觀與參考圖一致;
  • 在多種控制疊加時維持整體畫面的連貫性與合理性。

身份 + 物體組合

當畫布中同時包含人物提示和物體提示時,Canvas-to-Image 不會把兩者當作獨立元素簡單并置。模型能夠理解兩者之間應有的空間與語義關系,因而會生成具有自然接觸、合理互動的場景。

此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

  • 人物外觀與參考圖一致;
  • 物體的形狀、材質和語義保持穩定;
  • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復雜的組合控制設置下,生成的畫面也能呈現出連貫、可信的互動效果,而不是常見的「貼圖式合成感」。

多層次場景:前景 + 背景

在給定一張背景圖的情況下,Canvas-to-Image 可以通過放置參考圖或標注邊界框的方式,將人物或物體自然地融入場景。模型會根據畫布中的提示自動調整空間關系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現近乎原生的融合效果。

消融研究

我們系統地測試了當逐步添加控制時模型的表現:

  • 僅身份控制:模型能生成人物,但姿態和位置隨機;
  • + 姿態控制:模型學會同時控制身份和姿態;
  • + 空間布局:模型能完全控制身份、姿態和位置。

關鍵發現:雖然訓練時使用單任務畫布,但模型自然學會了在推理時組合多種控制——這種涌現能力驗證了我們的設計理念。

總結

Canvas-to-Image 的核心價值是把多模態的生成控制方式全部圖形化,讓復雜場景的構建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對應的結構化、真實感強的畫面。統一畫布 + 多模態控制的范式,將有望成為下一代創作工具的基礎界面形態。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
山東一化工企業爆炸!

山東一化工企業爆炸!

濟寧人
2026-06-14 11:15:20
45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

45歲安以軒復出,好友透露其近況:沒有工作和任何收入,靠以往積蓄投資理財,獨自照顧兩個孩子

無比
2026-06-13 20:42:09
曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

曼谷民眾送別泰國公主:烈日下街頭守候,落淚送行,靈車駛向大皇宮

極目新聞
2026-06-14 18:09:18
2026,中年失業的又一悲慘版本出爐…

2026,中年失業的又一悲慘版本出爐…

慧翔百科
2026-06-12 11:21:59
昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

昆明南博會一商品二維碼涉黃:掃碼后會跳轉至色情網站,涉事公司:被涂抹的二維碼原本關聯企業公眾號,長期疏于運維,域名遭境外“攻克”

大風新聞
2026-06-14 08:55:03
伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

伊朗國足佩戴徽章紀念168名遇難兒童,隊員反問美國記者:你確定我們在美國安全嗎?你對你的國家有信心嗎?

政知新媒體
2026-06-14 19:09:36
16萬人口“小國”闖世界杯,陣中還有一位華裔球星

16萬人口“小國”闖世界杯,陣中還有一位華裔球星

瀟湘晨報
2026-06-14 17:34:16
蘋果:中國大陸暫不提供最新Siri AI

蘋果:中國大陸暫不提供最新Siri AI

界面新聞
2026-06-09 06:47:41
61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

61歲知名歌手黃大煒意外離世,他與“大外公”張學良的過往曾令人津津樂道,近一個月還在籌劃音樂事業

極目新聞
2026-06-14 16:54:14
中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

中央氣象臺發布暴雨黃色預警、強對流天氣藍色預警,廣東沿海局地有特大暴雨

界面新聞
2026-06-14 18:10:21
93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

93%依賴瞬間清零:日本石油進口,徹底逃離霍爾木茲!

寰球經緯所
2026-06-13 21:01:31
同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

同學聚會,發現一個扎心的現實:年過40的女同學中,1/3沒有工作,1/3做著低薪但沒前途工作,剩下的1/3基本都在體制內

品讀時刻
2026-06-13 09:03:28
美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

美媒曾曝中國轟炸計劃:日本敢走錯半步,將被萬枚導彈雨包大餃子

龍隱天下
2026-06-12 13:36:23
帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

帕金斯:布倫森已是尼克斯的GOAT,以后在紐約吃飯喝酒都不用花錢了

懂球帝
2026-06-14 15:29:22
開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

開封3歲男童失聯新進展!救援隊爆可疑疑點,家屬疑慮,恐要成真

奇思妙想草葉君
2026-06-13 23:24:01
打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

打中了,打中了!伊朗導彈打出“神級精準度”!打得太準了。

小馬姨
2026-06-14 11:57:06
警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

警鐘長鳴!國務院安委辦通報典型案例 商洛高速橋梁垮塌等事故細節公布

極目新聞
2026-06-14 09:38:49
被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

被制裁的菲律賓防長特奧多羅家族中的許寰哥家族核心是生力集團

阿振觀點
2026-06-14 13:13:24
伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

伊布:梅西奪世界杯后其實已終結了梅羅之爭,但我還是覺得我更強

懂球帝
2026-06-14 01:23:30
2026-06-14 20:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142669關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

頭條要聞

村民砍掉"孤獨樹":砍樹前一天跟紅裙女子發生沖突

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

健康
親子
旅游
公開課
軍事航空

老人、小孩、孕婦,吃粽子有啥風險

親子要聞

去小院看爺爺奶奶,一見面就親的不行,還得是大孫子隔輩親啊!

旅游要聞

泮水雅集,夜醉明府城

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協議周日簽 還有終極手段

無障礙瀏覽 進入關懷版