網易首頁 > 網易號 > 正文申請入駐

華盛頓大學與谷歌聯合研究：讓AI真正"讀懂"你的尺碼

2026-04-17 23:41:17　來源: 科技行者

天津舉報

分享至

這項由美國華盛頓大學與谷歌研究院聯合完成的研究，以論文編號arXiv:2604.08526v1的形式，于2026年4月公開發表。研究聚焦于一個我們在網購時幾乎每次都會遭遇的煩惱——明明模特穿起來很好看，買回來卻不是太寬松就是太緊繃。這項研究嘗試從根本上解決這個問題，讓AI系統在生成"虛擬試衣"圖片時，真正懂得"這件L碼的襯衫套在XS碼的身材上到底會是什么樣"。

一、為什么我們需要一個能"認尺碼"的AI

網購已經成為很多人生活的日常，但服裝退換貨率居高不下，其中最主要的原因就是尺碼不合適。現有的"虛擬試衣"技術，說白了就是把衣服的外觀貼到人的身上，就像把一張貼紙換了個顏色，再往同一個輪廓上一貼，管你是XS還是3XL，模特的輪廓不變，衣服的外觀也不變，結果就是每個人看起來都好像穿了一件量身定制的衣服。這顯然是不真實的。

現實中，一件XS碼的緊身T恤套在一個身材高大的人身上，袖子會短一截，胸口會繃緊，腰線會上移；而一件3XL的寬松外套穿在一個嬌小身材上，肩線會垂下來，袖子會蓋過手掌，整件衣服更像是在"穿"人而不是人在"穿"衣服。這些細節，現有的AI系統幾乎完全忽視了。

研究團隊給出了一個直白的診斷：問題的根源在于沒有合適的訓練數據。所有現有的虛擬試衣數據集，都是從電商網站爬取的商品圖，而商品圖天然呈現的是"合身"狀態——沒有哪個品牌會專門拍"穿錯碼數"的效果圖。這就好比你想培訓一個廚師學會處理"烤焦了"或"沒烤熟"的情況，但你能找到的教學材料里全部都是"完美出爐"的蛋糕，廚師自然就學不會如何判斷和處理異常情況。

正因如此，研究團隊決定自己"造"數據。他們創建了一個名為FIT（Fit-Inclusive Try-on，意為"包容各種合身度的試衣"）的大規模數據集，其中包含超過113萬組圖片樣本，每一組都附帶精確的人體測量數據和服裝測量數據，涵蓋了從極度寬松到極度緊繃的各種穿著情況。

二、數據從哪來：用物理仿真"模擬"現實世界的穿衣體驗

既然現實世界里找不到足夠的"穿錯碼"照片，研究團隊選擇在電腦里"模擬"出來。他們使用了一個名為GarmentCode的參數化編程框架，這個框架可以像寫代碼一樣，精確地描述一件衣服的縫紉圖樣——領子有多大、袖子有多長、腰圍是多少厘米，全部精確到厘米級別。

具體操作就像是用數字積木搭建衣服。研究團隊先根據某個特定體型（比如M碼身材）設計出一套裁剪圖樣，然后不是把這套圖樣縫在M碼的人體模型上，而是故意把它"套"到一個完全不同尺寸的人體模型上——比如XS碼或者2XL碼的身材。這個過程通過物理仿真引擎來實現，系統會計算布料在受到拉伸或堆積時的真實物理變化，包括褶皺出現的位置、布料下垂的方式、緊繃時的紋路走向。

這種做法有一個技術上的挑戰：當一套為M碼身材設計的裁剪圖樣要被套到XS碼或3XL碼的身體上時，軟件里的"初始框架"（用來確定衣服各部分從哪里開始展開的參照系）和新的人體模型位置會對不上，導致仿真失敗，就好像你要把一件為成年人設計的外套用來包裹一個小孩，外套的肩部框架和小孩的肩膀根本不在同一個位置。為此，研究團隊專門開發了一套"框架重新對齊"的方法，在仿真開始前先把參照框架調整到與目標人體對應的位置，確保仿真能夠成功運行。

除此之外，GarmentCode默認會把上衣和下裝縫合成一體，這樣就無法模擬"襯衫沒有塞進褲子"的日常穿著狀態。研究團隊修改了這個默認行為，讓系統先單獨模擬下裝的下垂和形變，再在此基礎上疊加上衣，從而實現上下裝之間自然的層疊關系。

仿真完成后，研究團隊還會把這些固定在A字站姿（雙臂微張的標準測量姿勢）下的3D模型重新姿勢化，從528種不同的日常姿勢中隨機選取一種，讓最終生成的圖片更接近真實的穿著場景。整個數據集涵蓋了168種不同的體型（其中82種男性體型，86種女性體型），尺碼范圍從XS一直延伸到3XL，并記錄了超過15萬種不同的上裝和外套設計。

三、從"塑料感"到"真實感"：把虛擬模型變成照片般的畫面

物理仿真出來的3D渲染圖，看起來難免有一種"游戲里的NPC"質感——人物沒有頭發，腳上光禿禿的，衣服質地單一沒有細節。如果直接用這些圖片來訓練AI，訓練出來的系統也只會生成同樣"游戲感"十足的圖片，放到真實的電商場景里根本沒有實用價值。

研究團隊為此專門設計了一套"重新上色"流程，目標是在完全不改變衣服形狀和人體輪廓的前提下，給圖片換上真實的質感和外觀。這個過程的關鍵工具是"法線貼圖"——這是一種特殊的圖像，它不記錄顏色，而是記錄物體表面每一個點朝向哪個方向，本質上是把物體的立體形狀信息編碼成一張圖。研究團隊發現，真實照片和3D渲染圖在法線貼圖上的差異，遠小于它們在顏色和質感上的差異，因此可以用法線貼圖作為"橋梁"，讓AI學會"給定這個形狀，生成這種質感"。

基于這個思路，研究團隊基于Flux.1-dev（一個由Black Forest Labs開發的強大圖像生成模型，參數量達到120億個，相當于一個超大型的圖像創作引擎）訓練了一個重新上色模型，輸入是法線貼圖加上文字描述，輸出是具有真實質感的人物圖片，同時保持衣服的形狀和人體的輪廓完全不變。

為了縮小虛擬和真實之間的差距，研究團隊還補充了幾個細節處理步驟。首先，他們用另一個AI工具給3D人物模型補上了真實的面部特征、發型和鞋子，然后把這些部位的法線信息也整合到原始的合成法線貼圖中，確保最終輸出的人物有完整的外貌。其次，為了增加布料多樣性，研究團隊準備了72種不同的布料類型（包括皮革、棉布、絲綢等），在生成文字描述時隨機選擇一種注入進去，讓AI學會根據文字描述生成對應的布料質感。

四、解決"同一個人換了件衣服"的配對問題

訓練虛擬試衣AI，理想的數據格式是這樣的：同一個人，同一個姿勢，穿著不同的衣服，同時配上這件衣服單獨平鋪的圖片。這樣AI就能學習"如何把這件平鋪的衣服穿到這個人身上"。然而在現實世界里，幾乎不可能找到這樣的配對數據——攝影棚不會特地給同一個模特拍兩套衣服的完整全身照，而且要保證姿勢完全相同更是幾乎不可能。

現有的解決方案，通常是用AI"假造"一張配對圖——先有一張人物圖，讓另一個AI系統把衣服換掉，把這張"假造"的圖當作訓練數據。但這種做法的問題在于，假造的圖本身就可能有錯誤，用錯誤的數據訓練出來的模型，會把這些錯誤"遺傳"下去。

FIT數據集的合成流程天然解決了這個問題。因為所有數據都來自3D仿真，研究團隊可以完全控制所有變量——固定同一個3D人體模型和同一個姿勢，只是換上不同的衣服，就能得到真正配對的圖片對。這就好比你有一個可以隨時換裝的實體模特，不需要"假造"，真實的配對數據信手拈來。

研究團隊在此基礎上進一步設計了一套身份保持生成流程。他們先生成主要的試衣圖片，然后通過以下方式生成配對圖片：把主圖中所有衣服覆蓋的區域（包括要換掉的衣服和目標衣服各自覆蓋的區域）都遮掉，只保留頭部、背景、手臂等非服裝區域，形成一張"身份底圖"；再結合目標衣服的法線貼圖和文字描述，讓重新上色模型在保持身份底圖所有細節的前提下，只在被遮掉的區域里生成穿著新衣服的效果。這樣生成的配對圖片，不僅人物身份高度一致，就連背景細節和肢體姿勢都幾乎完全相同。

至于每件衣服平鋪的"商品圖"，研究團隊選擇用另一個AI工具直接從試衣圖片中"脫下"衣服，生成對應的平鋪商品圖，省去了單獨拍攝的需要。

五、把測量數據"喂"給AI：全新的測量值編碼器

有了高質量的訓練數據，下一步是設計一個真正能理解尺碼信息的AI模型。研究團隊將這個模型命名為Fit-VTO，它的輸入包括三個部分：一張平鋪的商品圖、一張穿著其他衣服的人物參考圖，以及一組測量數值。測量數值包含七個維度，其中人體側有四個：身高、胸圍、腰圍、臀圍；服裝側有三個：衣長、胸寬、袖長。

怎樣讓AI理解這些數字？這是一個非常實際的工程問題。研究團隊發現，直接把數字轉換成文字再用現有的文字編碼器來處理，效果不好——文字編碼器是為了理解語言而設計的，它對"96厘米"和"97厘米"之間的差異幾乎無法感知，就好比一個受過文學訓練的翻譯家，你讓他分辨兩段音樂之間微小的音調差異，他也會兩眼一抹黑。

研究團隊為此設計了一個專門的"測量值編碼器"，核心思路是"傅里葉特征嵌入"——這是一種在信號處理領域常用的技術，可以把單個數值擴展成一組有規律變化的波形信號，讓神經網絡更容易捕捉到數值之間細微的差異。每個測量維度被擴展成16個相關聯的數值，七個維度合計輸出一個112維的向量，再經過一個多層神經網絡映射到3072維的空間，與圖像信息一起輸入到擴散模型的每一層注意力機制中。

在模型架構上，Fit-VTO基于Flux.1-dev的多模態擴散變換器骨架，人物參考圖的編碼與目標圖片在通道維度上拼接（因為兩者在空間上是像素對應的），而服裝圖的編碼則與其他信息在序列維度上拼接（因為服裝圖在空間上并不直接對應目標圖片，需要先經過模型自行"對齊"）。整個模型只需要訓練少量的LoRA參數（一種讓大型預訓練模型高效適應新任務的輕量微調方法），絕大部分參數保持凍結，節省了大量計算資源。

六、實驗結果：數字和圖片都說話

為了檢驗Fit-VTO的表現，研究團隊在兩個數據集上進行了測評：一個是經典的VITON-HD數據集（一個廣泛使用的虛擬試衣基準測試集，里面都是真實電商圖片），另一個是他們自己構建的FIT測試集（包含1000個合成樣本，覆蓋各種尺碼組合）。

在配對圖片生成質量方面，研究團隊對比了四種方案：直接讓大型視覺語言模型（VLM）來換裝、用現有的虛擬試衣模型來換裝、用圖像修復模型來換裝，以及他們自己的方法。量化指標用的是"遮掩區域L1距離"，也就是在非服裝區域（背景、頭部、肢體），生成圖片和原始圖片之間的像素級差異。他們的方法得分為1.61，而語言模型方法得分4.45，虛擬試衣模型方法得分2.29，修復模型方法得分3.91。簡單說，數值越小代表配對圖片的人物身份保持得越好，他們的方法以明顯優勢領先所有競品。

在試衣質量方面，Fit-VTO在FIT測試集上的幾乎所有指標上都表現最佳，包括SSIM（衡量圖像結構相似度）、FID（衡量生成圖像與真實圖像的整體分布差距）、LPIPS（衡量人眼感知上的差異）和KID（類似FID的另一種分布差異指標）。特別是在專門衡量尺碼準確性的IoU指標上（通過比較生成圖片和真實圖片中服裝區域的重疊程度來判斷服裝大小是否被正確還原），Fit-VTO的得分為0.955，遠高于次優方法的0.932，也遠高于其他所有對比方法。在VITON-HD這個真實數據集上，Fit-VTO也表現出色，在沒有額外在VITON-HD數據上微調的情況下，綜合表現就已與專門在VITON-HD上訓練的IDM-VTON相當，而針對該數據集專門微調后，Fit-VTO在絕大多數指標上進一步超過IDM-VTON。

研究團隊還通過消融實驗逐一驗證了各個組件的貢獻。只用真實網絡圖片訓練（不用FIT數據）的版本在VITON-HD上表現尚可，但在FIT測試集的IoU指標上大幅落后，說明真實數據里的尺碼信息不足以讓模型學會尺碼感知。只用FIT數據訓練（不加真實圖片）的版本在FIT測試集上表現很好，但在VITON-HD上出現了明顯的泛化下降，說明單靠合成數據也不夠，兩者結合才能達到最佳效果。用文字編碼器代替專門的測量編碼器的版本，在IoU上的表現也明顯弱于使用專門測量編碼器的完整版本，驗證了設計專用編碼器的必要性。

七、局限與未來方向

研究團隊坦率地指出了當前工作的幾個邊界。第一，物理仿真對"緊繃程度"的區分能力有限。當一件衣服的尺碼比穿著者的身材小時，仿真結果就是布料緊貼皮膚——無論是稍微偏小還是嚴重偏小，視覺上的差異都不大，因為布料本身不會拉伸超過身體的輪廓。這導致模型很難區分"稍緊"和"極緊"這兩種體驗上差異顯著但視覺上幾乎一樣的狀態。第二，測量值之間的相關性會限制獨立調節單個維度的能力。在現實的服裝設計中，衣長、寬度和袖長往往是按照比例同時變化的，這種相關性也被學進了模型里，因此當你單獨調高衣長時，模型可能也會順帶稍微加寬一點衣服的寬度。

在研究范圍上，當前的FIT數據集只覆蓋了上裝，且姿勢主要是日常休閑站姿，沒有涉及復雜的動作或多角度拍攝。研究團隊明確表示，下一步計劃擴展到下裝和全身服裝，并增加姿勢和拍攝角度的多樣性。

歸根結底，這項研究做的事情，是給虛擬試衣這件事補上了一塊長期缺失的拼圖——"合身度"。之前的AI系統只能回答"這件衣服長什么樣"，現在的Fit-VTO開始嘗試回答"這件衣服穿在我身上會是什么樣"，而這恰恰才是購衣者真正想知道的答案。

這對普通消費者來說，意味著未來在網購時，虛擬試衣展示的效果將不再是模特穿上的效果，而是你自己的身材穿上之后的效果——包括寬松還是合身，袖子是否夠長，腰部是否會顯出多余的布料。當然，這項技術距離真正落地到每個人的購物車旁邊，還有一段路要走，但方向已經清晰了。

研究團隊構建的這套從物理仿真到真實感渲染、再到尺碼感知生成的完整流程，也為其他類似的"合成數據彌補真實數據不足"的研究場景提供了一個可以借鑒的框架。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2604.08526查詢完整原文。

Q&A

Q1：FIT數據集是真實拍攝的圖片還是AI生成的？

A：FIT數據集中的圖片是通過合成流程生成的，并非真實拍攝。研究團隊先用物理仿真引擎模擬不同尺碼的服裝穿在不同體型人體上的效果，生成3D渲染圖，再通過一套基于擴散模型的重新上色流程，將這些3D渲染圖轉換成具有真實質感的圖片。最終圖片的服裝形狀和人體輪廓來自物理仿真，外觀質感來自AI重新生成，兩者結合，既保證了尺碼信息的精確性，又達到了接近真實照片的視覺效果。

Q2：Fit-VTO需要輸入哪些信息才能生成試衣圖？

A：Fit-VTO需要三類輸入：第一是目標服裝的平鋪商品圖，就是那種常見的衣服單獨擺放在白色背景上的圖片；第二是穿著者的參考圖，即這個人穿著其他衣服時的全身照；第三是一組測量數值，包括穿著者的身高、胸圍、腰圍、臀圍，以及目標服裝的衣長、胸寬和袖長，共七個數據。模型根據這三類輸入合成穿著者穿上目標服裝、按照真實尺碼呈現合身度的圖片。

Q3：FIT數據集和現有虛擬試衣數據集相比有什么本質區別？

A：現有虛擬試衣數據集，如ViTON-HD、DressCode等，基本都是從電商網站爬取的商品圖和模特圖，這類數據天然只展示"合身"狀態，沒有"穿錯碼"的情況。FIT數據集的根本區別在于：它專門包含了各種尺碼錯配的場景，從極度寬松到極度緊繃都有覆蓋，并且每個樣本都附有精確到厘米的人體和服裝測量數據。此外，FIT提供的是真正配對的三元組數據，即同一個人穿不同衣服的圖片對，這是現有真實數據集幾乎無法提供的。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.