網易首頁 > 網易號 > 正文 申請入駐

新技術:無需編解碼器,NEO-unify如何打造原生視覺語言理解與生成

0
分享至

當前多模態智能架構困境

長期以來,多模態研究已形成一種默認范式:視覺編碼器(Vision Encoder, VE) 負責感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內容生成。近期的一些工作嘗試構建共享編碼器,但這種折衷往往引入新的結構性設計權衡。

由此回到第一性原理:構建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯合南洋理工大學,提出一種全新的架構范式:NEO-unify(preview),一個原生、統一、端到端的多模態模型架構。它不僅越過了當前視覺表征的爭論,也擺脫了預訓練先驗和規模定律瓶頸的限制。最關鍵的是:不需要 VE,也不需要 VAE

我們正擴大規模、持續迭代。更多模型與開源成果,將很快與大家見面。

NEO-unify原生一體化架構新范式


NEO-unify 第一次邁向真正的端到端統一框架,能夠直接從近乎無損的信息輸入中學習,并由模型自身塑造內部表征空間。首先,引入近似無損的視覺接口,用于統一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構,使理解與生成能夠在同一體系中協同進行;最終,通過統一學習框架實現跨模態訓練:文本采用自回歸交叉熵目標,視覺通過像素流匹配進行優化。

模型效果

1. 定量結果分析



2. 生圖效果展示



技術發現

1. 無編碼器設計能夠同時保留抽象語義與細粒度表征

[圖像重建任務]

我們先前的工作 NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠學習到豐富的語義表征。在此基礎上,我們進一步觀察到一個有趣的現象:即使在凍結理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復細粒度的視覺細節

基于這一發現,我們訓練了 NEO-unify(2B)。在初步 9 萬步預訓練后,模型在 MS COCO 2017 上取得 31.56 PSNR0.85 SSIM,而 Flux VAE 的對應指標為 32.650.91。這一結果表明,即使不依賴預訓練 VEVAE近似無損的原生輸入仍能夠同時支持高質量的語義理解與像素級細節保真。

域外圖像重建(2B NEO-unify,理解分支凍結)


[圖像編輯任務]

據此,我們進一步開展探索:NEO-unify 將所有全模態條件信息統一輸入到理解分支,而生成分支僅負責生成新的圖像。

即使在凍結理解分支的情況下,NEO-unify(2B) 仍展現出強大的圖像編輯能力,同時顯著減少了輸入圖像令牌的數量。在使用開源生成與圖像編輯數據集并進行初步 6 萬步混合訓練后,模型在 ImgEdit 基準上取得 3.32 的成績,且理解分支在整個訓練過程中保持凍結

小規模數據驗證(2B NEO-unify,理解分支凍結)


ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結)


2. 無編碼器架構與 MoT 主干高度協同大幅降低內在沖突

借助預訓練的理解分支與生成分支,NEO-unify 使用相同的中期訓練(MT)與 監督微調(SFT) 數據進行聯合訓練。即使在較低的數據比例和損失權重下,理解能力依然保持穩定,而生成能力則收斂很快。二者在 MoT 主干中協同提升,整體沖突極小。


3. 無編碼器架構,展現更高數據訓練效率

此外,我們首先進行 web-scale 預訓練,隨后在多樣且高質量的數據語料上依次進行中期訓練(MT) 和 監督微調(SFT)。與 Bagel 模型相比,NEO-unify 展現出更高的數據訓練效率,在使用更少訓練 token 的情況下取得了更優的性能。


未來展望

這不僅僅是一種模型架構探索,更是邁向下一代智能形態的一步:

? 感知與生成交織的閉環

? 全模態推理

? 視覺推理

? 空間智能

? 世界模型

? …

一條新的路線圖正在展開:模型不再在模態之間進行轉換,而是能夠原生地跨模態思考。多模態 AI 不再只是連接不同系統,而是構建一個從未割裂的統一智能體,并讓所需能力從其內部自然涌現。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
橫店群演現狀!已被AI逼到無戲可拍,近年群演上崗機會銳減70%

橫店群演現狀!已被AI逼到無戲可拍,近年群演上崗機會銳減70%

小徐講八卦
2026-04-21 09:03:46
張天愛太大膽了穿這么敢去沙灘玩

張天愛太大膽了穿這么敢去沙灘玩

阿廢冷眼觀察所
2026-04-14 12:42:56
華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

一盅情懷
2026-04-18 08:08:54
文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

娛小余
2026-04-19 23:21:33
明天起 廣州兩大片區實施臨時交通管制

明天起 廣州兩大片區實施臨時交通管制

廣州交通電臺
2026-04-23 17:35:33
毛主席因失眠向衛士發火,李銀橋去找江青幫忙,江青:我去勸主席

毛主席因失眠向衛士發火,李銀橋去找江青幫忙,江青:我去勸主席

微野談寫作
2026-04-23 08:50:09
風流成性被稱極品,57歲仍單身,她的傳奇人生

風流成性被稱極品,57歲仍單身,她的傳奇人生

暖心萌阿菇涼
2026-04-22 17:20:37
52歲男子總懷疑妻子出軌,動輒打罵家人,確診神經梅毒晚期,與其20年前高危性行為史有關

52歲男子總懷疑妻子出軌,動輒打罵家人,確診神經梅毒晚期,與其20年前高危性行為史有關

觀威海
2026-04-23 13:56:14
何潤東被考古,曾參加《非誠勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

何潤東被考古,曾參加《非誠勿擾》被嫌嘴唇厚,介紹完滅了7盞燈

非常先生看娛樂
2026-04-04 16:57:06
翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

翻車了!山東泰山鐵了心要換馬德魯加,球迷:早該動手了!

生活新鮮市
2026-04-23 18:16:46
不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

不可思議!現在的大學校園里有個很明顯的現象:男女生根本不談戀愛

市井大實話
2026-04-23 09:24:57
不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

不裝了?馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

大衛聊科技
2026-04-23 12:13:36
老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

老球王戴維斯:純競技水平亨得利無緣歷史前三,甚至打不過塞爾比

楊華評論
2026-04-22 21:05:33
服軟了?特朗普通告全球:不能再冒犯中國了,一定要保持和平相處

服軟了?特朗普通告全球:不能再冒犯中國了,一定要保持和平相處

墨印齋
2026-04-23 17:45:38
打完伊朗,再閃擊土耳其?美智庫發出戰爭警告,盧卡申科判斷沒錯

打完伊朗,再閃擊土耳其?美智庫發出戰爭警告,盧卡申科判斷沒錯

影孖看世界
2026-04-22 23:24:13
今夜,全線大漲!霍爾木茲,突發!

今夜,全線大漲!霍爾木茲,突發!

中國基金報
2026-04-23 00:26:06
申花剛擊敗海牛隊!斯盧茨基賽后就發聲做出重要決定,事關特謝拉

申花剛擊敗海牛隊!斯盧茨基賽后就發聲做出重要決定,事關特謝拉

張麗說足球
2026-04-23 11:12:18
5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

5月1日執行!酒駕處罰全面升級,再敢喝酒開車,代價太大了

大魚簡科
2026-04-23 14:35:54
兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

兒子早戀被叫家長!必須形象管理,畢竟第一次見親家,評論區炸鍋

夜深愛雜談
2026-04-21 20:06:20
全球第一個國家宣布:儲備6月耗盡

全球第一個國家宣布:儲備6月耗盡

中國新聞周刊
2026-04-23 07:27:04
2026-04-23 19:32:49
開源中國 incentive-icons
開源中國
每天為開發者推送最新技術資訊
7705文章數 34536關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

頭條要聞

五角大樓"斬"海軍部長 知情人士:他沒認清誰是老大

體育要聞

萊斯特城降入英甲,一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車 風云A9可不只是樣子貨

態度原創

數碼
藝術
手機
本地
軍事航空

數碼要聞

消息稱三星電子、金士頓雙雙向渠道通知固態硬盤漲價至少10%

藝術要聞

這是漢朝國師寫的草書,王羲之筆法正源于此

手機要聞

三星研發新型顯示系統,可實現手機平板2D/3D畫面自由切換

本地新聞

SAGA GIRLS 2026女團選秀

軍事要聞

人民海軍成立77周年 主力艦艇亮相上海

無障礙瀏覽 進入關懷版