網易首頁 > 網易號 > 正文申請入駐

獨家｜字節迎戰阿里快樂馬：開源多模統一模型，推理速度快18倍

2026-05-06 10:37:21　來源: 智能紀元AGI

遼寧舉報

分享至

阿里旗下HappyHorse（快樂馬）、HappyOyster兩款模型爆紅出圈，發布未滿一月，字節就悄然出手正面應戰。

5月6日消息，智能紀元AGI獨家獲悉，字節跳動日前低調公布全球首個25B級、基于混合專家 (MoE) -擴散自注意力機制(DiT) 的開源增強統一多模態模型Mamoda2.5。

Mamoda2.5依托Qwen3-VL-8B、128 個專家，Top-8 路由的MoE+DiT架構搭建，最終模型參數高達250億，而每次僅激活約30億參數（約12%）。

基于稀疏激活優勢，單設備下，Mamoda2.5模型推理速度比阿里Wan2.2 A14B快12倍以上，比美團LongCat Video快18倍。

視頻編輯層面，新的Mamoda2.5模型采用4步方案，將編輯延遲降至僅9.2秒，比VInO快95.9倍，比OmniVideo2快41.7倍。

同時，統一視覺生成與編輯層面，Mamoda2.5將多模態理解、生成和編輯結合在一起，形成統一多模態模型架構。

所以，該模型僅激活3B參數，就實現文生圖、文生視頻、文生圖像、視頻編輯全任務SOTA，模型性能接近閉源的Sora和快手Kling。

谷歌Omni全模態還沒登場，阿里快樂馬剛刷屏完圈，字節直接甩出Mamoda2.5開源王炸。

這波操作太明顯了：

不管是谷歌、阿里還是字節，最終路線全都指向同一個終點：

開源+統一全模態。

誰能想到，曾經各走各路的AI巨頭，如今竟在同一條賽道上徹底會師。

追成本和速度優勢，新模型實現95.9倍提速

事實上，統一的視覺模型正在經歷從“單任務專家”到具備理解與生成能力的集成系統的范式轉變。

然而，目前大多數統一的模型聚焦于圖像領域，主要將視覺理解與圖像生成和編輯相結合。

雖然這些模型在靜態視覺生成方面取得了顯著進展，但針對視頻生成和編輯的統一框架仍處于早期階段，主要受限于數據復雜性和計算瓶頸。

從專業視頻生成模型的角度看，HunyuanVideo和WanVideo表明，在DiT范式內擴展參數能顯著提升視頻質量和對現實世界物理規律的建模能力。

而工業級系統如Aquarius進一步驗證了在生產環境中部署大規模視頻生成的可行性。

領先的閉源模型如Sora被認為參數規?？蛇_數十億甚至更高。

然而，視頻任務本質上是計算密集型：視覺Tokens數量隨空間分辨率和時間長度同步增長，而DiT對這些tokens的全注意力計算帶來二次方成本。

因此，訓練和推理成本隨著模型規模和視頻長度的增加急劇上升，使得高質量、長時視頻生成在稠密架構下的實際部署變得極其昂貴。

為了解決規模擴展帶來的質量提升與時空建模爆炸式計算成本之間的矛盾，專家混合（MoE）提供了一種可擴展的解決方案。

實際上，大型語言模型已成功采用路由機制實現稀疏激活，在不成比例增加計算成本的情況下擴展能力。

DeepSeekMoE的細粒度專家分割進一步增強了專業化與可擴展性。MoE在圖像生成中也展現出巨大潛力。

例如，DiT?MoE成功將擴散Transformer擴展至數十億參數，而Race?DiT和DiffMoE優化了路由策略，進一步提升了生成質量和訓練效率。

在視頻領域，WanVideo 2.2探索了一種粗粒度的雙專家MoE，通過去噪時間步進行路由。

然而，細粒度MoE在視頻生成中尚未得到系統性研究。

與此同時，以現有生成模型為基礎進行高質量視覺編輯已成為一個關鍵的研究焦點。

在圖像編輯領域，獲取配對數據的相對簡易性推動了快速進展，近期的閉源和開源模型已取得了強勁成果。

相比之下，視頻編輯仍處于早期階段，這主要源于構建高質量配對訓練數據的復雜性，以及生成效率的挑戰，顯著增加內存占用和推理延遲。

基于這些觀察，團隊推出統一的自回歸?擴散（AR–Diffusion）框架模型Mamoda2.5，核心就是：顯著降低了訓練成本，同時擴展了模型容量。

該 AR-Diffusion 框架以 Qwen3-VL-8B 多模態理解模型為底座、MoE DiT 為生成骨干網絡，既引入高效細粒度 MoE 架構，又實現了視覺生成與編輯任務的統一。

盡管總參數量規模達25B，但模型每次前向傳播僅激活約3B參數。這種極致的稀疏性帶來了卓越的訓練和推理效率，直接應對了視頻生成模型中固有的高昂時間復雜性挑戰。

新的Mamoda2.5模型，30步編輯模型比VInO的推理速度快12.8倍；而精簡后的4步模型則將編輯延遲降至僅9.2秒，比VInO快95.9倍，比OmniVideo2快41.7倍。

下面是基準測試。

字節Mamoda團隊昨日公布的技術報告顯示，在VBench 2.0測試中，Mamoda2.5視頻生成方面達到61.64分，與騰訊HunyuanVideo 1.5和美團LongCat-Video水平相當，延遲僅為110秒，快于Wan2.2，稱是“頂級開源模型水平”。

而視頻編輯方面，Mamoda2.5模型達到了SOTA水平：在OpenVE-Bench測試中排名第一，超越快手可靈Kling O1；在FiVE-Bench測試中排名第一，達87.41分，并在Reco-Bench測試中整體表現最佳——所有這些測試的推理速度都比同類編輯基線快約10倍。

值得一提的是，此次Mamoda2.5引入了一個聯合的少步蒸餾和強化學習框架，將30步編輯模型壓縮為4步模型，極大地加速了模型推理。

因此，視頻編輯速度層面，Mamoda2.5模型相比上交&快手&南洋理工VinO模型最高提升95.9倍，同時保持頂尖多模態理解能力。

真實世界被顛覆了

下面欣賞幾個案例：

把人變成樹人。

將馬換成冰馬。

將手變成機械手

編輯天氣環境，從夏天到冬雪天。

編輯性別，從男生視頻生成為穿同樣衣服的女生。

當然還支持文字轉視頻能力。

Mamoda 團隊表示，該模型具備一流的文生視頻生成效果，推理速度比同規格稠密模型快 12 倍以上。

更多案例推薦你們到官方GitHub上看。

團隊透露，在實際應用中，Mamoda2.5已成功部署于廣告場景的內容審核和創意修復任務中，在內部廣告視頻編輯場景中取得了98%的成功率。

總結

今年4月，阿里ATH創新事業部團隊連續發布了兩個爆火的多模態開源模型：HappyHorse（快樂馬）和可實時構建和交互的世界模型產品 HappyOyster（快樂生蠔）。

這直接對標字節剛發布不到3個月的Seedance 2.0。

但這輪競爭遠遠未結束，Mamoda2.5就是最好的證明之一。

目前字節并未公布Mamoda2.5更詳細的情況。

但早在2025年10月1日，該團隊就利用Qwen3VL-8B發布了MammothModa2-Dev版本。

去年底，開源的MammothModa2發布，采用MoE DiT架構，支持視頻生成，今年2月發布了視頻生成和視頻編輯推理代碼。

如今，Mamoda2.5更是一個新的開源模型——不過依然基于Qwen3VL進行訓練，模型能力遠超快手可靈等多個閉源模型。

然而，盡管Mamoda2.5在生成和編輯任務上表現出強大性能，但仍存在一些值得未來探索的可行方向：

1. 全模態音頻?視頻生成與編輯。

Mamoda2.5 目前支持統一的圖像和視頻生成與編輯。一個自然的下一步是將音頻處理整合到框架中，實現在單一模型中同步進行音頻?視頻生成和編輯。這將使模型能夠生成具有連貫配樂、對話和音效的視頻，極大地擴展其在現實世界內容創作場景中的應用范圍。

2. 更深度的理解與生成統一。

最近的系統如GPT?Image?2和Vision Banana已表明，深度整合理解與生成能夠解鎖涌現能力——將生成作為多樣化視覺任務的通用接口，并利用推理來提高生成質量，因此，Mamoda2.5的統一架構內進一步探索理解與生成之間的協同作用，使這兩種能力能夠相互強化。

從谷歌Omni的全模態野心，到阿里快樂馬的落地突襲，再到字節 Mamoda2.5 的開源重拳。

現在已經看得很明白：

AI 的終局，就是統一全模態，而且必須開源。

巨頭們嘴上各說各的，身體卻無比誠實。

未來世界的AI模型，統一、開源、全能，才是唯一答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

智能紀元AGI

專注科技、科學、商業產業報道

2315文章數 10609關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

教育

旅游

藝術

軍事航空

手機 / 數碼

房產 / 家居

獨家｜字節迎戰阿里快樂馬：開源多模統一模型，推理速度快18倍

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

外媒詢問中方對魯比奧的制裁是否已經解除 外交部回應

爭議抽象天王山，和季后賽最穩定中鋒

何九華官宣當爸！全程不提孩子媽

李強會見美國工商界代表

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

專家揭秘干細胞回輸的安全風險

5月16日開考! 2026上海中考理化實驗操作考試及外語聽說測試，考前重要提醒來啦！

半價or免票？5月17日-19日，崇明這些景點參與優惠活動

美國務卿魯比奧點贊中式美學，實景令人驚嘆！

美以伊戰爭期間以總理密訪阿聯酋

馬斯克說會談很順利黃仁勛點贊庫克比耶

外媒詢問中方對魯比奧的制裁是否已經解除外交部回應

外媒詢問中方對魯比奧的制裁是否已經解除外交部回應

何九華官宣當爸！全程不提孩子媽

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布

5月16日開考! 2026上海中考理化實驗操作考試及外語聽說測試，考前重要提醒來啦！

半價or免票？5月17日-19日，崇明這些景點參與優惠活動

美國務卿魯比奧點贊中式美學，實景令人驚嘆！