網易首頁 > 網易號 > 正文申請入駐

擼貓擼出SOTA！3個00后2個月，造出史上最快流式音視頻社交模型

2026-06-20 18:42:23　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺量子位 | 公眾號 QbitAI

一覺醒來，AI的新潮流變成了養貓

火速圍觀一下，剛剛全球流式音視頻模型賽道闖進了一匹黑馬，能力SOTA級，模型名字就叫緬因貓（MaineCoon）

養過緬因貓的朋友都知道，這個品種有個外號叫「貓狗」，意思是幾乎你走到哪兒，它就跟到哪兒，相當粘人，互動感MAX。

而模型MaineCoon和它幾乎是如出一轍，不會一股腦生成完就跑，而是一直陪著你、follow你的狀態，實時地往下走。

比如這樣：

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

給它一段文字，它直接邊生成邊播放，還能做到音畫同出，效果就像是在和真人主播1V1視頻對話，而且永遠不會卡頓。

時長可達30分鐘以上，這也是業界首次實現這個長度。

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

此外，MaineCoon的推理速度也很突出——

22B參數的大小，卻能在單張H100上跑出47.5 FPS，同賽道速度位居業界第一；即使是在只有H100一半成本的推理卡RTX Pro 6000上，也能穩定保持30 FPS以上的實時運行速度。

具體什么概念呢？

假設我手里有一張GPU，用MaineCoon生成一條10秒的短視頻，?幀將在3s以內出現，隨后開始流式輸出，新增prompt與實時輸出無縫銜接，全程過渡絲滑自然。

成本直接被打下來，每秒成本控制在0.001美元以內。

如果在GPU占滿的狀態下，每秒推理更是僅需0.00025美元，是Veo 3的1/2000、Seedance的1/560。

而這些，來自一家base中國的10人初創團隊，名叫Catnip（貓薄荷）

幾天前，他們剛剛在上發布了技術報告，就迅速收獲多方關注，其中LTX官?也注意到了這家新面孔，并主動尋求合作。

話不多說，來看具體效果。

效果show time

其實MaineCoon和一般的音視頻生成模型還不太一樣，它首次將場景垂直落地在社交交互中。

何為社交？就是活人感

且看各家現有的生成模型卷到飛起，Benchmark表現一個賽一個亮眼，但依舊有硬傷：

要么速度太慢，要等完整生成后才能看到效果，根本沒法實時，對創作者并不友好；要么做得了視頻，卻顧不上音頻，音畫永遠分開走。

這類通用音視頻模型更擅長模擬物理規律和場景敘事，天空中的云怎么飄、水面的光怎么反射，它們拿捏得很準，但一到人物表現上就屢屢翻車。

于是判斷AI視頻與否，大家總結出一條心照不宣的經驗——看臉

要做社交距離也不露怯的視頻，關鍵在于人物細節是不是夠自然，比如眼神的變化、嘴角的抽搐、說話的節奏等等，還要音畫高度同步、生成過程中隨時可切換指令。

難度系數拉滿了，但這些細節才是決定活人感的關鍵。

所以MaineCoon瞄準的，正是這個被整個行業忽視掉的缺口。

具體來說，它做到了三件此前沒有模型能同時做到的事。

音視頻流式生成

先科普一下，什么是流式生成

這并非新鮮概念，最早ChatGPT一個字一個字往外蹦，就是流式輸出。簡單來說，就是讓模型能夠邊看邊生，推理到哪兒，就生成到哪兒。

但視頻的一幀涉及到成千上萬個像素，還要和音頻在時間軸上精準對齊，和單純文字流式生成的難度完全不在同一個量級上。

而且生成片段越小，就意味著每一幀能依賴的歷史上下文越短，模型就更容易露餡。

MaineCoon則把這個單元極致壓縮到了亞秒級，指令輸出后1秒內就出首幀，低延遲和高質量兩手抓。不止快了一點，更是生成方式的徹底改變。

比如下面模擬人物對話，初始Prompt要求人物語氣平靜且深思熟慮，結果無論是角色的面部肌肉走向，還是語氣停頓，都精準遵循指令。

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

中間實時輸入新的指令，模型也能及時調整：

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

讓角色做大幅度表情，也同樣表現優秀：

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

也可以隨時提出問題讓角色解答：

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

不得不說，相比過去AI一句指令就出一堆回復的生硬別扭，MaineCoon的最大差異在于給予用戶真人聊天的即視感，會接用戶的話，也會給用戶情緒。

這大概就是養貓人常說的——你以為你在擼貓，其實貓也在擼你。

業界最快的推理速度

速度更不必多說，親測體驗下來，同類流式音視頻模型的速度普遍在6-7 FPS，MaineCoon快了整整7倍

即使是持續生成一整天，成本也都能維持在一個合理范疇內。模型雖然有22B，但單卡就能部署（最高47.5 FPS）

相比1.3B的輕量流式視頻模型（19.1FPS）也要快2倍以上，輕松滿足實時播放需求。

更關鍵的是，這樣的速度不僅沒有犧牲質量，反而情感表達更豐富，動作也更連貫穩定

比如我們把場景搬到室外，日落時分的光影結合角色隨風飄揚的發絲，說是真人博主在隨意記錄自己的City Walk也不為過。

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

無限時長生成

根據官方介紹，MaineCoon還能做到連續生成10分鐘以上的音視頻內容，期間保持畫質、一致性、音畫同步都不崩。

毫不夸張地說，MaineCoon的架構甚至完全可以無限生成。

這里以一個長達2分鐘的MaineCoon視頻為例，直到最后，人物都沒有出現明顯bug。

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

即使是動畫風格的Minecraft小人，長時序也能穩穩接住。

【此處無法插入視頻，遺憾……可到量子位公眾號查看～】

Catnip還同步自建了首個社交短視頻專用基準測試SocialVideo Bench，以直觀展示MaineCoon的表現。

SocialVideo Bench涵蓋密集演講、雙人互動、音樂演唱、情緒表演、舞蹈、創意挑戰、社交梗七大場景，九項指標全面考核視覺質量、運動質量、音質、音畫對齊。

其中，MaineCoon均超越主流的7款音視頻生成模型，綜合得分0.934，遠超最優基線SoulX-FlashTalk（0.895），刷新SOTA

問題是——MaineCoon是如何做到的？

三層訓練，三層推理

先說訓練側

MaineCoon的訓練框架主要分三個階段，層層遞進：

Step 1：自重采樣（Self-Resampling）

這一步解決的是推訓之間的鴻溝問題。傳統訓練中會用干凈的歷史幀做上下文，但真實推理時模型只能用自己生成的幀，二者之間存在偏差，而且時間一久，越生成越跑偏。

自重采樣能夠讓模型在訓練時就接觸到降質版的歷史幀，從一開始就學會在帶有輕微漂移、噪聲的不完美條件下保持穩定。

Step 2：流式表征對齊（Representation Alignment）

音畫聯合訓練實際上是很慢的，為了加快收斂速度，MaineCoon會引入凍結預訓練V-JEPA 2視覺編碼器做蒸餾監督。

于是模型能夠更快學到跨模態的語義結構，大幅提升訓練效率，也可以簡單將其理解為一個訓練加速器和穩定器。

Step 3：域感知偏好優化（DPO）+強化在線策略蒸餾（ROPD）

這是模型的后訓練核心，針對不同社交場景，比如舞蹈看重動態、對話看重唇同步、遠景看重人體結構，分別訓練專門的偏好專家模型，再通過強化蒸餾統一成一個可部署的流式策略。

這樣既精準，又輕量。

然后在此基礎之上，要讓模型在有限的算力資源上真正跑起來，團隊還精心設計了一套基礎設施工程

畢竟22B模型的參數量太大，不處理，一張卡根本裝不下。

具體來說，64張H100分攤參數，長序列切開并行處理，精度和優化器狀態則能壓則壓。

最關鍵的一步是把視頻編碼、文本嵌入、教師特征全部提前算好存進磁盤，訓練時直接讀取，而GPU只做最核心的那一步，不做任何多余的搬磚工作。

結果就是，22B的模型，在10k GPU小時內就訓練完成，數據一共不到100萬條

推理側同樣有一套創新的Agentic推理框架，該框架由三個獨立的智能控制器構成，分別是DirectorCache ManagerBuffer Controller

首先是Director，這也是整個系統的認知核心，專門負責敘事與糾錯。

Director先通過規劃器逐節拍生成結構化提示詞（畫面描述+臺詞+環境音），以維持人物人設、避免敘事重復。

然后觀測器持續監測生成內容是否出現質量漂移，一旦發現問題就啟動前向修復，不中斷、不重置，直接在下一幀開始糾偏。

這樣做是為了緩解流式長視頻最容易出現的問題之一：畸變

生成時間越長，誤差累積就越嚴重，因為模型在生成當前chunk時，參考的是前一個chunk，但殊不知前一個chunk已經相對第1個chunk偏移了。之后每一步的微小偏差疊加起來，人物就會嚴重畸變。

所以MaineCoon從推理的第一步起，就試圖將偏差遏制在搖籃中。

隨后觀測器會將觀測結果返回給Director，主導記憶的緩存管理器通過拿到Director的輸出，開始執行管理KV緩存的保留與清除策略，它會將角色外觀、場景建立幀、關鍵對話幀作為長期記憶錨點保留，同時定期用統計錨點修正全局外觀漂移。

同時因為MaineCoon生成速度快于播放速度，會自然積累起一段已生成但未播放的緩沖內容。

為了平衡實時性與交互響應，前瞻緩沖區控制器會負責把這段超前量控制在合理窗口內，既保證播放不卡頓，又保證用戶的交互指令能在合理延遲內生效。

簡單來說，這部分就是一個寫劇本、一個管記憶、一個控節奏——三者分工明確、互不干擾，共同支撐起了無限續流。

但這還不是全部。

下一步是社交世界模型

MaineCoon甚至還只是Catnip的起點。

他們真正的野心，藏在MaineCoon的定位上——社交世界模型

這個概念由Catnip獨家首次提出，旨在彌補一段行業內長期視而不見的空白：

現有的視頻世界模型，無論做得多么精密，本質都還是在模擬物理世界。它們重視蘋果如何垂直落地，車輛如何克服摩擦力運動，而人在其中扮演的角色更像是一種會動的物體，輔助場景完成畫面。

社交世界模型要做的恰恰相反。

它直接把人當作坐標系的中心，主動觀察用戶的情緒狀態，以人為原點模擬社交行為的走向，然后利用實時音視頻的方式做出合理反應。

團隊認為其包含三個層面：感知層（讀懂用戶情緒）→ 模擬層（預測社交行為）→ 渲染層（實時生成音視頻）。MaineCoon正是第三層的突破。

選擇渲染這一層作為首要切入點，一方面是因為渲染層是最難，但也是整個系統的最終出口，如果沒有實時生成能力，前兩層再強也沒有用武之地。

另一方面，業界始終缺乏一個推理快、成本低、質量高的流式音視頻模型，先做這個，也是從商業角度考慮的最優解。

再往后看，下一步就是擺脫傳統AI對話的半雙工輪流交互模式，實現人類式連續、交錯、多模態的實時雙向交互。

也就是AI能一邊持續生成，一邊感知用戶的實時反饋（包括文本、語音、視頻），像真人對話一樣即時調整。

而當這一層被徹底打通，模型和應用層之間的閉環才真正形成。Catnip也在積極推進將其落地為一個可交互的內容平臺，支持海量用戶實時感應、實時生成。

至于為什么Catnip能率先意識到這一點，我們可以從這支團隊入手。

有趣的是，緬因貓這個品種一開始也是工作貓起家，專職捕鼠、保糧倉，基因里自帶實用主義。

這與Catnip給人的印象不謀而合——

成立大半年，沒有任何公開露面，相當低調，日常就是專注埋頭干活，唯一對外的動作就是這次把技術報告掛上arxiv。

不鳴則已，一鳴驚人。

但即便在水下，這支團隊也已經被最具洞察的投資人搶著押注。

開年這幾個月，就連續收獲了紅杉、明勢等頭部VC的天使輪+融資，不僅因為團隊是一群00后青春風暴，還罕見擁有一線實戰經驗，既懂技術又懂商業

創始人楊姝瑞雖然很年輕，但曾在TikTok和PixVerse做產品，推動過多款爆款模版特效從0-1落地。除此之外，楊姝瑞也是連續創業者，第?段創業合伙創辦海外社媒營銷agency VANZO MEDIA，實現了千萬年度營收。

主導算法研發的是?席科學家、?港科技?學（?州）助理教授謝澤柯，擁有中科?本科、東京?學博?教育背景，曾在百度研究院參與?模型的前沿研究，并?期擔任NeurIPS、ICLR、ICML等AI頂級會議的領域主席。

另外，團隊還有一群02/03年的應屆生小伙伴，在極具創造力地工作。

且看MaineCoon的研發過程，據官方介紹，項目正式啟動是從今年3月開始，3名核心研究員，只用了2個月時間就完成了模型訓練、訓練架構、數據基建、推理系統的全棧交付。

方法也很激進，直接全程使用AI Native：人定框架和思路，AI執行具體計劃；人搭數據infra，AI跑流水線。

但正是這樣的打法，最終效果驚艷，成果說話——MaineCoon火了。

其實用團隊的話來說，MaineCoon更像是一只時刻感知用戶內心狀態的真正的貓

當生成式AI正在從被動內容工具走向社交主動參與者，作為能感知、回應和記住用戶的AI存在，它承載著人類共同的情感交互需求。

MaineCoon是這個方向上踏出的第一步，而且更重要的是它映射出的信號：

下一代社交平臺的底層引擎，已經被按下了開始。

論文鏈接：https://arxiv.org/abs/2606.17800
官網鏈接：https://mainecoon.tech/
模型Blog： https://mainecoon.tech/blogs

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

機器人看不清，螞蟻給治好了

量子位 2026-01-27 14:41:46
1 跟貼 1
代碼與體溫的二重奏：數智時代如何用“算法共情”重建組織信任

經濟觀察報 2026-06-20 09:08:29
1 跟貼 1

給世界模型加上因果，她要讓機器人真正理解“為什么”

DeepTech深科技 2026-06-20 11:32:15
1 跟貼 1

13人團隊叫板Anthropic：我們造了一個更快更便宜的大模型

DeepTech深科技 2026-06-20 17:13:28
13 跟貼 13
小鵬副總裁回應“L3L4自動駕駛強制使用激光雷達”：新國標連激光雷達這個詞都沒提到

紅星資本局 2026-06-20 12:58:06
1748 跟貼 1748

證據攤開看，場景圖畫清：讓流式視頻大模型拿捏「何時開口」

機器之心Pro 2026-05-26 14:14:25
0 跟貼 0

陶哲軒12年前的預言，現在AI幫他兌現了

量子位 2026-06-20 19:53:31
4 跟貼 4
為了讓你燒token，英偉達已經卷到機器人身上了

量子位 2026-06-20 20:08:22
1 跟貼 1

美國三家最強AI公司，怎么都去搞生命科學了？

DeepTech深科技 2026-06-20 20:30:03
0 跟貼 0
馬斯克說明年Q1，唐杰說用不了那么久，誰在悶頭做中國的Mythos？

機器之心Pro 2026-06-20 18:03:45
2 跟貼 2
AI Agent時代的云基礎設施是怎樣的？你需要理解“Agent Runtime完整飛輪”

華爾街見聞官方 2026-06-20 17:51:21
0 跟貼 0
“AI領域最被濫用的術語”李飛飛終于把世界模型講明白了

量子位 2026-06-07 04:37:43
0 跟貼 0
按這算法，褲兜子都讓算沒了呀

我愛大長腿 2026-06-19 13:58:56
0 跟貼 0
盤點讓老板懵圈的人類，臥龍鳳雛的社交牛人，把老板都整蒙圈

二哥東北搞笑配音 2026-06-20 10:38:09
0 跟貼 0
L3/L4級新規：不接受純視覺方案，失效150毫秒必降級，特斯拉咋辦

知嘹汽車 2026-06-20 18:37:05
8 跟貼 8
圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

機器之心Pro 2026-05-11 09:55:21
3 跟貼 3
俄軍噸位優勢一夜抹平烏軍算法優勢

被誤解的時候能微微一笑 2026-06-18 03:53:41
0 跟貼 0
QVGen讓「超低比特視頻生成量化」真正可用！

機器之心Pro 2026-02-25 18:07:24
0 跟貼 0
時隔44年試射洲際導彈專家：機動打擊能力達實戰標準

央視新聞 2026-06-20 14:53:11
11076 跟貼 11076
立陶宛總統向外長發"最后通牒":搞不好對華關系就走人

參考消息 2026-06-20 13:21:11
6993 跟貼 6993
前《GTA6》母公司AI負責人：生成式AI污染大環境！

游民星空 2026-06-20 17:34:23
10 跟貼 10
柬埔寨對華免簽落地首日即有老廣團出發

新快報新聞 2026-06-16 08:19:02
22594 跟貼 22594
流式補償調節失誤，散點圖全部斜飄？3 步教你拉回來

生物學霸 2026-05-08 14:06:51
0 跟貼 0
影視裝扮的模型道具，電視劇里，看到的是這樣嗎？

星君搞笑怪 2026-06-19 09:13:17
0 跟貼 0
流式門道，你知多少

生物學霸 2026-04-24 15:00:23
0 跟貼 0
流式3D重建天花板，被國產開源模型打破了-3

機器之心Pro 2026-04-16 14:04:17
0 跟貼 0
世界杯預測：誰在跟算法、狗和6歲小孩比？

慢享生活集 2026-06-21 00:47:18
0 跟貼 0
演員張頌文深夜街頭救人，獲評“見義勇為先進個人”；此前本人回應：該幫就幫，該扶就扶，有什么可怕的呢？

極目新聞 2026-06-20 18:01:24
2205 跟貼 2205
從2026世界杯的“AI分工”看全球科技競賽的真實底牌

上海產業轉型 2026-06-20 20:14:03
2 跟貼 2
導航軟件開屏"搖一搖"廣告影響行車安全客服回應

極目新聞 2026-06-20 18:09:43
248 跟貼 248
盤點現實中的“社交悍匪”，社恐人無法想象的天花板！

文理TALKING 2026-06-18 02:42:34
0 跟貼 0
中國女排1比3不敵巴西女排，世界女排聯賽5連勝遭終結

澎湃新聞 2026-06-20 22:56:29
6 跟貼 6
免費模式的代價，紅果短劇正在透支什么？

于見專欄 2026-06-19 09:34:48
4 跟貼 4
Meta 士氣跌至歷史冰點，高管承認管理失誤并推零食福利試圖挽回

環球網資訊 2026-06-20 12:32:07
115 跟貼 115
本以為是爛劇，上線就拿下9.2分，都市劇《問心2》爆火了

秋姐居 2026-06-19 09:31:01
6 跟貼 6
周冬雨看著提詞器演話劇導演回應：沒要求演員背詞

新民周刊 2026-06-20 15:57:56
675 跟貼 675
對話佛得角華商：和“門神”沃奇尼亞相識多年，他很善良！

新民周刊 2026-06-20 21:49:43
65 跟貼 65
國道為何改成景區內部路？記者實地探訪綿陽梓潼七曲山景區

極目新聞 2026-06-19 22:13:08
211 跟貼 211
別忽悠我，我只需要一副眼鏡

虎嗅APP 2026-06-19 05:07:12
0 跟貼 0
精彩視頻內容大揭秘，多種類型一次看夠，趕緊來分享啦4

搞笑嘻哈哈 2026-06-21 00:00:00
0 跟貼 0

量子位

追蹤人工智能動態

12824文章數 176501關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

游戲

教育

親子

公開課

本地新聞

手機 / 數碼

房產 / 家居

擼貓擼出SOTA！3個00后2個月，造出史上最快流式音視頻社交模型

鷺羽 發自 凹非寺量子位 | 公眾號 QbitAI

效果show time

音視頻流式生成

業界最快的推理速度

無限時長生成

DeepSeek上線識圖模式，看誰都像梁文鋒

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

女子被困電梯跳出后墜入20米深電梯井身亡 女兒目睹

全隊抱頭痛哭!5億歐土耳其出局 2場轟62腳0進球

張凱麗被罵到關評！

金飾克價年內大跌近450元 跌幅最高達26%

驚出冷汗！重慶實測奧迪A5L，華為智駕這波操作絕了…

態度原創

龍騰資江 韻動邵陽

T1分部官宣人員變動，韓網炸鍋黑歷史被扒！粉絲炮轟：這種人也要

偏心的父母和愛占便宜的孩子，其實是一伙的！

有智慧的家庭教育，從來不強行改造孩子，而是尊重人性規律

鷺羽發自凹非寺量子位 | 公眾號 QbitAI

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

女子被困電梯跳出后墜入20米深電梯井身亡女兒目睹

金飾克價年內大跌近450元跌幅最高達26%

龍騰資江韻動邵陽