鷺羽 發自 凹非寺量子位 | 公眾號 QbitAI
一覺醒來,AI的新潮流變成了養貓
火速圍觀一下,剛剛全球流式音視頻模型賽道闖進了一匹黑馬,能力SOTA級,模型名字就叫緬因貓(MaineCoon)
養過緬因貓的朋友都知道,這個品種有個外號叫「貓狗」,意思是幾乎你走到哪兒,它就跟到哪兒,相當粘人,互動感MAX。
而模型MaineCoon和它幾乎是如出一轍,不會一股腦生成完就跑,而是一直陪著你、follow你的狀態,實時地往下走。
比如這樣:
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
給它一段文字,它直接邊生成邊播放,還能做到音畫同出,效果就像是在和真人主播1V1視頻對話,而且永遠不會卡頓。
時長可達30分鐘以上,這也是業界首次實現這個長度。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
此外,MaineCoon的推理速度也很突出——
22B參數的大小,卻能在單張H100上跑出47.5 FPS,同賽道速度位居業界第一;即使是在只有H100一半成本的推理卡RTX Pro 6000上,也能穩定保持30 FPS以上的實時運行速度。
具體什么概念呢?
假設我手里有一張GPU,用MaineCoon生成一條10秒的短視頻,?幀將在3s以內出現,隨后開始流式輸出,新增prompt與實時輸出無縫銜接,全程過渡絲滑自然。
成本直接被打下來,每秒成本控制在0.001美元以內。
如果在GPU占滿的狀態下,每秒推理更是僅需0.00025美元,是Veo 3的1/2000、Seedance的1/560。
![]()
而這些,來自一家base中國的10人初創團隊,名叫Catnip(貓薄荷)
幾天前,他們剛剛在上發布了技術報告,就迅速收獲多方關注,其中LTX官?也注意到了這家新面孔,并主動尋求合作。
話不多說,來看具體效果。
效果show time
其實MaineCoon和一般的音視頻生成模型還不太一樣,它首次將場景垂直落地在社交交互中。
何為社交?就是活人感
且看各家現有的生成模型卷到飛起,Benchmark表現一個賽一個亮眼,但依舊有硬傷:
要么速度太慢,要等完整生成后才能看到效果,根本沒法實時,對創作者并不友好;要么做得了視頻,卻顧不上音頻,音畫永遠分開走。
這類通用音視頻模型更擅長模擬物理規律和場景敘事,天空中的云怎么飄、水面的光怎么反射,它們拿捏得很準,但一到人物表現上就屢屢翻車。
于是判斷AI視頻與否,大家總結出一條心照不宣的經驗——看臉
要做社交距離也不露怯的視頻,關鍵在于人物細節是不是夠自然,比如眼神的變化、嘴角的抽搐、說話的節奏等等,還要音畫高度同步、生成過程中隨時可切換指令。
難度系數拉滿了,但這些細節才是決定活人感的關鍵。
所以MaineCoon瞄準的,正是這個被整個行業忽視掉的缺口。
具體來說,它做到了三件此前沒有模型能同時做到的事。
音視頻流式生成
先科普一下,什么是流式生成
這并非新鮮概念,最早ChatGPT一個字一個字往外蹦,就是流式輸出。簡單來說,就是讓模型能夠邊看邊生,推理到哪兒,就生成到哪兒。
但視頻的一幀涉及到成千上萬個像素,還要和音頻在時間軸上精準對齊,和單純文字流式生成的難度完全不在同一個量級上。
而且生成片段越小,就意味著每一幀能依賴的歷史上下文越短,模型就更容易露餡。
MaineCoon則把這個單元極致壓縮到了亞秒級,指令輸出后1秒內就出首幀,低延遲和高質量兩手抓。不止快了一點,更是生成方式的徹底改變。
比如下面模擬人物對話,初始Prompt要求人物語氣平靜且深思熟慮,結果無論是角色的面部肌肉走向,還是語氣停頓,都精準遵循指令。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
中間實時輸入新的指令,模型也能及時調整:
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
讓角色做大幅度表情,也同樣表現優秀:
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
也可以隨時提出問題讓角色解答:
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
不得不說,相比過去AI一句指令就出一堆回復的生硬別扭,MaineCoon的最大差異在于給予用戶真人聊天的即視感,會接用戶的話,也會給用戶情緒。
這大概就是養貓人常說的——你以為你在擼貓,其實貓也在擼你。
業界最快的推理速度
速度更不必多說,親測體驗下來,同類流式音視頻模型的速度普遍在6-7 FPS,MaineCoon快了整整7倍
![]()
即使是持續生成一整天,成本也都能維持在一個合理范疇內。模型雖然有22B,但單卡就能部署(最高47.5 FPS)
相比1.3B的輕量流式視頻模型(19.1FPS)也要快2倍以上,輕松滿足實時播放需求。
更關鍵的是,這樣的速度不僅沒有犧牲質量,反而情感表達更豐富,動作也更連貫穩定
比如我們把場景搬到室外,日落時分的光影結合角色隨風飄揚的發絲,說是真人博主在隨意記錄自己的City Walk也不為過。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
無限時長生成
根據官方介紹,MaineCoon還能做到連續生成10分鐘以上的音視頻內容,期間保持畫質、一致性、音畫同步都不崩。
毫不夸張地說,MaineCoon的架構甚至完全可以無限生成。
這里以一個長達2分鐘的MaineCoon視頻為例,直到最后,人物都沒有出現明顯bug。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
即使是動畫風格的Minecraft小人,長時序也能穩穩接住。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
Catnip還同步自建了首個社交短視頻專用基準測試SocialVideo Bench,以直觀展示MaineCoon的表現。
SocialVideo Bench涵蓋密集演講、雙人互動、音樂演唱、情緒表演、舞蹈、創意挑戰、社交梗七大場景,九項指標全面考核視覺質量、運動質量、音質、音畫對齊。
其中,MaineCoon均超越主流的7款音視頻生成模型,綜合得分0.934,遠超最優基線SoulX-FlashTalk(0.895),刷新SOTA
![]()
問題是——MaineCoon是如何做到的?
三層訓練,三層推理
先說訓練側
MaineCoon的訓練框架主要分三個階段,層層遞進:
![]()
Step 1:自重采樣(Self-Resampling)
這一步解決的是推訓之間的鴻溝問題。傳統訓練中會用干凈的歷史幀做上下文,但真實推理時模型只能用自己生成的幀,二者之間存在偏差,而且時間一久,越生成越跑偏。
自重采樣能夠讓模型在訓練時就接觸到降質版的歷史幀,從一開始就學會在帶有輕微漂移、噪聲的不完美條件下保持穩定。
Step 2:流式表征對齊(Representation Alignment)
音畫聯合訓練實際上是很慢的,為了加快收斂速度,MaineCoon會引入凍結預訓練V-JEPA 2視覺編碼器做蒸餾監督。
于是模型能夠更快學到跨模態的語義結構,大幅提升訓練效率,也可以簡單將其理解為一個訓練加速器和穩定器。
Step 3:域感知偏好優化(DPO)+強化在線策略蒸餾(ROPD)
這是模型的后訓練核心,針對不同社交場景,比如舞蹈看重動態、對話看重唇同步、遠景看重人體結構,分別訓練專門的偏好專家模型,再通過強化蒸餾統一成一個可部署的流式策略。
這樣既精準,又輕量。
![]()
然后在此基礎之上,要讓模型在有限的算力資源上真正跑起來,團隊還精心設計了一套基礎設施工程
畢竟22B模型的參數量太大,不處理,一張卡根本裝不下。
具體來說,64張H100分攤參數,長序列切開并行處理,精度和優化器狀態則能壓則壓。
最關鍵的一步是把視頻編碼、文本嵌入、教師特征全部提前算好存進磁盤,訓練時直接讀取,而GPU只做最核心的那一步,不做任何多余的搬磚工作。
結果就是,22B的模型,在10k GPU小時內就訓練完成,數據一共不到100萬條
推理側同樣有一套創新的Agentic推理框架,該框架由三個獨立的智能控制器構成,分別是DirectorCache ManagerBuffer Controller
![]()
首先是Director,這也是整個系統的認知核心,專門負責敘事與糾錯。
Director先通過規劃器逐節拍生成結構化提示詞(畫面描述+臺詞+環境音),以維持人物人設、避免敘事重復。
然后觀測器持續監測生成內容是否出現質量漂移,一旦發現問題就啟動前向修復,不中斷、不重置,直接在下一幀開始糾偏。
這樣做是為了緩解流式長視頻最容易出現的問題之一:畸變
生成時間越長,誤差累積就越嚴重,因為模型在生成當前chunk時,參考的是前一個chunk,但殊不知前一個chunk已經相對第1個chunk偏移了。之后每一步的微小偏差疊加起來,人物就會嚴重畸變。
所以MaineCoon從推理的第一步起,就試圖將偏差遏制在搖籃中。
隨后觀測器會將觀測結果返回給Director,主導記憶的緩存管理器通過拿到Director的輸出,開始執行管理KV緩存的保留與清除策略,它會將角色外觀、場景建立幀、關鍵對話幀作為長期記憶錨點保留,同時定期用統計錨點修正全局外觀漂移。
同時因為MaineCoon生成速度快于播放速度,會自然積累起一段已生成但未播放的緩沖內容。
![]()
為了平衡實時性與交互響應,前瞻緩沖區控制器會負責把這段超前量控制在合理窗口內,既保證播放不卡頓,又保證用戶的交互指令能在合理延遲內生效。
簡單來說,這部分就是一個寫劇本、一個管記憶、一個控節奏——三者分工明確、互不干擾,共同支撐起了無限續流。
但這還不是全部。
下一步是社交世界模型
MaineCoon甚至還只是Catnip的起點。
他們真正的野心,藏在MaineCoon的定位上——社交世界模型
這個概念由Catnip獨家首次提出,旨在彌補一段行業內長期視而不見的空白:
現有的視頻世界模型,無論做得多么精密,本質都還是在模擬物理世界。它們重視蘋果如何垂直落地,車輛如何克服摩擦力運動,而人在其中扮演的角色更像是一種會動的物體,輔助場景完成畫面。
社交世界模型要做的恰恰相反。
它直接把人當作坐標系的中心,主動觀察用戶的情緒狀態,以人為原點模擬社交行為的走向,然后利用實時音視頻的方式做出合理反應。
團隊認為其包含三個層面:感知層(讀懂用戶情緒)→ 模擬層(預測社交行為)→ 渲染層(實時生成音視頻)。MaineCoon正是第三層的突破。
選擇渲染這一層作為首要切入點,一方面是因為渲染層是最難,但也是整個系統的最終出口,如果沒有實時生成能力,前兩層再強也沒有用武之地。
另一方面,業界始終缺乏一個推理快、成本低、質量高的流式音視頻模型,先做這個,也是從商業角度考慮的最優解。
再往后看,下一步就是擺脫傳統AI對話的半雙工輪流交互模式,實現人類式連續、交錯、多模態的實時雙向交互。
也就是AI能一邊持續生成,一邊感知用戶的實時反饋(包括文本、語音、視頻),像真人對話一樣即時調整。
而當這一層被徹底打通,模型和應用層之間的閉環才真正形成。Catnip也在積極推進將其落地為一個可交互的內容平臺,支持海量用戶實時感應、實時生成。
![]()
至于為什么Catnip能率先意識到這一點,我們可以從這支團隊入手。
有趣的是,緬因貓這個品種一開始也是工作貓起家,專職捕鼠、保糧倉,基因里自帶實用主義。
這與Catnip給人的印象不謀而合——
成立大半年,沒有任何公開露面,相當低調,日常就是專注埋頭干活,唯一對外的動作就是這次把技術報告掛上arxiv。
不鳴則已,一鳴驚人。
但即便在水下,這支團隊也已經被最具洞察的投資人搶著押注。
開年這幾個月,就連續收獲了紅杉、明勢等頭部VC的天使輪+融資,不僅因為團隊是一群00后青春風暴,還罕見擁有一線實戰經驗,既懂技術又懂商業
創始人楊姝瑞雖然很年輕,但曾在TikTok和PixVerse做產品,推動過多款爆款模版特效從0-1落地。除此之外,楊姝瑞也是連續創業者,第?段創業合伙創辦海外社媒營銷agency VANZO MEDIA,實現了千萬年度營收。
主導算法研發的是?席科學家、?港科技?學(?州)助理教授謝澤柯,擁有中科?本科、東京?學博?教育背景,曾在百度研究院參與?模型的前沿研究,并?期擔任NeurIPS、ICLR、ICML等AI頂級會議的領域主席。
另外,團隊還有一群02/03年的應屆生小伙伴,在極具創造力地工作。
且看MaineCoon的研發過程,據官方介紹,項目正式啟動是從今年3月開始,3名核心研究員,只用了2個月時間就完成了模型訓練、訓練架構、數據基建、推理系統的全棧交付。
方法也很激進,直接全程使用AI Native:人定框架和思路,AI執行具體計劃;人搭數據infra,AI跑流水線。
但正是這樣的打法,最終效果驚艷,成果說話——MaineCoon火了。
其實用團隊的話來說,MaineCoon更像是一只時刻感知用戶內心狀態的真正的貓
當生成式AI正在從被動內容工具走向社交主動參與者,作為能感知、回應和記住用戶的AI存在,它承載著人類共同的情感交互需求。
MaineCoon是這個方向上踏出的第一步,而且更重要的是它映射出的信號:
下一代社交平臺的底層引擎,已經被按下了開始。
論文鏈接:https://arxiv.org/abs/2606.17800
官網鏈接:https://mainecoon.tech/
模型Blog: https://mainecoon.tech/blogs
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.