4月7日,一個匿名模型空降Video Arena盲測榜首,把字節(jié)Seedance 2.0甩開55分。三天后阿里認領(lǐng)——這匹"HappyHorse"(快樂馬)讓剛要一統(tǒng)江湖的字節(jié),突然被逼到墻角。
01|匿名空降:一場精心設(shè)計的"技術(shù)突襲"
![]()
Video Arena的盲測機制很殘酷:用戶同時看到兩個模型生成的視頻,投票選出更好的,elo積分實時變動。沒有品牌光環(huán),只有硬碰硬的畫質(zhì)、連貫性、物理合理性。
4月7日的榜單震動行業(yè)。圖生視頻(無音頻)賽道,HappyHorse以1411分登頂;文生視頻(無音頻)賽道,1379分同樣壓過Seedance 2.0、快手可靈3.0、昆侖萬維SkyReels V4。所有公開可查的競品,全被這匹"黑馬"甩在身后。
更蹊蹺的是身份。Video Arena的提交規(guī)則允許匿名,HappyHorse的開發(fā)者信息一欄空白。這種"藏頭露尾"在AI圈極為罕見——通常大廠恨不得把logo貼滿每個角落。
行業(yè)猜測迅速分化。有人押注神秘創(chuàng)業(yè)公司,有人懷疑是某巨頭的內(nèi)部代號。直到4月10日,阿里通義實驗室負責人周靖人才出面認領(lǐng):「HappyHorse是阿里視頻生成大模型,由通義實驗室研發(fā)。」
時間線值得玩味。3月34日(原文如此),OpenAI宣布關(guān)停Sora,業(yè)內(nèi)普遍認為Seedance 2.0將接管市場真空。阿里選擇在此刻讓HappyHorse匿名沖榜,精準卡在字節(jié)勢能最盛、警惕性最低的窗口期。
這不是技術(shù)競賽,是心理戰(zhàn)。匿名機制剝離了品牌偏見,讓HappyHorse的分數(shù)純粹反映技術(shù)實力;而"三天后才認領(lǐng)"的節(jié)奏,既驗證了真實口碑,又制造了傳播懸念。字節(jié)和快手被蒙在鼓里打了三天,等反應(yīng)過來,輿論高地已被占領(lǐng)。
02|技術(shù)底牌:單流架構(gòu)的"降維"邏輯
HappyHorse的技術(shù)路線,和主流方案有明顯差異。
據(jù)媒體披露,它采用"單流Transformer架構(gòu)"——用一個統(tǒng)一的模型同時處理視頻和音頻,一次推理直接輸出帶聲音的成片。這區(qū)別于行業(yè)常見的"多模塊拼接":視頻模型生成畫面,音頻模型后期配音,再通過時間軸對齊。
這種架構(gòu)的底層優(yōu)勢在于Token(詞元)層面的統(tǒng)一處理。視頻幀和音頻幀被編碼為混合序列,自注意力機制可以直接捕捉跨模態(tài)的長距離依賴。比如人物說話的唇形變化,和聲波振動的頻率特征,在同一套注意力權(quán)重下被聯(lián)合優(yōu)化。
信息損耗被壓縮到最小。多模塊方案需要在視頻編碼器、音頻編碼器、時序?qū)R層之間反復(fù)傳遞數(shù)據(jù),每次傳遞都可能丟失細粒度關(guān)聯(lián)。單流架構(gòu)把這些環(huán)節(jié)內(nèi)化為同一模型的不同注意力頭,理論上更利于維持長時序的連貫敘事。
Artificial Analysis的評測數(shù)據(jù)提供了參照:HappyHorse物理一致性4.52分(滿分5分),視覺質(zhì)量4.80分,文本對齊4.18分。基礎(chǔ)素質(zhì)扎實,但復(fù)雜場景下的長期一致性仍有提升空間。
這里需要區(qū)分兩個概念。"物理一致性"指單幀畫面的合理性——人物比例、光影邏輯、物體材質(zhì);"長期一致性"指跨幀的時空連貫——一個人物在30秒視頻里不能突然換發(fā)型、變身高、改膚色。后者才是影視級應(yīng)用的硬門檻。
參考Sora的前車之鑒。央視財經(jīng)報道披露,Sora的商業(yè)可用率極低,僅5%-10%的生成視頻能進入初步篩選,更像"抽卡游戲"。其長期一致性高度依賴大模型的"記憶"能力,而Transformer的上下文窗口有限,長視頻必然出現(xiàn)語義漂移。
HappyHorse的單流架構(gòu)是否解決了這個問題?目前尚無長視頻(60秒以上)的公開評測。但阿里敢于讓它直面Seedance 2.0的15秒主力場景,說明至少在短中期敘事上,已經(jīng)具備正面交鋒的底氣。
03|字節(jié)的反擊:從"高冷"到"開放"的急轉(zhuǎn)彎
HappyHorse沖榜的連鎖反應(yīng),在字節(jié)身上體現(xiàn)得最直觀。
4月14日,火山引擎正式上線Seedance 2.0系列API服務(wù),企業(yè)和個人用戶均可調(diào)用。這距離其3月4日公布商用定價,僅隔40天;距離4月2日面向企業(yè)開放API申請,更是只有12天。
節(jié)奏明顯加速。更關(guān)鍵的是門檻變化:早期Seedance 2.0需要高額預(yù)付,"最低消耗"動輒千萬級;現(xiàn)在API大面積開放,幾乎等于零門檻接入。
這種轉(zhuǎn)變和字節(jié)此前的策略形成反差。Seedance 2.0發(fā)布初期,用戶普遍抱怨排隊時間長、變相漲價"背刺"——顯然是在控制算力消耗,篩選高價值客戶。為什么突然放開?
壓力來自競爭格局的突變。HappyHorse的盲測登頂,證明市場上存在技術(shù)對等的替代品。如果字節(jié)繼續(xù)"高冷",開發(fā)者會流向阿里;如果降價開放,至少能守住生態(tài)基本盤。兩害相權(quán),字節(jié)選擇了防守反擊。
Seedance 2.0的底氣在于商業(yè)可用率。極客公園測算,其15秒視頻可用率或達90%,遠超行業(yè)此前20%的平均水平。這意味著企業(yè)調(diào)用時,試錯成本大幅降低——同樣的預(yù)算,能產(chǎn)出更多可用素材。
字節(jié)的商業(yè)化節(jié)奏也值得復(fù)盤。第一階段,用"寵物貓狗暴揍哥斯拉"等病毒模板引爆社交媒體,零成本完成用戶教育和流量蓄水;第二階段,口碑和需求雙峰值時啟動定價,28元/百萬tokens(含視頻輸入)、46元/百萬tokens(不含視頻輸入),折合純視頻生成成本約0.95元/秒;第三階段,快速開放API,從"網(wǎng)紅玩具"轉(zhuǎn)型為"生產(chǎn)工具"。
這套打法驗證了AI產(chǎn)業(yè)的投資邏輯變遷:資金——無論內(nèi)部預(yù)算還是外部融資——只會流向能垂直應(yīng)用、快速變現(xiàn)、貢獻ROI的方向。B端和C端的付費決策,同樣遵循這個底層規(guī)則。
但HappyHorse的出現(xiàn),打亂了字節(jié)的節(jié)奏。原本Seedance 2.0可以按部就班地收割市場,現(xiàn)在不得不提前進入開放競爭階段。
04|快手的暗線:張迪的"雙城記"
三國殺格局中,快手的角色常被低估。但HappyHorse的技術(shù)負責人張迪,恰恰是快手可靈的核心締造者。
張迪的履歷揭示了一種罕見的"技術(shù)-業(yè)務(wù)"復(fù)合背景。他既懂DiT(擴散Transformer)架構(gòu)的底層優(yōu)化,也深度參與過快手的商業(yè)化落地。這種經(jīng)歷讓他天然擅長把業(yè)務(wù)思維注入技術(shù)研發(fā)——不是先造工具再找場景,而是倒推:什么場景需要什么樣的技術(shù)能力?
一個細節(jié)印證這種思維。HappyHorse原生支持七種語言的唇形同步:英語、普通話、粵語、日語、韓語、德語、法語。這不是技術(shù)炫技,是精準卡位電商場景——尤其是跨境電商。
想象一下:一個中國商家要生成面向歐洲市場的產(chǎn)品視頻,傳統(tǒng)流程需要分別拍攝、配音、后期對齊,周期以周計。HappyHorse的唇形同步能力,可以讓同一段視頻素材快速適配多語言市場,周期壓縮到小時級。
快手可靈的商業(yè)化數(shù)據(jù),已經(jīng)驗證了這種"技術(shù)-業(yè)務(wù)"閉環(huán)的可行性。2025年第四季度,可靈AI營業(yè)收入3.4億元;2025年12月單月收入突破2000萬美元,年化收入運行率(ARR)達2.4億美元。
張迪從快手跳槽阿里,帶走了的不只是技術(shù)經(jīng)驗,還有對視頻生成商業(yè)化路徑的完整認知。HappyHorse的沖榜策略、多語言適配、API開放節(jié)奏,都能看到可靈模式的影子——但執(zhí)行得更激進、更隱蔽。
這對快手是壓力也是鏡鑒。可靈3.0仍在迭代,但技術(shù)負責人"叛逃"競對,本身說明行業(yè)人才流動的殘酷性。AI視頻賽道的壁壘,從來不是單點技術(shù),而是技術(shù)-數(shù)據(jù)-場景的飛輪轉(zhuǎn)速。
05|Sora之死:技術(shù)煙花與商業(yè)冷感
理解當下的競爭烈度,需要回到OpenAI關(guān)停Sora的決策邏輯。
Sora的關(guān)停并非技術(shù)瓶頸。從演示視頻看,其物理合理性和視覺質(zhì)量仍屬第一梯隊。真正致命的是經(jīng)濟賬:Appfigures估算,Sora上線以來應(yīng)用內(nèi)總收入僅約210萬美元,投入產(chǎn)出比接近2500:1。
a16z合伙人Olivia Moore曬出的數(shù)據(jù)更殘酷:Sora APP的30天用戶留存率1%,60天留存率0%。用戶來了就走,沒有形成任何可持續(xù)的使用習慣。
這揭示了一個被技術(shù)樂觀主義遮蔽的真相:視頻生成模型的"可用性"和"商業(yè)可用性"是兩個維度。實驗室里能跑通的demo,不等于用戶愿意付費的產(chǎn)品;用戶愿意付費,不等于企業(yè)能規(guī)模化盈利。
OpenAI的應(yīng)對
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.