阿里"快樂馬"截胡字節(jié)：AI視頻三國殺變天

2026-04-15 11:00:54　來源: 字節(jié)漫游指南

北京舉報

分享至

4月7日，一個匿名模型空降Video Arena盲測榜首，把字節(jié)Seedance 2.0甩開55分。三天后阿里認領(lǐng)——這匹"HappyHorse"（快樂馬）讓剛要一統(tǒng)江湖的字節(jié)，突然被逼到墻角。

01｜匿名空降：一場精心設(shè)計的"技術(shù)突襲"

Video Arena的盲測機制很殘酷：用戶同時看到兩個模型生成的視頻，投票選出更好的，elo積分實時變動。沒有品牌光環(huán)，只有硬碰硬的畫質(zhì)、連貫性、物理合理性。

4月7日的榜單震動行業(yè)。圖生視頻（無音頻）賽道，HappyHorse以1411分登頂；文生視頻（無音頻）賽道，1379分同樣壓過Seedance 2.0、快手可靈3.0、昆侖萬維SkyReels V4。所有公開可查的競品，全被這匹"黑馬"甩在身后。

更蹊蹺的是身份。Video Arena的提交規(guī)則允許匿名，HappyHorse的開發(fā)者信息一欄空白。這種"藏頭露尾"在AI圈極為罕見——通常大廠恨不得把logo貼滿每個角落。

行業(yè)猜測迅速分化。有人押注神秘創(chuàng)業(yè)公司，有人懷疑是某巨頭的內(nèi)部代號。直到4月10日，阿里通義實驗室負責人周靖人才出面認領(lǐng)：「HappyHorse是阿里視頻生成大模型，由通義實驗室研發(fā)。」

時間線值得玩味。3月34日（原文如此），OpenAI宣布關(guān)停Sora，業(yè)內(nèi)普遍認為Seedance 2.0將接管市場真空。阿里選擇在此刻讓HappyHorse匿名沖榜，精準卡在字節(jié)勢能最盛、警惕性最低的窗口期。

這不是技術(shù)競賽，是心理戰(zhàn)。匿名機制剝離了品牌偏見，讓HappyHorse的分數(shù)純粹反映技術(shù)實力；而"三天后才認領(lǐng)"的節(jié)奏，既驗證了真實口碑，又制造了傳播懸念。字節(jié)和快手被蒙在鼓里打了三天，等反應(yīng)過來，輿論高地已被占領(lǐng)。

02｜技術(shù)底牌：單流架構(gòu)的"降維"邏輯

HappyHorse的技術(shù)路線，和主流方案有明顯差異。

據(jù)媒體披露，它采用"單流Transformer架構(gòu)"——用一個統(tǒng)一的模型同時處理視頻和音頻，一次推理直接輸出帶聲音的成片。這區(qū)別于行業(yè)常見的"多模塊拼接"：視頻模型生成畫面，音頻模型后期配音，再通過時間軸對齊。

這種架構(gòu)的底層優(yōu)勢在于Token（詞元）層面的統(tǒng)一處理。視頻幀和音頻幀被編碼為混合序列，自注意力機制可以直接捕捉跨模態(tài)的長距離依賴。比如人物說話的唇形變化，和聲波振動的頻率特征，在同一套注意力權(quán)重下被聯(lián)合優(yōu)化。

信息損耗被壓縮到最小。多模塊方案需要在視頻編碼器、音頻編碼器、時序?qū)R層之間反復(fù)傳遞數(shù)據(jù)，每次傳遞都可能丟失細粒度關(guān)聯(lián)。單流架構(gòu)把這些環(huán)節(jié)內(nèi)化為同一模型的不同注意力頭，理論上更利于維持長時序的連貫敘事。

Artificial Analysis的評測數(shù)據(jù)提供了參照：HappyHorse物理一致性4.52分（滿分5分），視覺質(zhì)量4.80分，文本對齊4.18分。基礎(chǔ)素質(zhì)扎實，但復(fù)雜場景下的長期一致性仍有提升空間。

這里需要區(qū)分兩個概念。"物理一致性"指單幀畫面的合理性——人物比例、光影邏輯、物體材質(zhì)；"長期一致性"指跨幀的時空連貫——一個人物在30秒視頻里不能突然換發(fā)型、變身高、改膚色。后者才是影視級應(yīng)用的硬門檻。

參考Sora的前車之鑒。央視財經(jīng)報道披露，Sora的商業(yè)可用率極低，僅5%-10%的生成視頻能進入初步篩選，更像"抽卡游戲"。其長期一致性高度依賴大模型的"記憶"能力，而Transformer的上下文窗口有限，長視頻必然出現(xiàn)語義漂移。

HappyHorse的單流架構(gòu)是否解決了這個問題？目前尚無長視頻（60秒以上）的公開評測。但阿里敢于讓它直面Seedance 2.0的15秒主力場景，說明至少在短中期敘事上，已經(jīng)具備正面交鋒的底氣。

03｜字節(jié)的反擊：從"高冷"到"開放"的急轉(zhuǎn)彎

HappyHorse沖榜的連鎖反應(yīng)，在字節(jié)身上體現(xiàn)得最直觀。

4月14日，火山引擎正式上線Seedance 2.0系列API服務(wù)，企業(yè)和個人用戶均可調(diào)用。這距離其3月4日公布商用定價，僅隔40天；距離4月2日面向企業(yè)開放API申請，更是只有12天。

節(jié)奏明顯加速。更關(guān)鍵的是門檻變化：早期Seedance 2.0需要高額預(yù)付，"最低消耗"動輒千萬級；現(xiàn)在API大面積開放，幾乎等于零門檻接入。

這種轉(zhuǎn)變和字節(jié)此前的策略形成反差。Seedance 2.0發(fā)布初期，用戶普遍抱怨排隊時間長、變相漲價"背刺"——顯然是在控制算力消耗，篩選高價值客戶。為什么突然放開？

壓力來自競爭格局的突變。HappyHorse的盲測登頂，證明市場上存在技術(shù)對等的替代品。如果字節(jié)繼續(xù)"高冷"，開發(fā)者會流向阿里；如果降價開放，至少能守住生態(tài)基本盤。兩害相權(quán)，字節(jié)選擇了防守反擊。

Seedance 2.0的底氣在于商業(yè)可用率。極客公園測算，其15秒視頻可用率或達90%，遠超行業(yè)此前20%的平均水平。這意味著企業(yè)調(diào)用時，試錯成本大幅降低——同樣的預(yù)算，能產(chǎn)出更多可用素材。

字節(jié)的商業(yè)化節(jié)奏也值得復(fù)盤。第一階段，用"寵物貓狗暴揍哥斯拉"等病毒模板引爆社交媒體，零成本完成用戶教育和流量蓄水；第二階段，口碑和需求雙峰值時啟動定價，28元/百萬tokens（含視頻輸入）、46元/百萬tokens（不含視頻輸入），折合純視頻生成成本約0.95元/秒；第三階段，快速開放API，從"網(wǎng)紅玩具"轉(zhuǎn)型為"生產(chǎn)工具"。

這套打法驗證了AI產(chǎn)業(yè)的投資邏輯變遷：資金——無論內(nèi)部預(yù)算還是外部融資——只會流向能垂直應(yīng)用、快速變現(xiàn)、貢獻ROI的方向。B端和C端的付費決策，同樣遵循這個底層規(guī)則。

但HappyHorse的出現(xiàn)，打亂了字節(jié)的節(jié)奏。原本Seedance 2.0可以按部就班地收割市場，現(xiàn)在不得不提前進入開放競爭階段。

04｜快手的暗線：張迪的"雙城記"

三國殺格局中，快手的角色常被低估。但HappyHorse的技術(shù)負責人張迪，恰恰是快手可靈的核心締造者。

張迪的履歷揭示了一種罕見的"技術(shù)-業(yè)務(wù)"復(fù)合背景。他既懂DiT（擴散Transformer）架構(gòu)的底層優(yōu)化，也深度參與過快手的商業(yè)化落地。這種經(jīng)歷讓他天然擅長把業(yè)務(wù)思維注入技術(shù)研發(fā)——不是先造工具再找場景，而是倒推：什么場景需要什么樣的技術(shù)能力？

一個細節(jié)印證這種思維。HappyHorse原生支持七種語言的唇形同步：英語、普通話、粵語、日語、韓語、德語、法語。這不是技術(shù)炫技，是精準卡位電商場景——尤其是跨境電商。

想象一下：一個中國商家要生成面向歐洲市場的產(chǎn)品視頻，傳統(tǒng)流程需要分別拍攝、配音、后期對齊，周期以周計。HappyHorse的唇形同步能力，可以讓同一段視頻素材快速適配多語言市場，周期壓縮到小時級。

快手可靈的商業(yè)化數(shù)據(jù)，已經(jīng)驗證了這種"技術(shù)-業(yè)務(wù)"閉環(huán)的可行性。2025年第四季度，可靈AI營業(yè)收入3.4億元；2025年12月單月收入突破2000萬美元，年化收入運行率（ARR）達2.4億美元。

張迪從快手跳槽阿里，帶走了的不只是技術(shù)經(jīng)驗，還有對視頻生成商業(yè)化路徑的完整認知。HappyHorse的沖榜策略、多語言適配、API開放節(jié)奏，都能看到可靈模式的影子——但執(zhí)行得更激進、更隱蔽。

這對快手是壓力也是鏡鑒。可靈3.0仍在迭代，但技術(shù)負責人"叛逃"競對，本身說明行業(yè)人才流動的殘酷性。AI視頻賽道的壁壘，從來不是單點技術(shù)，而是技術(shù)-數(shù)據(jù)-場景的飛輪轉(zhuǎn)速。

05｜Sora之死：技術(shù)煙花與商業(yè)冷感

理解當下的競爭烈度，需要回到OpenAI關(guān)停Sora的決策邏輯。

Sora的關(guān)停并非技術(shù)瓶頸。從演示視頻看，其物理合理性和視覺質(zhì)量仍屬第一梯隊。真正致命的是經(jīng)濟賬：Appfigures估算，Sora上線以來應(yīng)用內(nèi)總收入僅約210萬美元，投入產(chǎn)出比接近2500:1。

a16z合伙人Olivia Moore曬出的數(shù)據(jù)更殘酷：Sora APP的30天用戶留存率1%，60天留存率0%。用戶來了就走，沒有形成任何可持續(xù)的使用習慣。

這揭示了一個被技術(shù)樂觀主義遮蔽的真相：視頻生成模型的"可用性"和"商業(yè)可用性"是兩個維度。實驗室里能跑通的demo，不等于用戶愿意付費的產(chǎn)品；用戶愿意付費，不等于企業(yè)能規(guī)模化盈利。

OpenAI的應(yīng)對

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.