4月7日,一個(gè)匿名模型以1411分登頂全球AI視頻盲測榜,把字節(jié)Seedance 2.0甩出55分。三天后,阿里認(rèn)領(lǐng)了這匹"千里馬"——而字節(jié),第二天就緊急宣布全面開放API。
這不是巧合。這是AI視頻賽道從"技術(shù)秀肌肉"轉(zhuǎn)向"商業(yè)拼刺刀"的標(biāo)志性一役。
![]()
Seedance 2.0的"突然開放"
4月14日,字節(jié)跳動旗下火山引擎正式上線Seedance 2.0系列API服務(wù)。企業(yè)和個(gè)人用戶都能調(diào)用,不再需要千萬級預(yù)付門檻。
但就在一周前,這款產(chǎn)品的用戶口碑還在崩壞邊緣。排隊(duì)時(shí)間長、變相漲價(jià)、背刺老用戶——社交平臺上罵聲一片。
轉(zhuǎn)折點(diǎn)來得猝不及防。
4月7日,HappyHorse(快樂馬)以匿名身份空降Video Arena盲測榜單。圖生視頻(無音頻)1411分,文生視頻1379分,雙榜第一。字節(jié)Seedance 2.0、快手可靈AI 3.0、昆侖萬維SkyReels V4全部排在后面。
三天后,阿里官方認(rèn)領(lǐng)。次日,字節(jié)開放API。
時(shí)間線不會說謊。Seedance 2.0的"突然開放",是對HappyHorse截胡的直接回應(yīng)。
更值得玩味的是定價(jià)策略的急轉(zhuǎn)彎。早期Seedance 2.0需要高額預(yù)付、動輒千萬級"最低消耗";現(xiàn)在API大面積開放,算力門檻一夜清零。
這種從"高冷"到"普惠"的轉(zhuǎn)身,暴露了字節(jié)的真實(shí)焦慮:當(dāng)技術(shù)領(lǐng)先不再穩(wěn)固,生態(tài)卡位就成了唯一選項(xiàng)。
HappyHorse的技術(shù)底牌
HappyHorse憑什么能后來居上?答案藏在它的技術(shù)架構(gòu)里。
據(jù)媒體披露,HappyHorse采用"單流Transformer架構(gòu)"——用一個(gè)統(tǒng)一的Transformer同時(shí)處理視頻和音頻,一次推理直接輸出帶聲音的成片,不需要后期拼接。
這和行業(yè)主流路線截然不同。目前頂級視頻模型幾乎都基于DiT(擴(kuò)散Transformer)架構(gòu),視頻和音頻分模塊處理,最后拼接合成。
HappyHorse的單流設(shè)計(jì),核心優(yōu)勢在于"長期一致性"。統(tǒng)一的Transformer直接處理長序列的混合Token,自注意力機(jī)制能捕捉視頻幀與音頻幀之間的長距離依賴關(guān)系。少了模塊間的信息傳遞損耗,時(shí)序連貫性理論上更強(qiáng)。
Artificial Analysis的評測數(shù)據(jù)(滿分5分)給出了側(cè)面印證:HappyHorse物理一致性4.52,視覺質(zhì)量4.80,文本對齊4.18。基礎(chǔ)一致性表現(xiàn)扎實(shí)。
但長期一致性仍是全行業(yè)難題。參考Sora的經(jīng)驗(yàn)就知道,技術(shù)評分高不等于商業(yè)可用。
央視財(cái)經(jīng)曾報(bào)道,Sora在實(shí)際應(yīng)用中的商業(yè)可用率極低——僅5%-10%的生成視頻能用于初步篩選,更像不可控的"抽卡游戲"。其長期一致性高度依賴大模型的"記憶"能力,復(fù)雜場景下容易崩壞。
HappyHorse的4.52分物理一致性,說明它解決了部分問題,但尚未跨越"可用率"這道商業(yè)門檻。
另一個(gè)細(xì)節(jié)耐人尋味:HappyHorse原生支持英語、普通話、粵語、日語、韓語、德語、法語的唇形同步。七種語言,覆蓋全球主要電商市場。
這不是技術(shù)炫耀,是場景預(yù)埋。唇形同步直接決定AI視頻能否進(jìn)入跨境電商、品牌廣告等付費(fèi)意愿最強(qiáng)的B端場景。
Sora之死:技術(shù)煙花與商業(yè)現(xiàn)實(shí)
理解HappyHorse的突襲,必須先理解Sora的死亡。
今年3月34日(注:原文如此),OpenAI宣布關(guān)停Sora。所有人以為Seedance 2.0將一統(tǒng)天下,沒想到阿里橫插一刀。
Sora的關(guān)停與技術(shù)無關(guān)。據(jù)Appfigures估算,Sora上線以來應(yīng)用內(nèi)總收入僅約210萬美元,投入產(chǎn)出比接近2500:1。硅谷風(fēng)投機(jī)構(gòu)a16z合伙人Olivia Moore曬出的SensorTower監(jiān)測顯示:Sora APP的30天用戶留存率1%,60天留存率0%。
「如此低的留存率,顯然不符合商業(yè)應(yīng)用的要求。」
資本對無法變現(xiàn)的技術(shù)突破,態(tài)度已經(jīng)足夠冷酷。正在籌備上市的OpenAI,只能砍掉這顆"技術(shù)煙花",甚至退回和迪士尼的10億美元合作款項(xiàng)。
Sora的教訓(xùn)被行業(yè)反復(fù)咀嚼:視頻大模型不是獨(dú)立賽道,而是世界模型和多模態(tài)融合的階段性里程碑。能做出視頻的公司,理論上可以把技術(shù)遷移到任何需要時(shí)空預(yù)測能力的垂直領(lǐng)域——前提是,有足夠多優(yōu)質(zhì)真實(shí)數(shù)據(jù)。
OpenAI關(guān)停Sora,也是為了集中精力推進(jìn)世界模型研發(fā)。畢竟從DiT架構(gòu)的演進(jìn)邏輯看,下一步很可能是Omni-Model(全模態(tài)模型)。視頻只是在時(shí)間維度上插了幀,喂入了大量物理世界因果片段。
這個(gè)判斷,阿里顯然認(rèn)同。但阿里的打法更務(wù)實(shí):先拿下視頻這個(gè)"最低門檻"的驗(yàn)證場景,再圖其他。
三國殺格局:字節(jié)、阿里、快手的差異化卡位
AI視頻賽道,中國公司已拿下全球主導(dǎo)權(quán)。三國殺格局雛形初顯。
字節(jié)Seedance 2.0的節(jié)奏感最強(qiáng)。先用"寵物貓狗暴揍哥斯拉"等病毒模板引爆社交媒體,完成零成本流量引爆和用戶教育;口碑和需求雙峰值時(shí),立即啟動商業(yè)化。
3月4日,火山引擎公布定價(jià):含視頻輸入場景28元/百萬tokens,不含視頻輸入46元/百萬tokens,折合純視頻生成成本約0.95元/秒。4月2日面向企業(yè)開放API申請。4月14日全面開放。
據(jù)極客公園測算,Seedance 2.0生成15秒視頻的可用率或達(dá)90%,相較行業(yè)此前約20%的平均值,提升幅度顯著。技術(shù)實(shí)力與商業(yè)可用性的雙重突破,是其爆火的根基。
但HappyHorse的截胡,暴露了Seedance 2.0的脆弱性:技術(shù)領(lǐng)先窗口期,比想象中更短。
快手可靈AI 3.0則是另一條路線——財(cái)報(bào)驗(yàn)證的變現(xiàn)能力。2025年第四季度,可靈AI營業(yè)收入3.4億元;2025年12月單月收入突破2000萬美元,年化收入運(yùn)行率(ARR)達(dá)2.4億美元。
可靈的底牌是"數(shù)據(jù)-場景"閉環(huán)。抖音系的視頻流數(shù)據(jù)涵蓋人物行為、物體運(yùn)動、場景交互等多維動態(tài)信息,每一幀都是真實(shí)世界規(guī)律的記錄。用這種優(yōu)質(zhì)數(shù)據(jù)訓(xùn)練的垂直AI,天然贏在起跑線。
HappyHorse的底牌則是"人"。張迪——快手可靈和阿里HappyHorse的共同之父——不僅懂技術(shù),更懂業(yè)務(wù)。從他的職業(yè)履歷就能看出,他擅長把業(yè)務(wù)思維注入技術(shù)研發(fā)。
七種語言的唇形同步,是業(yè)務(wù)思維的技術(shù)顯影。跨境電商、品牌廣告、本地化內(nèi)容,這些付費(fèi)場景被提前寫進(jìn)產(chǎn)品基因。
三家的差異化已然清晰:字節(jié)強(qiáng)在工程化和運(yùn)營節(jié)奏,快手強(qiáng)在數(shù)據(jù)資產(chǎn)和變現(xiàn)驗(yàn)證,阿里強(qiáng)在技術(shù)架構(gòu)創(chuàng)新和場景預(yù)埋。
視頻:AI嵌入現(xiàn)金牛領(lǐng)域的唯一模態(tài)
為什么三家巨頭死磕視頻?流量邏輯給出了答案。
ChatGPT(文本)的月活是億級,TikTok(視頻)的日活是十億級。人類天生懶于閱讀文字,樂于消費(fèi)視頻。字節(jié)能深入所有互聯(lián)網(wǎng)巨頭的業(yè)務(wù)腹地,正是因?yàn)樽プ×艘曨l這個(gè)關(guān)鍵點(diǎn)。
更深層的判斷是:視頻是AI目前唯一能無縫嵌入娛樂、社交、電商三大現(xiàn)金牛領(lǐng)域的模態(tài)。
文本大模型的商業(yè)化,困于"工具屬性"——用戶用完即走,付費(fèi)意愿集中在生產(chǎn)力場景。視頻大模型則天然具備"內(nèi)容屬性",娛樂消費(fèi)、社交傳播、電商轉(zhuǎn)化,每一條路徑都有成熟的變現(xiàn)基礎(chǔ)設(shè)施。
阿里的目標(biāo),顯然不止于做一個(gè)受歡迎的視頻生成工具。視頻是AI大模型很好的垂直應(yīng)用方向,但更是通往世界模型的跳板。
HappyHorse的單流Transformer架構(gòu),如果能在視頻-音頻聯(lián)合建模上跑通,理論上可以擴(kuò)展到更多模態(tài)的聯(lián)合建模。這才是阿里愿意投入重兵的戰(zhàn)略意圖。
字節(jié)和快手同樣心知肚明。Seedance 2.0的急迫開放、可靈AI的財(cái)報(bào)亮眼,都是在爭奪同一張船票——誰能先讓視頻大模型從"玩具"變成"工具",誰就能在世界模型的下一階段競賽中占據(jù)先機(jī)。
投資邏輯的冷酷轉(zhuǎn)向
Sora的死亡、HappyHorse的突襲、Seedance 2.0的急轉(zhuǎn)彎,共同指向一個(gè)趨勢:AI產(chǎn)業(yè)投資邏輯正在發(fā)生冷酷轉(zhuǎn)向。
無論是公司內(nèi)部資金還是外部資本,都在流向更能垂直應(yīng)用、快速變現(xiàn)、貢獻(xiàn)ROI的地方。B端和C端用戶的付費(fèi)決策,同樣遵從這個(gè)底層邏輯。
技術(shù)突破本身不再值錢。值錢的是技術(shù)突破能否轉(zhuǎn)化為商業(yè)可用性,能否在真實(shí)場景中產(chǎn)生可量化的價(jià)值。
Seedance 2.0的90%可用率、可靈AI的2.4億美元ARR、HappyHorse的七種語言唇形同步,都是在回應(yīng)這個(gè)冷酷現(xiàn)實(shí)。
OpenAI退回迪士尼10億美元合作款,是舊邏輯的退場;阿里認(rèn)領(lǐng)HappyHorse、字節(jié)緊急開放API,是新邏輯的登場。
2024年以來,AI視頻生成模型實(shí)現(xiàn)從"玩具"到"工具"的質(zhì)變,核心驅(qū)動力正是底層技術(shù)范式的轉(zhuǎn)變——從基于海量數(shù)據(jù)統(tǒng)計(jì)的模式匹配,升級為對物理世界規(guī)律進(jìn)行模擬與理解的"世界模型"。
物理合理性與長期一致性,這兩道曾經(jīng)無法逾越的鴻溝,正在被逐步填平。而填平的方式,不再是實(shí)驗(yàn)室里的技術(shù)炫技,而是商業(yè)場景中的反復(fù)打磨。
誰將定義下一個(gè)標(biāo)準(zhǔn)?
三國殺格局已定,但勝負(fù)遠(yuǎn)未分明。
字節(jié)的優(yōu)勢在于工程能力和運(yùn)營節(jié)奏,快手的優(yōu)勢在于數(shù)據(jù)資產(chǎn)和變現(xiàn)驗(yàn)證,阿里的優(yōu)勢在于技術(shù)架構(gòu)創(chuàng)新和全球化場景預(yù)埋。
HappyHorse的登頂,證明了單流Transformer架構(gòu)的潛力;Seedance 2.0的急轉(zhuǎn),證明了字節(jié)生態(tài)卡位的決心;可靈AI的財(cái)報(bào),證明了數(shù)據(jù)-場景閉環(huán)的商業(yè)價(jià)值。
但真正的決戰(zhàn),可能還在下一階段。當(dāng)DiT架構(gòu)演進(jìn)為Omni-Model,當(dāng)視頻大模型進(jìn)化為世界模型,今天的技術(shù)路線選擇將決定明天的生態(tài)位。
阿里押注單流架構(gòu)的聯(lián)合建模能力,字節(jié)押注工程化落地的規(guī)模效應(yīng),快手押注數(shù)據(jù)資產(chǎn)的護(hù)城河——三種路線,三種信仰。
唯一確定的是,中國公司已經(jīng)拿下全球AI視頻賽道的主導(dǎo)權(quán)。OpenAI的退守,讓出了最肥沃的戰(zhàn)場。
而當(dāng)HappyHorse以七種語言的唇形同步預(yù)埋跨境電商場景,當(dāng)Seedance 2.0以0.95元/秒的定價(jià)橫掃中小企業(yè)市場,當(dāng)可靈AI以2.4億美元ARR驗(yàn)證變現(xiàn)模型——我們看到的不僅是三家公司的戰(zhàn)術(shù)博弈,更是一個(gè)行業(yè)的成熟標(biāo)志。
AI視頻,終于從"技術(shù)煙花"變成了"商業(yè)基礎(chǔ)設(shè)施"。
下一個(gè)問題是:當(dāng)視頻大模型成為標(biāo)配,什么會成為新的差異化壁壘?是更極致的長期一致性,還是更深度的場景嵌入,抑或是更激進(jìn)的多模態(tài)融合?
張迪的下一站,會把這個(gè)答案寫得更清楚一些嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.