![]()
這兩天,生數科技、愛詩科技相繼傳出要港股IPO的消息。
這個節奏,有點不講道理。
兩家公司都成立于2023年。也就是說,不到三年,就從0走到了IPO門口。
更微妙的是,就在不久前,OpenAI剛剛關停了 Sora,把資源轉向其他方向。
一邊是加速上市,一邊是主動收縮。同一個賽道,中美走出了兩條完全相反的路徑。
美國這邊,不只是OpenAI,Runway在轉型,Pika融資停滯,視頻模型整體在降溫。
而中國這邊,不僅錢還在流入,結果也開始兌現。生數、愛詩今年都完成了10億級融資,估值跨過10億美元門檻。
模型能力上,用a16z的話說,即使在 即夢 Seedance發布之前,可靈、海螺、愛詩這些中國模型,就已經在輸出質量上形成領先。
至少在視頻模型這個賽道上,中國已經開始出現“群體性領先”。這在整個AI競爭里,是第一次。
那么問題來了,這件事,到底是怎么發生的?
中國加碼,美國退場
過去一年,AI視頻這件事,中美出現了一次很微妙的分岔。
一邊在退,一邊在加碼。
先看美國。上個月,OpenAI關掉了Sora,對外的說法是,把資源轉向下一代模型。
這件事的信號其實很明確,在資源有限的情況下,視頻沒有被優先選擇。
隨著OpenAI退出,所謂“AI御三家”里,真正還在持續投入視頻模型的,只剩谷歌。
巨頭在退,創業公司的表現也沒好到哪去。
Runway,最早一批做AI視頻的公司,已經轉型去做平臺,把各家模型接進來,自己不再重投模型研發。上一次發布視頻模型,還停留在去年12月。
另一家AI視頻明星公司Pika,最近一輪融資還停留在2024年6月。
美國放棄視頻模型的原因很簡單,跟不上了。
但就在美國這邊集體啞火的同時,中國這邊,正在上演一場截然相反的戲碼。
2026年3月,愛詩科技拿下3億美元融資,直接沖進獨角獸;一個月后,生數科技完成近20億元B輪融資,估值逼近20億美元。
就連美國最頂級的風投a16z,在今年3月發布的全球AI產品Top100里,也不得不承認:
即使在 即夢 Seedance發布之前,可靈(Kling AI)、海螺(Hailuo)、愛詩(PixVerse)都建立了真實的用戶牽引力,中國開發的模型在輸出質量上持續領先。
這可是a16z,美國本土最能打的VC,親口說的。
再看Artificial Analysis的實時榜單,截至2026年4月,Dreamina Seedance 2.0、Kling 3.0、SkyReels V4、PixVerse V6,這些中國模型長期霸占文本轉視頻、圖生視頻的前列。
可以毫不夸張的說,在視頻模型這個賽道上,中國已經形成了“群體性領先”,這也是中國在AI競爭里第一個拿到明確領先的賽道。
那么問題來了,為什么是中國?
一個很重要的原因是,中國短視頻平臺強大的分發能力,帶來了超短反饋回路,讓視頻模型的商業價值更容易被驗證。
根據《中國網絡視聽發展研究報告(2026)》,截至2025年12月,中國用戶人均每天刷短視頻的時長是129分鐘,而去年美國用戶在TikTok每天花的時間只有58分鐘。
也就是說,中國用戶每天刷短視頻的時間,是美國人的兩倍還多。
高密度的使用場景,為視頻模型廠商帶來快速迭代的環境。最終,在商業層面得到了率先兌現。
可靈2025年營收做到10.4億元,遠超年初目標;到2026年初,ARR超過3億美元;愛詩ARR超過4000萬美元,生數也做到2000萬美元級別。
AI視頻不會被贏家通吃
即使巨頭已經下場,投資人還愿意押注視頻模型創業公司,一個很重要的原因是:
視頻模型短期內無法“大一統”,不會出現贏家通吃的局面。
視頻模型不會像通用模型那樣高度集中,反而更可能長期處在“分裂態”——沒有絕對統一的最優解,不同場景對應不同模型,各自做到局部最優。
原因很簡單,目前,視頻模型的競爭,更像是不同團隊在不同方向上做強化選擇。
不同模型擅長的能力完全不一樣。有的擅長動作,比如打斗;有的擅長情緒,比如人物表情;有的擅長畫面質感,比如CG效果。
所以,在實際制作里,同一個視頻,不同鏡頭,往往需要不同模型。比如,一個8鏡頭的視頻,可能要拆成8段,每一段用最合適的模型生成,最后再拼起來。
數據也在印證這一點。fal的數據顯示,企業在媒體內容生產里,平均會用到14個模型。而在語言模型領域,前三家就占了將近90%的預算。
為什么視頻模型這么難統一?
一方面,訓練數據、標注方式不同,導致每個模型天然有風格差異。
原因很簡單,不同公司拿到的數據源本身就不一樣。
有的偏影視級素材,有的偏短視頻內容,有的偏動漫,有的偏游戲資產。這些數據不僅在畫面風格上差異巨大,在鏡頭語言、節奏、構圖甚至“審美取向”上也完全不同。
模型在訓練過程中,本質上是在“學習這些數據里的規律”。
你喂給它什么,它就會更像什么。所以,一個偏電影鏡頭訓練出來的模型,天然更擅長敘事和調度;
一個吃短視頻數據長大的模型,更容易做出強節奏、高刺激的內容。這不是后期能輕易調回來的,而是“底子”決定的。
另一方面,即便是同一個模型,只要輸入稍微變化,結果就完全不同。
OiiOii 創始人鬧鬧在調教 Sora 時就遇到過一件事:同樣的模型,僅僅因為輸入從“單元素”變成“帶場景圖”,生成結果就出現了明顯變化。
也就是說,視頻生成的結果,不只取決于模型能力,更是“輸入 + 流程”的共同產物。
回到行業視角,視頻模型賽道的機會,其實在兩個方向:
第一,做“單點極強”的模型。比如專注物理模擬、動漫風格、多鏡頭敘事等,把某一個能力做到極致。
第二,做“把復雜變簡單”的編排層。把原本需要十幾個模型、幾十步流程的事情,壓縮成一個可調用的系統。
所以,視頻模型賽道的機會,也在這里被重新定義了:
并不需要去賭“誰會成為下一個OpenAI”,而是看誰能在這條復雜的生產鏈條里,占住關鍵位置。
無論是模型能力、工具層,還是編排與交付,每一層都有可能成為獨立的價值節點,而不是被單一平臺完全吞并。
這也意味著,這個賽道的競爭邏輯,并不會快速收斂到少數幾家公司,而更可能在較長一段時間內維持多點分布的格局。
從這個角度看,視頻模型或許是少數仍處在“結構尚未固化”的 AI 賽道——路徑還在探索,分工仍在形成,格局遠未定型。
文/阿奇
PS:如果你也在尋找投資AI資產的機會,歡迎掃碼加入我們的交流群。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.