![]()
有消息稱,字節跳動視頻生成模型Seedance 2.1將于近期發布,預計生成效果較2.0版本提升20%。字節對字母AI表示,此消息為假消息。
雖然Seedance 2.1未必會于近期發布,但是Seedance 2.0在海外熱度大漲卻是真的。
原因在于,周末,一篇標題為《中國人工智能企業在視頻生成競賽中領跑美國對手》(Chinese AI groups pull ahead of US rivals in video generation race)的文章在海外刷屏了。
文章以Seedance 2.0和可靈3.0為核心論據,得出了一個讓人意外的結論“中國在AI視頻生成領域,不僅領先于美國,而且這個優勢還將永遠保持下去。”
![]()
這個判斷聽起來多少有點反直覺,它更像是一種對中國AI的吹捧。畢竟過去幾年,AI行業從來都是硅谷先推出某種產品,然后才有中國類似的產品,這點我們有目共睹。
但閱讀完外媒的觀點后我發現,確實是我想的太片面了,中國AI視頻生成這塊,還真就領先于美國。
文章中特地采訪了幾位美國AI創業者,以及使用AI視頻生成技術的電影制作人,結果就是,大家一致認為中國的AI視頻工具已經全面超越了美國同行。
更關鍵的是,這種領先不是那種階段性的技術領先,而是一種全面領先,從數據到落地,每一個環節都領先。
不光如此,這個領先是那種“無法被超越”的領先。也就是說,這個領先地位會一直保持下去。
遙遙領先成真了?
01
中國AI為何將永遠領先于美國AI?
文章的一個論據是,在AI視頻生成領域,算法層面的差距正在快速縮小。
當前各家公司在技術架構上已經“大差不差”了。Transformer、擴散模型、時空注意力機制,這些底層技術路線已經相對透明。
所以關鍵問題就在于,誰掌握的訓練數據質量更高、數量更多。
這正好撞上了字節和快手最擅長的地方。 抖音、快手本來就是全球最大的視頻生產機器之一。
更重要的是,這些數據帶有完整的用戶行為標注。
哪些視頻被點贊收藏轉發、哪些視頻完播率高,后臺數據一目了然。
而且這些標注不需要人工打標,它都是用戶真實行為自然生成的。這種帶標注的高質量數據,你在市場上花錢都不一定買得到的。
相比之下,OpenAI和Anthropic是沒有視頻數據積累的。
OpenAI在推出Sora時,主要依賴的是從互聯網爬取的公開視頻數據,以及部分授權的影視素材。
問題就是,互聯網上的公開視頻往往質量參差不齊,有大量的重復內容、低質量內容,甚至是帶有水印和廣告的二次加工內容。
所以在訓練過程中,經常出現事倍功半的情況。
在全球評測平臺Artificial Analysis上,字節的Seedance 2.0、快手的可靈3.0,與阿里的HappyHorse一起,這三款中國工具包攬了文生視頻和圖生視頻榜單的前幾名。
這個榜單是由真實用戶投票產生的,這也就是說,大家都覺得這三家AI視頻生成的內容好看。
雖然谷歌既有Youtube作為數據源,也有視頻生成模型Veo 3。
但谷歌的問題就在于約束太多,Youtube上視頻時長又普遍超過5分鐘,但是現在的GPU還沒辦法容得下那么長、那么高清的視頻作為訓練數據,這會導致模型在訓練過程中出現故障。
這就導致Veo 3的市場反響并沒有很好,低于Seedance 2.0和可靈3.0這樣的中國AI視頻生成模型。
Director AI創始人Ben Chiang表示。“我們嘗試過的大多數美國模型,但是在視頻生成方面表現都不夠好”。所以他目前主要使用可靈、Seedance 2.0和海螺等中國工具進行創作。
獨立AI電影制作人George Won表示“Seedance 2.0是一個改變游戲規則的工具。它能處理激進的鏡頭角度和速度,而不會丟失角色的面部細節或光影對比。大多數AI模型在快速運動時會開始搖晃或漂移。”
![]()
而且這種數據優勢還能讓產品進行“自我強化”。
字節已經將Seedance 2.0整合進了剪映等創作工具,因此字節每天還能獲得超過5000萬條生成視頻的反饋數據。
這樣一來,字節就能知道說“這條視頻是用戶滿意的,這條是用戶不滿意的”。
每收到一條這樣的反饋,下一代Seedance產品的發展方向就更明確一點。
這種持續的、大規模的、真實場景下的反饋循環,同樣也是OpenAI和Anthropic那樣的實驗室環境無法比擬的。
即便投入再多資源,也很難在短期內建立起類似的數據飛輪。
技術可以追趕,算法可以模仿,但生態和數據的積累需要時間,需要用戶基礎,需要一個完整的產品閉環。
02
落地場景
企業發展AI視頻,它得有一個“目的”。
數據優勢只是起點,真正讓技術變成競爭力的,是找到能賺錢的應用場景。有了落地場景,企業才能有動力去發展AI視頻生成。
在這個維度上,字節和快手同樣優于美國AI。
第一個大規模落地的場景是電商視頻。
過去,為一個商品拍攝一條專業視頻的成本高達數千元。包括攝影師、燈光師、場地租賃、模特費用、后期剪輯等等。
對于大多數中小商家來說,一個普通的淘寶店鋪可能有幾百個商品,全拍下來至少幾十萬元成本。
AI視頻生成技術改變了這一現狀。
視頻基礎設施公司Firework的CEO Vincent Yang表示“一家零售商要求我們為其產品頁面創建10萬個視頻。如果沒有AI,這在成本上是完全不可行的。現在,每個產品都可以擁有自己的視頻,甚至可以針對不同客戶定制多個版本。”
數據顯示,帶有視頻的商品頁面轉化率比純圖文頁面高出30%到80%,而且抖音和快手本身就是中國最大的電商直播和短視頻帶貨平臺之一。
AI生成好了視頻,出門右轉就能直接投放。
阿里的HappyHorse模型也明確將電商視頻作為核心落地場景。它支持商品展示短視頻、虛擬主播口播視頻的批量生成。一個商家可以上傳商品圖片和簡單的文字描述,系統就能自動生成多個版本的帶貨視頻,每個版本針對不同的目標人群,使用不同的話術和展示方式。
![]()
第二個場景是廣告。
傳統TVC(電視商業廣告)制作周期太長了。
一條30秒的品牌廣告,從創意策劃到拍攝制作,往往需要好幾周。
有了視頻生成模型,幾分鐘就能生成幾十個不同版本的廣告創意。
第三個場景是短劇。
AI短劇在2026年迎來了爆發式增長。數據顯示,2026年3月AI短劇在播數量較1月增長了138%,遠超傳統影視內容的制作速度。
通過AI視頻生成,一個小團隊甚至個人創作者,幾天內就可以創作出來一部短劇。
還沒完,字節旗下的紅果短劇平臺還接入了“識圖找同款”功能。
這個功能很好理解,你看短劇的時候,如果對劇中角色的穿搭、場景中的家具、門口停的汽車感興趣,可以直接點擊識圖,系統會推薦同款商品,直接下單購買。
相當于是把短劇變成了一個可以帶來轉化的商業場景。
反觀美國市場,雖然有Netflix、YouTube等內容平臺,但沒有任何落地和轉化。
美國的AI視頻工具更多停留在創意實驗階段,唯一的商業落地場景就是訂閱會員。
而且就產品功能上來說,也是中國視頻生成模型更適合商業落地。
Seedance 2.0可以把多張素材照片、視頻、聲音都放進同一個AI視頻里,Sora就不行,只能通過給模型指定一張圖和文字來生成視頻。
這不是因為Sora的技術不夠好,而是因為它缺少一個完整的商業生態來承接這些技術能力。
03
算力鴻溝
但中國視頻AI也有一道繞不過去的坎,那就是算力。
美國頭部AI是視算力為黃金,收割市面上能買到的所有算力。
Anthropic近期簽訂的算力協議總計超過10吉瓦。
這個數字包括租下SpaceX Colossus 1數據中心的全部算力,涵蓋22萬張英偉達GPU;與亞馬遜的5吉瓦協議;以及與谷歌和博通的3.5吉瓦協議。
OpenAI同樣如此。
通過與微軟的深度合作,OpenAI獲得了數十萬張高端GPU的使用權,微軟還為OpenAI專門建設了多個超大規模數據中心。
相比之下,雖然中國企業在算法效率優化上取得了顯著進展,但在絕對算力規模上仍存在差距。
根據外媒統計,中美在AI算力上的差距在2023年時約為3倍,到2026年初已經擴大到8倍左右。
除了算力,中國AI還有其他難題。
第一個就是版權了。
![]()
以Seedance 2.0為例,在剛發布一個月左右,迪士尼、華納兄弟、派拉蒙、Skydance、Netflix等6家好萊塢巨頭聯合向字節發送停止侵權函,他們稱Seedance 2.0在訓練階段,未經授權大規模使用受版權保護的影視素材。
隨后,字節緊急暫停原定于3月中旬的Seedance 2.0全球發布計劃。
如果你從2月份一直使用Seedance 2.0到現在就會發現,以前可以生成的IP角色,現在都不能使用了,轉而只能使用“路人”形象。
第二個是商業化門檻正在抬高。
以Sora為代表的美國視頻生成AI,經常會因為使用條款拒絕生成請求,中國工具更寬限,而且價格也更便宜。
但這也為中國AI公司們帶來了”幸福的煩惱“。
Seedance 2.0自2月以來使用需求激增,一些用戶已經遇到額度受限和排隊時間變長的問題。
外媒稱,字節對部分美國企業客戶采取了更重的商業化方式,要求客戶預先支付約200萬美元,用于換取模型訪問權限和使用額度。
快手方面也是一樣的,他們正在拆分可靈業務,未來可能推動可靈單獨上市。
這說明可靈是獨立業務,有比快手主體更強的增長故事。
增長故事說得越大,賬就越要算得清楚。
不過AI視頻的成本更高一些。用戶生成一段幾秒鐘的視頻,背后消耗的算力遠高于生成一段文字。
生成的視頻質量越高、時長越長,推理成本就越高。
很多視頻生成模型都是如此,一開始很便宜,甚至免費,等用戶涌進來后,很快就開始限額、排隊、漲價。
不是公司不想放量,是地主家也沒余糧了。
所以中國視頻AI接下來要面對的,不只是“能不能做出好模型”,而是“能不能把好模型變成一門好生意”。
如果價格太低,用戶增長越快,虧損越大;如果價格太高,沒有用戶,那就得不償失了。
第三個是模型能力代差。
歸根結底,視頻生成的能力是建立在語言模型之上的。
一個視頻生成模型再怎么牛,它也需要語言理解能力作為基礎,去理解用戶的提示詞。然后再用推理能力,來理解場景、角色的邏輯關系,并且保持生成內容的連貫。
根據外媒的評估,OpenAI的ChatGPT 5.5和Anthropic的Mythos已經將領先國內AI公司9個月至1年。
這個代差體現在多個方面,比如推理能力、上下文理解、多輪對話、復雜任務處理等。
雖然中國在AI視頻等垂直領域領先美國AI,但在通用大模型上,還是能感受到比較明顯的差距。
總的來說,中國AI在視頻生成領域的領先是實實在在的,但也不是高枕無憂。算力和基礎模型的差距始終是懸在頭上的劍。不過至少現在,我們終于不用再仰望硅谷的背影了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.