![]()
Photo by ChatGPT
?有界UnKnown原創
作者丨錢江
編輯|山茶
今天,一則折疊的聊天記錄,又引爆了AI圈。
起因是網友發現了一款名叫HappyHorse-1.0的新視頻生成模型,它不僅強,還很神秘。
強是因為,它能在AA排行榜(全稱artificialanalysis.ai)上超越Seedance2.0,成為全球第一。
![]()
而神秘的是,目前沒有人認領這款模型,其官網上也沒有任何與其身份相關的標識。
很多人看到這個模型,都不自覺問出曹操那句名言:"我原本以為呂布已經天下無敵了,沒想到有人比他還勇猛!這是誰的部將?"
![]()
于是,猜測HappyHorse-1.0的歸屬,成為今天行業里最熱鬧的話題。
當然,「有界UnKnown」也積極沖到了吃瓜前線,而我們在吃瓜過程中卻發現,HappyHorse不僅在能力上很突出,它爆火出圈這件事情,也充滿了人為操作的痕跡。
一切,可能都是一場精心設計的局。
![]()
HappyHorse,厲害在哪里?
作為橫空出世的黑馬,HappyHorse1.0自然有其厲害的地方,我們先說這個。
首先,和主流視頻模型不同,HappyHorse是開源的。
其次,它的參數僅有15B,比大多數模型都小,且8步即可完成超快推理(256p僅需2秒,即使是1080p也只需約38秒),正式上線時間在4月8日凌晨。
![]()
它主打的優勢主要落在兩點:生成速度快,以及優秀的音頻能力。
首先,是成速度很快。
在已有案例中,僅用一句提示詞和一張圖片,約一分鐘即可生成完整視頻。流傳的微信聊天記錄中,還也特意狠狠踩了一下即夢。
當然,生成速度快的背后,可能是用戶數還不多,所以不需要排隊。
![]()
其次,在音頻上的能力,HappyHorse也相對多數視頻模型有更明顯的進步。
第一,是環境音的匹配。
在HappyHorse的案例中,當腳踩到冰面上的時候,可以聽到“嘣”得一聲;當籃球進入投籃框的時候,會發出和框碰撞的聲音;咖啡師倒牛奶時,也能生成倒牛奶的聲音。
而之前許多AI生成的視頻,都容易出現音畫不同步,不匹配的情況。
更重要的是,HappyHorse的聲音并不是簡單疊加的背景音,而是與畫面中的動作形成了基本一致的對應關系。換句話說,聲音開始成為“視頻的一部分”,而不是后期補上的效果。
第二種是HappyHorse語言能力。
![]()
輸入提示詞后,模型可以直接生成對應語種的語音內容。根據官網信息,目前主要支持的語言是普通話、粵語、英語、日語、韓語、德語和法語。
最后,是在價格上。
HappyHorse采用的是積分制,提供按月、按年以及按需三種付費方式。
雖然網絡上大家都在說它的價格比Seedance 2.0便宜一半,但實際上幾乎是照著Seedance 2.0訂閱價格設置的,比Pixverse V6定價也更高,并沒有價格優勢。
![]()
而這些,都讓HappyHorse成為討論熱點。
人造的“黑馬”?
雖然關于HappyHorse的大多數的討論都是自然發生的,但種種跡象表明,從故意隱藏信息制造討論話題,到扔出折疊的聊天記錄曝光,引起討論,這完全可能是一場人為的,精心設計的傳播。
首先是榜單,一位在AI視頻企業工作的朋友表示,AA的排行榜是可以操作的,只要有預算,他們可以提前給到題目,在這個基礎上針對性優化樣本的話,拿到高分很容易。
而HappyHorse悄悄登頂,又快速撤下,現在市場流傳的都是截圖,這也給這個猜測制造了基礎。
特別是在幾乎一邊倒的贊揚聲之中,X也有一些網友表示,從生成的效果來看,真人感比較弱,所以也有可能Happyhorse的榜單是刷來的。
比如,有X網友發現,官網公布的demo雖然畫面不錯,但在物理性上表現有一些差距。比如在呈現快速運動時,仍然存在AI運動偽影,尤其是一些帶有條紋、線條的物體。
其次,HappyHorse因AA榜單登頂而火,前后不過兩天,其官網已經有完整的、關于為什么火的蹭熱點的展示,效率真的很高。
![]()
第三,目前全網流傳的素材十分單一。
「有界Unknown」試圖付費測試一下視頻,但多次嘗試之后沒有打開,其給到的免費積分不足以支持測試。
而現在網上流傳的視頻也十分單一,與之前在微信群里,通過折疊聊天記錄傳播的內容基本一致,而沒有新的,更多的視頻內容。
這就很有意思了,當全網都在說它比其他模型牛逼的時候,證據卻只有官方給到的視頻案例,確實有點意思。
而有趣的是,這個聊天記錄里,明里暗里地對標友商,突出對比,制造話題,不知道友商現在什么心情。
![]()
當然,這一切也都瑕不掩瑜。
退一萬步來講,即便這是一波精心策劃的營銷,但只要產品本身能打,剩下的一起都不是問題。
HappyHorse帶來了什么?
事實上,HappyHorse真的帶來了一些新的東西,一種新的技術范式。
現在主流的視頻生成模型,基本采用的方式都是先把視頻壓縮,再交給 Transformer 去一點點“去噪生成”。
而不同的企業在具體的操作上也有不同。
比較傳統的方式,也是現在的主流方式,是視頻和音頻先分開處理,再融合,如HunyuanVideo、PixVerse、早期的seedance1.0都是如此,它們會先把文本、視頻,或者空間、時間分開處理,后面再合到一起。
劍走偏鋒的方式的是優先提速,比如以色列的公司Lightricks開發的LTX,其重點不是結構多復雜,而是先把視頻壓得更狠,讓token變少,這樣生成更快。
![]()
而未來,行業逐漸演變的趨勢是:一套大主干統一生成。
過去,先分開處理,再融合的方式,在技術上,這通常被稱為“雙流(two-stream)”。
畫面和聲音分別由不同模塊生成,最后再通過對齊機制拼在一起。這也是為什么,在很多情況下,音畫雖然能夠對上,但仍然會有一絲不自然——因為它們從一開始就不是一起生成的。
而現在的一套大主干統一生成,則趨向于“單流(single-stream)”生成方式,即把畫面和聲音作為同一生成過程中的不同部分,一起完成。
也就是說,聲音不是后加的,而是和畫面一起“長出來”的。
這一差異,可以從具體效果中看到。比如腳踩冰面的破裂聲、籃球入框的碰撞聲,這些聲音不是簡單疊加,而是隨著動作同步出現,具有明顯的因果關系。
現在市面上最新的模型如Sora、Veo、Seedance2.0都在向這方面靠攏,這也是目前的技術方向。
HappyHorse采用的就是這個方向,但它做得更激進,更強調“全部放在一起統一處理”。(起碼在他們官網上是如此宣稱的)
這具體表現在:
1、結構上更統一,強調單流、無 cross-attention;
2、模態上更統一,不僅文本和視頻一起處理,連音頻也想一起納入;
3、推理上更激進、8步生成、強調低延遲,速度快。
用更直白的話說,視頻生成的效率更高了,如seedance排隊的情況可能會變少。一致性更好了,音話不同步,口型不同步,動作還得時序等問題都能有較好的提升。
HappyHorse是誰的部將?
Happy Horse之所以出圈,一半因為能力,另一半則是因為神秘。
關于它的“身份”,網上幾乎沒有給出任何有效信息。其官網的介紹也極為克制,只留下一句:“Happy Horse 1.0由Happy Horse團隊開發”。
HappyHorse越神秘,大家越好奇,于是大家都在互相打聽,HappyHorse究竟出自哪里,市面上也很快出現了多個猜測。
目前最被大家相信的,是來自張迪領銜的淘天集團未來生活實驗室。張迪此前曾負責快手Kling項目,再往前,則是阿里媽媽大數據與機器學習工程架構負責人。
關于這個來源,目前有很多信息,有一些自媒體還做出了報道,但官方還沒有肯定,也沒有權威信息來源。
在此之外,最開始被懷疑的,是快手系。
有人注意到,官網留下的了spaceship.com相關痕跡,而“spaceship”恰好與快手關聯公司商標重合,因此推測該項目可能出自快手。
![]()
第二個被懷疑的,是騰訊系,或者Grok(因為都跟馬有關)。
事實上,我們之前懷疑是愛詩,但溝通后對方否認了這件事情,并反向猜測可能與騰訊有關。我們后來在X上也找到了一些蛛絲馬跡,微信曾在去年8月于X上發布過一條帖子,刻意提及 “HappyHorse” 關鍵詞。
![]()
在此之外,還有一些更“輕量”的猜測:比如來自阿里WAN2.7,因為名字有horse(馬),所以和“馬(云)”有關;還可能是Minimax,理由是他們“喜歡用動物命名”。
還有一類更具體的說法:認為HappyHorse的幕后團隊,可是上海創智學院(SII)生成式人工智能研究實驗室(GAIR)與Sand.ai聯合研發的daVinci-MagiHuman項目的一部分。
因為其官網公布的150億參數、支持的語言等能力,與SII-GAIR在github上公布的文件“daVinci-MagiHuman”直接吻合。
![]()
但無論HappyHorce最終歸屬于誰,這明顯都是一次成功的營銷。
當一個模型在能力上足夠“出挑”,但信息又足夠模糊時,市場會腦補它一個身份,撲朔迷離的身份攢足了好奇心,也是一種有利的營銷方式。
但如果這是一場有組織的傳播行為,那么有一個相對明確的判斷是:它大概率不是字節跳動。因為幾乎所有版本的對比和敘事,都是在直接對標seedance 和即夢。
所以,它到底會是誰呢?我們就坐等謎底揭曉吧。
* 文中配圖來源于網絡
歡迎添加微信:cyxx-z
加入「有界UnKnown」科技交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.