亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)硅谷轉(zhuǎn)向「世界模型」,中國視頻公司選擇先把錢賺了丨對(duì)話 Sand.ai

0
分享至


這家兩個(gè)月達(dá)成千萬美金 ARR 的團(tuán)隊(duì),認(rèn)為音樂才是 AI 視頻的入口。


整理|曹思頎

采訪|張鵬 曹思頎

2026 年,在以 OpenClaw 為代表的 Agentic AI 成為整個(gè) AI 圈「超級(jí)共識(shí)」的同時(shí),視頻模型卻開始走向另一種分化。

在美國,OpenAI 已關(guān)閉 Sora 的獨(dú)立產(chǎn)品形態(tài),視頻生成在其當(dāng)前優(yōu)先級(jí)里明顯后撤;Runway、Luma AI 等創(chuàng)業(yè)公司也開始把敘事的中心轉(zhuǎn)向「世界模型」。

而國內(nèi)則呈現(xiàn)另一番景象:視頻模型正在成為大廠下一階段必爭的多模態(tài)能力。無論是字節(jié)旗下的即夢(mèng),還是快手旗下的可靈,這類視頻生成產(chǎn)品正在從大眾娛樂場景,進(jìn)一步滲透進(jìn)付費(fèi)意愿更強(qiáng)的專業(yè)創(chuàng)作者群體。

Sand.ai 是這輪分化里一個(gè)值得觀察的創(chuàng)業(yè)樣本。他們的核心產(chǎn)品 VidMuse 主打「Music in,Video Out」的產(chǎn)品形態(tài),把音頻放到產(chǎn)品最核心的輸入位置。據(jù)了解,VidMuse 自年初上線以來,ARR(年度經(jīng)常性收入)已超千萬美金。

近期,Sand.ai 宣布完成了新一輪約 5000 萬美元的融資,極客公園也和 Sand.ai 創(chuàng)始人曹越、VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake 進(jìn)行了當(dāng)面溝通。在 Sand.ai 看來,音樂的重要性并不因?yàn)樗鼘?duì)應(yīng)某一類內(nèi)容或用戶,而在于它可能成為 AI 時(shí)代視頻創(chuàng)作更底層的輸入起點(diǎn),也天然連接著更強(qiáng)的創(chuàng)作意愿。

與此同時(shí),Sand.ai 還堅(jiān)定地選擇了既做產(chǎn)品又做模型的「雙輪驅(qū)動(dòng)」路徑:先用市場上效果最好的模型為產(chǎn)品找到 PMF,再用自家的模型回到關(guān)鍵節(jié)點(diǎn)換效果、換成本、換毛利。無論從精力、能力還是資源上看,這都不是一條輕松的路。但在曹越看來,這恰恰是創(chuàng)業(yè)公司相對(duì)巨頭的一種優(yōu)勢:在這里,模型和產(chǎn)品更容易服務(wù)于同一個(gè)目標(biāo),而不會(huì)彼此分裂。

而這條路徑真正指向的,不只是一個(gè)更強(qiáng)的視頻生成工具,而是一個(gè)能夠長期協(xié)作的「數(shù)字制片團(tuán)隊(duì)」。在 Video Agent 這種新的產(chǎn)品形態(tài)下,用戶更像一個(gè)「出資方」:不再需要充當(dāng)導(dǎo)演反復(fù) prompt 獎(jiǎng)戲,而是可以把創(chuàng)作目標(biāo)安心托付給一個(gè)能夠長期信賴、持續(xù)調(diào)用的創(chuàng)作伙伴。

以下是整理后的訪談內(nèi)容:

01

視頻模型生成的「中美分野」

極客公園:你們關(guān)注到最近很火那個(gè) HappyHorse 了嗎?

曹越:看到了,還挺有意思的,好多人拿推特上一個(gè)分析的帖子來問這個(gè)是不是我們的模型。我后來發(fā)現(xiàn),是有個(gè)網(wǎng)站上面就直接把我們 Magihuman tech report(Sand.ai 最新開源的模型)內(nèi)容轉(zhuǎn)成網(wǎng)頁,名字是 HappyHorse。(笑)不過我們的新模型在訓(xùn)練中,會(huì)盡快推出,很大概率會(huì)直接開源出來,希望整個(gè)行業(yè)一起加速推動(dòng)。

極客公園:所以是個(gè) fake news。但最近你們一邊內(nèi)測新產(chǎn)品 VidMuse 2.0,一邊開源了一個(gè)基模,在外部看來是個(gè)有點(diǎn)反共識(shí)的決定。今天大家都在強(qiáng)調(diào)商業(yè)化和閉源,你們?yōu)槭裁催x擇開源?

曹越:我覺得開源的本質(zhì)之一是提升品牌價(jià)值,有的時(shí)候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源,大家一開始也未必能想到帶來了那么好的效果,起到了很好的作用。

對(duì)我們來說,去年 4 月我們發(fā)布 Magi-1 的時(shí)候,就開源了那個(gè)模型,算是最早開始探索世界模型的團(tuán)隊(duì)吧,Magi-1是自回歸視頻基礎(chǔ)模型。子賀當(dāng)時(shí)還在北歐讀書,也是看到這個(gè)開源模型之后找到我們的。

極客公園:今天很多投資機(jī)構(gòu)也是在 GitHub 上通過開源項(xiàng)目找創(chuàng)業(yè)者。所以視頻模型這個(gè)賽道,今天發(fā)展到了什么階段?

曹越:這件事已經(jīng)進(jìn)入了一個(gè)「節(jié)奏分化」的階段:有些方向會(huì)先成熟,有些方向會(huì)更晚成熟。現(xiàn)在最明確已經(jīng)成立的,是用視頻模型來替代實(shí)拍。

過去如果要做一段內(nèi)容,需要租場地、燈光、演員,再進(jìn)入拍攝流程;現(xiàn)在則越來越多地變成「寫好 prompt,點(diǎn)擊生成」。這一能力首先服務(wù)的是一群本來就在做內(nèi)容生產(chǎn)的專業(yè)創(chuàng)作者,幫助他們替代過去的實(shí)拍環(huán)節(jié)。

因此,現(xiàn)階段最成熟的不是泛娛樂消費(fèi),而是有明確目標(biāo)的內(nèi)容生產(chǎn)。隨著模型能力變強(qiáng),這部分創(chuàng)作者使用 AI 的比例在持續(xù)提高,而且這類人本來就有生產(chǎn)需求、也更愿意付費(fèi)。過去接近兩年里,可靈、Runway、Seedance 的增長,都是建立在這類場景之上,典型應(yīng)用包括短視頻內(nèi)容、廣告電商、短劇等泛內(nèi)容生產(chǎn)。

極客公園:中美對(duì)待視頻模型的整體態(tài)度,有什么不同?

曹越:我認(rèn)為,中美團(tuán)隊(duì)的差異實(shí)質(zhì)上來自過去十年的產(chǎn)業(yè)和產(chǎn)品環(huán)境不同。

在北美,過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走,真正以 C 端產(chǎn)品為核心的創(chuàng)業(yè)公司相對(duì)少,因此大量創(chuàng)業(yè)公司更習(xí)慣在 ToB SaaS 上掙錢。

而過去十年,微信、短視頻等產(chǎn)品形態(tài)是中國最熱的產(chǎn)品,因此整個(gè)市場對(duì) ToC 場景的感知更強(qiáng)。所以,在視頻生成這件事上,中國公司會(huì)更重視它的價(jià)值,也更相信它能很快產(chǎn)生商業(yè)回報(bào)。

某種程度上,我理解 OpenAI 停掉 Sora,可以看成把更多算力資源傾斜到了 coding 這個(gè)方向。相較之下,中國公司看起來更重視視頻生成,因?yàn)樗呀?jīng)是除 coding 之外最明確的大場景之一,而且商業(yè)價(jià)值也更容易被驗(yàn)證。


Sand.ai 創(chuàng)始人曹越,此前曾任光年之外聯(lián)合創(chuàng)始人 | 圖片由受訪者提供

極客公園:具體到大公司和創(chuàng)業(yè)者,他們都做了什么?你有關(guān)注美國那邊 Runway 最近的動(dòng)作嗎?

曹越:我們其實(shí)沒有特別關(guān)注 Runway。因?yàn)榭雌饋恚麄冊(cè)凇该嫦騽?chuàng)作者的純視頻生成」產(chǎn)品層面,似乎沒有再進(jìn)行特別大規(guī)模的投入,整體敘事越來越偏向「世界模型」,包括 Luma AI 也是這樣的。相比繼續(xù)強(qiáng)化產(chǎn)品,美國的創(chuàng)業(yè)者更聚焦在強(qiáng)化模型,以及模型繼續(xù)演進(jìn)的方向。

極客公園:所以他們是「弱化產(chǎn)品、強(qiáng)化模型」?

曹越:對(duì),硅谷我認(rèn)為是這個(gè)趨勢。

在中國,產(chǎn)品則會(huì)更快地進(jìn)入商業(yè)化階段。以 Seedance、可靈為代表,中國的視頻模型可以更快實(shí)現(xiàn)付費(fèi)的閉環(huán)。不過,雖然在語言模型上,國內(nèi)和國際最領(lǐng)先水平仍有 gap,但在視頻這個(gè)方向上,我認(rèn)為中國公司的模型能力已經(jīng)處在世界第一梯隊(duì)了,這也是它們更容易率先把商業(yè)場景打出來的原因。

02

為數(shù)不多的技術(shù)共識(shí):

音畫同出、多鏡頭敘事

極客公園:視頻模型的技術(shù)路線,今天收斂了嗎?

曹越:沒有收斂。至少現(xiàn)在還沒出現(xiàn)像語言模型里 coding 那樣,所有人都必須死磕、不能落后的統(tǒng)一方向。

目前視頻模型的競爭,更像是不同團(tuán)隊(duì)在不同方向上做強(qiáng)化選擇。例如多鏡頭敘事這件事,目前 Seedance 是處于領(lǐng)先地位的,但我們認(rèn)為這并不來自不可復(fù)制的絕對(duì)技術(shù)壁壘,更是「更早選擇了這個(gè)方向,并更早把它做好」的判斷,從而獲得了大約三個(gè)月左右的領(lǐng)先周期。

其實(shí),從過去兩三年模型能力的進(jìn)展看,一家公司做出的能力,其他公司往往會(huì)在很短時(shí)間內(nèi)跟進(jìn),快則兩三個(gè)月,慢則三到六個(gè)月。所以,競爭核心不完全是長期技術(shù)壁壘,也包括階段性的判斷和選擇。

極客公園:那么過去一年,視頻模型層面最關(guān)鍵的技術(shù)突破是什么?

曹越:我認(rèn)為是音畫同出和多鏡頭敘事。

Google Veo 3 是最早做出音畫同出的模型之一,我們后來也很快跟進(jìn)了。它的關(guān)鍵價(jià)值在于:人物的基礎(chǔ)表演會(huì)變得更細(xì)膩、更逼真,尤其是口型、聲音、動(dòng)作之間的同步,會(huì)讓人物看起來沒那么像一個(gè) AI 合成的人,而更像真實(shí)表演。

極客公園:那多鏡頭敘事呢?

曹越:多鏡頭敘事的重要性,其實(shí)更多是在它被做出來之后,行業(yè)內(nèi)才突然意識(shí)到。因?yàn)樗@著提升了敘事型視頻的質(zhì)量和真實(shí)感。

如果只是單鏡頭生成,即便畫面本身很好,人依然會(huì)隱約覺得「不太對(duì)勁」。因?yàn)槿颂烊簧钤?3D 空間里,對(duì)空間是否真實(shí)有非常敏銳的感受。多鏡頭敘事能在一段短視頻里,讓同一個(gè)場景從不同視角被表現(xiàn)出來。比如先從一個(gè)角度拍一個(gè)人說話,再切到另一個(gè)角度拍另一個(gè)人回應(yīng)。這樣一來,觀眾會(huì)迅速建立起對(duì)這個(gè)場景的空間感,整體也就顯得更真實(shí)、更舒服。

另外,現(xiàn)實(shí)世界里本來就存在大量天然對(duì)齊的信息。畫面和聲音是對(duì)齊的;同一個(gè)空間里的不同視角也是對(duì)齊的。過去如果模型只處理單鏡頭、無聲音的內(nèi)容,其實(shí)就等于沒有利用這些現(xiàn)實(shí)中天然存在的信息。一旦把這些不同維度的信息一起灌進(jìn)同一個(gè)模型里,生成效果就會(huì)顯著提高。

極客公園:聽起來是一個(gè)不斷升維的過程,從靜態(tài)畫面,到動(dòng)態(tài)畫面加聲音,再到同一空間內(nèi)的多視角表達(dá),能力是一層層往上疊加的。疊到某個(gè)臨界點(diǎn)后,用戶才會(huì)突然覺得「這個(gè)東西真能用了」。

曹越:這其實(shí)就是多模態(tài)的本質(zhì):把物理世界里原本已經(jīng)對(duì)齊的信息,用同一個(gè)模型統(tǒng)一起來。

極客公園:視頻模型領(lǐng)域,會(huì)不會(huì)出現(xiàn)一個(gè)類似 coding 之于語言模型那種「皇冠上的明珠」?如果會(huì),它是什么?

曹越:如果現(xiàn)在就讓我給一個(gè)已經(jīng)完全收斂的答案,我覺得還沒有。但我認(rèn)為視頻模型下一步非常關(guān)鍵的方向,很可能是更強(qiáng)的上下文理解、thinking,以及由此帶來的更細(xì)膩的表演能力。

今天的模型已經(jīng)能做到一部分事情。比如你給一張照片,再給一個(gè)比較具體的描述,它已經(jīng)可以讓這個(gè)人帶著某種情緒去說一段臺(tái)詞,而且畫面和聲音是一起生成的,所以對(duì)齊度會(huì)比較高,你會(huì)覺得它比較真。

但這還只是比較粗的層面。如果想要更細(xì)膩地表達(dá)一段音畫同出的內(nèi)容,我覺得模型需要的不是更簡單的一對(duì)一映射,而是 thinking。也就是它看到一整段 prompt 之后,不是直接把「憤怒地說」映射成一個(gè)表情,而是先理解上下文:這個(gè)角色是誰,之前發(fā)生了什么,這個(gè)場景是什么,他應(yīng)該怎樣表達(dá)。只有這樣,表演才會(huì)更細(xì)膩,也更貼合場景。

現(xiàn)在,還沒有模型能真正做到這一點(diǎn),但我覺得這會(huì)來得很快,而且會(huì)是下一個(gè)非常關(guān)鍵的 breakthrough。

03

從創(chuàng)作者到「視頻投資人」

極客公園:聊聊你們?cè)趦?nèi)測的新產(chǎn)品 VidMuse 2.0 吧。我看了你們的介紹,交互邏輯是「Music in,Video Out」,這次核心的升級(jí)是什么?

張子賀:VidMuse 2.0 的核心,不是多了幾個(gè)功能,而是重新做了 agent 的框架。

之前市面上的很多 Video Agent,包括我們自己 1.0 的狀態(tài),都會(huì)更像一個(gè)「帶著腳鐐」的 agent:它只能按你預(yù)設(shè)好的 workflow,一步一步往下走。

但視頻創(chuàng)作本身不是一個(gè)線性的流程,它是一個(gè)很發(fā)散的過程。所以 2.0 的核心升級(jí),就是從這種 Workflow 式、強(qiáng)編排的工具,轉(zhuǎn)向一個(gè)更開放的 Video Agent。我們想做的是,盡量把原來加在 AI 身上的那些手鏈、腳鏈放開,讓它自己去發(fā)揮智能,順著用戶需求和創(chuàng)作過程流動(dòng)。

極客公園:現(xiàn)在大家都開始放開韁繩、少編排,更多交給 agent 創(chuàng)造好環(huán)境,VidMuse 2.0 基本就是往這個(gè)思路走的,對(duì)嗎?

張子賀:是的,因?yàn)橐曨l創(chuàng)作這件事本身非常社區(qū)驅(qū)動(dòng)。社區(qū)里會(huì)不斷冒出新的玩法、新的創(chuàng)作習(xí)慣、新的表達(dá)方式。如果每次社區(qū)冒出一個(gè)新想法,如果我都要靠人力、物力再去迭代一個(gè)新功能,那這個(gè)產(chǎn)品是永遠(yuǎn)追不上的。哪怕有各類 coding agent 提效,你也不可能真的 24 小時(shí)在線去手工支持所有這些變化。

所以,從產(chǎn)品角度看,把 AI 綁在固定 workflow 里,是追不上創(chuàng)作演化速度的。

極客公園:既然你認(rèn)為它是一個(gè) Video Agent,那它對(duì)標(biāo)的是什么?

張子賀:我們從一開始就不是把它當(dāng)成一個(gè)單點(diǎn)工具,而是把它當(dāng)成一個(gè)「完整的乙方」或者「制片團(tuán)隊(duì)」。我們看到很多 AI 時(shí)代的創(chuàng)作者,為了做一個(gè)完整視頻,要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭,自己搭管線,門檻很高。我們當(dāng)時(shí)看到的機(jī)會(huì)就是:能不能在這些工具之上架一個(gè) agent,把它變成一個(gè)完整的制片團(tuán)隊(duì)。用戶不需要再自己穿梭在各種工具里,只需要說目標(biāo),agent 去組織流程、調(diào)度 agent,最后把視頻交付出來。

極客公園:這個(gè)形態(tài)下,用戶其實(shí)就成為了制片人或者投資方。「燒」Token,然后得到滿意的成片。

張子賀:是的。


VidMuse 產(chǎn)品負(fù)責(zé)人張子賀 Zake | 圖片由受訪者提供

04

音樂是 AI 時(shí)代的視頻創(chuàng)作起點(diǎn)

極客公園:我聽說有人把 VidMuse 看成一個(gè) MV 場景的垂類產(chǎn)品?你們肯定是奔著一個(gè)通用目標(biāo)去的吧?

張子賀:我想專門澄清一下。我們內(nèi)部從來沒有說過自己只做 MV,也從來沒有把自己定位成一個(gè) MV Video Agent。

一開始我們也走過一些彎路。最初的想法是,模型能力本來是通用的,那產(chǎn)品也應(yīng)該盡量通用,不要給模型太多預(yù)設(shè)。但真正做的時(shí)候你會(huì)發(fā)現(xiàn),如果所有場景都想覆蓋,產(chǎn)品很難跨過那個(gè)「用戶愿意付費(fèi)」的閾值,所以它必須收斂。

問題在于,怎么收斂。很多人會(huì)按內(nèi)容類型去切:音樂、漫劇、廣告,分別做成不同產(chǎn)品。但我不太認(rèn)同這種切法。因?yàn)槿绻惆磧?nèi)容類型把產(chǎn)品框死,它后面一旦要輻射更多場景,往往就得重構(gòu)。我們最后選擇的不是按內(nèi)容類型切,而是按創(chuàng)作鏈路去切。也就是說,我不是先定義「我做的是 MV」,而是先定義:AI 時(shí)代的視頻創(chuàng)作,到底是沿著什么鏈路往前走的。

極客公園:所以你們是會(huì)順著「創(chuàng)作意愿」去找用戶?音樂為什么會(huì)成為更好的切入口?

張子賀:我越來越覺得,音頻是一個(gè)比圖片和文字更適合切入的連續(xù)信息。圖片和文字更像是離散的,但音頻,尤其是音樂,是連續(xù)流動(dòng)的。

我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻,發(fā)現(xiàn)它們有一個(gè)很明顯的共性:很多作品其實(shí)都是通過音樂或者音頻去 drive 整個(gè)創(chuàng)作鏈路。所以我當(dāng)時(shí)才會(huì)說,音樂其實(shí)像這個(gè)視頻的骨架。

所以我會(huì)覺得:AI 時(shí)代的視頻,不一定還需要傳統(tǒng)剪映式的軟件邏輯,而更可能是沿著音頻驅(qū)動(dòng)的鏈路往前走。我們后來選擇從音樂切,不是因?yàn)椤窶V 這個(gè)品類本身」,而是因?yàn)槲矣X得在音頻里,音樂占了一個(gè)非常大的部分,它是最自然的入口。

極客公園:如果順著這個(gè)邏輯往外延展?MV 之外還可能是什么?

張子賀:這套理解后來又延伸到廣告。我覺得,廣告里很多真正讓人記住的東西,不只是畫面和文案,還有旋律。一個(gè)詞配上一段洗腦的音樂,再配上簡單但強(qiáng)記憶點(diǎn)的畫面,信息傳遞會(huì)被明顯放大。

極客公園:所以從更長遠(yuǎn)的角度看,你們會(huì)認(rèn)為「文字、畫面、旋律」看成一種更高維的內(nèi)容格式,而不是把音樂只當(dāng)成一個(gè)附屬元素。

張子賀:是的。


VidMuse 的產(chǎn)品界面

極客公園:選擇「Music in」,跟用戶畫像有關(guān)系嗎?

張子賀:有,而且關(guān)系很大。

我們有一個(gè)很明確的判斷:很多 Video Agent 在增長上會(huì)遇到瓶頸,因?yàn)槟愫茈y憑空創(chuàng)造用戶的「創(chuàng)作意愿」。一個(gè)人如果本來沒有生產(chǎn)視頻的意愿,你很難讓他突然開始做這件事,ROI 也很難算正。但從音樂切就不一樣。因?yàn)橛幸魳返娜耍烊灰呀?jīng)有創(chuàng)作意愿,讓他從音樂順理成章地過渡到視頻,投放和增長的 ROI 會(huì)更正,這也是我們?cè)鲩L比較快的一個(gè)原因。

所以,音樂不是隨便選的流量入口,而是和「創(chuàng)作意愿」直接相關(guān)。

極客公園:你們現(xiàn)在的用戶畫像,大概是怎樣的?

張子賀:我會(huì)把他們大致分成兩類。

第一類就是音樂相關(guān)用戶,不管是傳統(tǒng)音樂人,還是 AI 音樂人。后者其實(shí)占了很大一部分——比如 Suno 賦予了他們創(chuàng)作能力,他們從原來只是音樂愛好者,慢慢成長到會(huì)頻繁發(fā)布自己的歌,希望有更多人聽到。

但光有音樂還不夠。你把音樂發(fā)在 Spotify 或 SoundCloud 上,真正能聽到的人還是有限;流量更大的地方是 TikTok、Instagram、YouTube。這樣一來,他們就天然需要一個(gè)視頻媒介。所以我看到的第一批核心用戶,其實(shí)就是:他們很會(huì)做音樂,但不會(huì)做音樂視頻。他們本來就在音樂這個(gè)模態(tài)里很專業(yè),來到 VidMuse,是為了補(bǔ)上「從音樂到視頻」這一步。

極客公園:那么另一類呢?

張子賀:我們內(nèi)部把他們叫做泛生活化創(chuàng)作的人。

這類人的創(chuàng)作內(nèi)容更偏生活和個(gè)人表達(dá),比如年會(huì)視頻、孩子成長、朋友生日、家庭紀(jì)念日,這些都算。這個(gè)方向本身就是一個(gè)新發(fā)現(xiàn),因?yàn)檫^去這類人其實(shí)很容易被忽視。

更讓我們印象深的是,里面還有一部分是非常強(qiáng)的個(gè)人情緒表達(dá)。有人會(huì)用它創(chuàng)作一些關(guān)于童年、家庭關(guān)系等等題材的視頻。他們很多時(shí)候其實(shí)已經(jīng)有一首自己的歌,然后用這個(gè)產(chǎn)品去把那首歌對(duì)應(yīng)成自己心里真正想要的畫面,一遍一遍調(diào)。這里面有些內(nèi)容甚至不會(huì)發(fā)到任何平臺(tái)上,它不是為了傳播,而是為了表達(dá)和宣泄。

這類用戶很重要的一點(diǎn)是:他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內(nèi)容交給一個(gè)人類創(chuàng)作者,但愿意交給一個(gè)工具或 agent 去完成。所以我會(huì)覺得,這里已經(jīng)不只是普通的內(nèi)容生產(chǎn),它更接近一種個(gè)人紀(jì)念、情緒整理,甚至某種自我療愈式的創(chuàng)作。

05

創(chuàng)業(yè)公司更容易搞定「雙輪驅(qū)動(dòng)」

極客公園:如果通過編排和加 skill 的方式,用 OpenClaw 做一個(gè)類似的產(chǎn)品,那你們自己的模型在 VidMuse 里到底扮演什么角色?你們的模型和產(chǎn)品之間,是強(qiáng)耦合還是弱耦合?

曹越:我們內(nèi)部從一開始就是雙輪驅(qū)動(dòng)。

產(chǎn)品不應(yīng)該被模型掣肘,產(chǎn)品的目標(biāo)是服務(wù)用戶、把規(guī)模做大,所以不應(yīng)該帶著鐐銬跳舞,哪怕這個(gè)鐐銬是金的。對(duì)我們來說,哪個(gè)模型能讓產(chǎn)品跑得更快,就應(yīng)該調(diào)用哪個(gè)模型;我們從一開始就沒有要求產(chǎn)品必須用自家模型。

但換一個(gè)角度,模型團(tuán)隊(duì)在很多場景下又確實(shí)要支持產(chǎn)品。比如我們做 Music Video,第一步就需要更準(zhǔn)確地分析音樂,識(shí)別節(jié)奏、卡點(diǎn)這些細(xì)顆粒度信息,這時(shí)候模型團(tuán)隊(duì)就可以過來支持,把音樂分析做得更準(zhǔn)。再比如在視頻生成里,有些場景用我們自己的模型效果更好,或者成本更低,這些也都能直接支持產(chǎn)品。

所以這不是簡單的強(qiáng)耦合或者弱耦合。更準(zhǔn)確地說,產(chǎn)品先按自己的節(jié)奏跑,模型在關(guān)鍵環(huán)節(jié)提供支持:一方面提升效果,另一方面降低調(diào)用 API 的成本,提高毛利,幫助產(chǎn)品跑得更大。

極客公園:雙輪驅(qū)動(dòng)肯定好,但也肯定難。

曹越:我的感受是,創(chuàng)業(yè)公司更容易把雙輪驅(qū)動(dòng)搞定。原因不是團(tuán)隊(duì)小本身,而是創(chuàng)業(yè)公司里更容易有一批真正處在 founder mode 的人。無論是做業(yè)務(wù)、做產(chǎn)品,還是做模型的人,只要他們心里的目標(biāo)和公司的目標(biāo)是對(duì)齊的,這件事就好推動(dòng)。

反過來,如果一個(gè)做模型的人心里想的是「我要做一個(gè)特別的模型,公司好壞跟我關(guān)系不大」,那他的目標(biāo)其實(shí)只對(duì)齊在模型這條線上,這就不是雙輪驅(qū)動(dòng),而是單輪驅(qū)動(dòng)。

所以真正決定雙輪驅(qū)動(dòng)能不能成立的,不是形式上公司里同時(shí)有模型和產(chǎn)品,而是兩邊負(fù)責(zé)人是不是都相信:同時(shí)擁有模型和產(chǎn)品,對(duì)公司整體是更有利的。

極客公園:具體來說,你們是怎么處理「先用最好模型把產(chǎn)品跑起來,再把關(guān)鍵能力收回來」這個(gè)問題的?

曹越:從產(chǎn)品 0 到 1 去找 PMF 的階段,如果一開始就和自家模型綁得太死,驗(yàn)證周期會(huì)被拉長,不利于快速驗(yàn)證、快速找到 PMF。所以我們過去這段時(shí)間的做法是,先拿效果最好的模型把產(chǎn)品搭起來。

這個(gè)階段我們不會(huì)先優(yōu)先考慮成本,而是先看它能跑到什么狀態(tài),這個(gè)產(chǎn)物能不能交付,能不能形成商業(yè)閉環(huán)。等這條鏈路先跑通以后,我們?cè)倏从心男┑胤街档脙?yōu)化、值得收回來。

所以這件事不是一開始就要求產(chǎn)品必須用自家模型,而是先讓產(chǎn)品按自己的節(jié)奏跑起來;模型團(tuán)隊(duì)在關(guān)鍵環(huán)節(jié)提供支持。一方面把效果做得更好,另一方面把調(diào)用 API 的成本降下來,提高毛利,幫助產(chǎn)品跑得更大。

06

信任關(guān)系才是最深的護(hù)城河

極客公園:你們現(xiàn)在商業(yè)收入跑到什么程度了?

張子賀:VidMuse 從 1 月中旬上線開始,大概兩個(gè)月時(shí)間,跑到了1000 萬美金的 ARR,而且還在漲。基本上是單周 20 多萬美金的收入,并且已經(jīng)比較穩(wěn)定。

收費(fèi)方式上,我們現(xiàn)在是訂閱+加油包。注冊(cè)用戶有免費(fèi) 1000 積分,可以先起一個(gè)項(xiàng)目。

極客公園:1000 積分是什么概念?

張子賀:大概能把一個(gè) 30 秒左右的視頻項(xiàng)目推進(jìn)到比較后面的階段。

極客公園:付費(fèi)轉(zhuǎn)化率、客單價(jià)怎么樣?

張子賀:注冊(cè)到付費(fèi)的轉(zhuǎn)化大約在 5%-7%。客單價(jià)一直比較高,因?yàn)橛脩粜枰扔嗛啠儋I加油包,有些人最后會(huì)直接升級(jí)到更高階版本。

極客公園:繼續(xù)往后走呢?VidMuse 3.0、4.0 還要補(bǔ)齊什么能力?產(chǎn)品邊界會(huì)怎么變?

曹越:3.0 或 4.0 應(yīng)該是一個(gè)更徹底釋放的狀態(tài):用戶提一個(gè)原來產(chǎn)品里沒有的功能,它也能想辦法調(diào)動(dòng)自己擁有的資源,把這個(gè)問題解決掉。

這件事會(huì)越來越依賴更通用的 agent 能力,尤其是 coding agent 的能力。因?yàn)樯鐓^(qū)里會(huì)不斷冒出千奇百怪的需求。你得有一種能力,能順著用戶的需求流動(dòng),用戶給你一個(gè)鏈接、一個(gè)帖子、一個(gè)教程,你能理解里面的方法,然后把它實(shí)現(xiàn)出來。產(chǎn)品會(huì)更少依賴預(yù)設(shè)功能,而是更順著用戶需求流動(dòng)。

極客公園:聽起來,未來的產(chǎn)品會(huì)越來越「無為」。從長期看,Sand.ai 的護(hù)城河是什么?怎么留住用戶、沉淀長期價(jià)值?我相信不止是模型能力吧?

曹越:現(xiàn)在 AI agent 產(chǎn)品最大的問題之一,是穩(wěn)定性很差,很難和用戶建立可信賴的關(guān)系。

所以我們的思路是:先解決各種幻覺,尤其是多輪對(duì)話里小幻覺被不斷放大的問題,讓用戶敢信你。我們希望用戶在創(chuàng)作結(jié)束時(shí),留下的是「thank you」、「good night」這樣的情緒,而不是被激怒、被消耗。第一步先是建立信任感。

第二步,是讓用戶愿意留在這里。好的產(chǎn)品要在使用過程中不斷認(rèn)識(shí)這個(gè)人、了解這個(gè)人、理解他喜歡什么。比如用戶已經(jīng)明確說過自己喜歡諾蘭,就不要再給他推別的導(dǎo)演風(fēng)格;用戶說過自己不喜歡紫色,后面的場景、分鏡、腳本設(shè)計(jì)就不該再往這個(gè)方向走。

所以,memory(長期記憶)和信任關(guān)系是我們 Video Agent 的靈魂。

*頭圖來源:Sand.ai

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你想體驗(yàn) Sand.ai 嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

那晚我住女朋友家,她媽說你倆今晚敢睡一個(gè)被窩,我就掀你們被子

千秋文化
2026-04-16 20:08:23
國家一級(jí)女演員陳麗云被逮捕!

國家一級(jí)女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
馬云預(yù)言又應(yīng)驗(yàn)!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

馬云預(yù)言又應(yīng)驗(yàn)!若無意外,2026年起,中國房地產(chǎn)或迎來3大轉(zhuǎn)變

專業(yè)聊房君
2026-04-18 16:53:46
“炸完走不了”:美國在伊朗砸下重兵,卻發(fā)現(xiàn)自己不知道怎么贏!

“炸完走不了”:美國在伊朗砸下重兵,卻發(fā)現(xiàn)自己不知道怎么贏!

小樾說歷史
2026-04-17 12:09:32
黎筍長子曾坦言:越南當(dāng)年敢打中國有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺

黎筍長子曾坦言:越南當(dāng)年敢打中國有3個(gè)原因,結(jié)果發(fā)現(xiàn)全是錯(cuò)覺

顧史
2026-04-18 09:17:19
中超申花狂飆英博絕殺,積分榜豪門集體沉默

中超申花狂飆英博絕殺,積分榜豪門集體沉默

徐扙老表哥
2026-04-19 03:07:12
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

觀察鑒娛
2026-04-17 09:43:01
一部西班牙動(dòng)作片為何讓全球觀眾熬夜追完

一部西班牙動(dòng)作片為何讓全球觀眾熬夜追完

熱搜摘要官
2026-04-17 09:18:02
太難了!青島一公司全員降薪,高至20%,稱無力承擔(dān)新增繳費(fèi)成本

太難了!青島一公司全員降薪,高至20%,稱無力承擔(dān)新增繳費(fèi)成本

火山詩話
2026-04-18 07:01:26
快遞員失手摔壞價(jià)值2.4萬元藍(lán)寶石!快遞公司:全額賠付,已打款

快遞員失手摔壞價(jià)值2.4萬元藍(lán)寶石!快遞公司:全額賠付,已打款

封面新聞
2026-04-18 12:38:06
鋒線大換血!巴薩放棄拉什福德,鎖定前水晶宮射手頂替萊萬

鋒線大換血!巴薩放棄拉什福德,鎖定前水晶宮射手頂替萊萬

夜白侃球
2026-04-18 21:29:08
醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

醫(yī)生告誡:每天睡前玩手機(jī)的人,不用半年時(shí)間,睡眠或有這6變化

白話電影院
2026-04-05 15:34:47
拉夫羅夫訪華任務(wù)曝光,中俄聯(lián)手對(duì)西方亮劍,普京的計(jì)劃已成現(xiàn)實(shí)

拉夫羅夫訪華任務(wù)曝光,中俄聯(lián)手對(duì)西方亮劍,普京的計(jì)劃已成現(xiàn)實(shí)

陳恧侃故事
2026-04-18 23:58:02
恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

恒大超級(jí)蛀蟲劉永灼:甚至比許家印還能攬財(cái),狂燒千億終落法網(wǎng)

小曙說娛
2026-04-19 00:27:45
黎姿普吉島過復(fù)活節(jié),大方穿泳裝秀身材,54歲的少女感藏不住

黎姿普吉島過復(fù)活節(jié),大方穿泳裝秀身材,54歲的少女感藏不住

吃青菜長高
2026-04-18 06:59:11
曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

曝王思聰近況:暴瘦脫相 禿頂脫發(fā),拒付200萬后,黃一鳴頻繁發(fā)聲

東方不敗然多多
2026-04-18 15:31:29
居民咨詢小區(qū)業(yè)委會(huì)相關(guān)問題無果,反被社區(qū)工作人員咬傷和追打

居民咨詢小區(qū)業(yè)委會(huì)相關(guān)問題無果,反被社區(qū)工作人員咬傷和追打

極目新聞
2026-04-18 17:41:10
CBA新排名!前3穩(wěn)固,北京擠掉廣東,山東寧波狂輸,廣州緊咬北控

CBA新排名!前3穩(wěn)固,北京擠掉廣東,山東寧波狂輸,廣州緊咬北控

籃球資訊達(dá)人
2026-04-19 01:17:20
秦嵐首度公開父母過世,一個(gè)人辦追悼會(huì)不哭,和魏大勛不婚不育

秦嵐首度公開父母過世,一個(gè)人辦追悼會(huì)不哭,和魏大勛不婚不育

椰黃娛樂
2026-04-18 13:41:46
2026-04-19 04:39:00
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11962文章數(shù) 78871關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

旅游
健康
數(shù)碼
教育
公開課

旅游要聞

申城周末開啟“繁花”模式:前灘800米歐式花街變身莊園 全城百個(gè)櫥窗聯(lián)動(dòng)“擁抱”春天

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

數(shù)碼要聞

華為版的科技春晚來了!Pura 90/Pura X Max下周發(fā):陣容豪華

教育要聞

“抱歉,我們只看第一學(xué)歷”,985碩士面試被拒,考研還有必要嗎

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版