這兩年我看了一堆號稱要顛覆AI視頻的新產品。看了一陣子,我大概看出了一個規律。
第一代AI視頻工具,是文生視頻的盲盒。 一句話扔進去,等幾分鐘,開出來什么算什么,不滿意只能重新投幣。
第二代多了個Agent入口,AI開始能用對話方式調度。但Agent是懸浮在產品之外的「插件」,對話歸對話,畫布歸畫布,AI在另一個房間幫你跑腿。
最近我用了一個國產的畫布型AI視頻工具,叫RHTV。打開第一眼我就感覺,AI視頻工具可能在悄悄進第三階段了。
![]()
這一代的關鍵詞是「畫布原生」。Agent不是懸浮在畫布之外的服務,而是畫布本身的大腦。它住在你的工作流里,看得見你每一步在做什么,也讓你看得見它每一步在想什么。
聽起來好像只是產品形態的小調整,但用過之后我意識到,它其實在重新定義「人和AI怎么一起做事」這件事。
一、AI視頻工具的三階段演化
把過去兩年的AI視頻工具按使用體驗排一下,能很清晰地看到三個階段。
第一階段,文生視頻盲盒。
你輸入一句話,等模型出片。整個過程是黑盒,AI怎么理解你的需求、怎么選模型、怎么處理細節,全在后端,用戶看不到。結果不滿意只能重新生成,沒有局部修改的概念。
這個階段最大的問題不是出不出好東西,是不可控。 一支15秒的短片,你想換其中一個鏡頭,必須把整個15秒重做。這種「一擲定乾坤」的體驗,能用來玩,但很難拿來真正干活。
第二階段,雙入口模式。
產品意識到了「全自動」的問題,于是引入了Agent。但很多產品只是在原有的畫布旁邊加了一個「對話面板」:你跟Agent聊天,Agent幫你生成,結果再回到畫布。
看起來「AI智能體」是有了,但本質上Agent是個外掛插件。它不在畫布里,它在畫布旁邊。
這個階段的體驗有種微妙的撕裂感。你在畫布里精雕細琢一個分鏡,想讓AI幫忙優化,得切到對話框,跟Agent解釋你在做什么。AI不知道你畫布里的上下文,每次都得從頭說起。Agent成了一個外接的傳話筒,不是真正的搭檔。 第三階段,畫布原生Agent。
這就是RHTV在做的事。Agent就在畫布里,左下角一個按鈕喚起。你選中一個素材或節點,直接對RH智能體說「把這個調暗一點」,它知道你說的「這個」是什么,因為它和你看的是同一張畫布。
更關鍵的是,RH智能體不是只負責執行。它有自己完整的本地決策鏈:理解需求 → 規劃路徑 → 生成提示詞 → 組裝節點。每一步都可見,每一步都可改。你看到的不只是結果,是它怎么得出這個結果的。
這三個階段,本質上是三種「人和AI的關系」。第一階段是「使喚AI」,第二階段是「協助AI」,第三階段才是「和AI一起想」。
![]()
二、什么是「畫布原生」
「畫布原生」這個詞第一次出現的時候,我也沒太懂它和「在畫布里加個AI按鈕」有什么區別。后來在RHTV里跑了一個真實的MV項目,我大概理清了它的樣子。
先說背景。我用GPT-Image-2做了一張「MV小提琴演奏場景·分鏡腳本與美術設計方案」的綜合參考板。一張圖里,把這支MV的前期工作幾乎全做完了:角色6視角圖(JK制服小提琴少女)、法式宮廷場景的平面圖+立面圖+剖面圖、3個分鏡的方案(側面中景、小提琴特寫、斜側情緒特寫)、4種燈光參考、還有色調推薦。
![]()
這張圖本身就挺值得說一下。文生圖模型走到今天,一張圖就能把一支MV的前期規劃全做完。 導演腦子里所有該想的:人物、場景、鏡頭、運鏡、光線、色調,都可以讓AI一次性鋪出來。
但問題隨之而來:前期規劃完成度變高了,可下一步怎么走?
按傳統玩法,我有兩個選項。
選項一是手動拆解:把參考板里的角色圖摳出來作為@參考,把場景圖摳出來作為另一組@參考,把分鏡文字復制成prompt,再分3次手動調度Seedance 2.0。這個流程下來,光準備工作就夠你折騰大半天,每改一處還得重來一遍。
選項二是直接把整張參考板丟給Seedance 2.0:它會把這張密密麻麻的板子當成「一張包含人物+場景+小圖+文字框的圖」整體識別。結果就是穩定性差、可控性差、可拓展性差,輸出基本是不可用的。
也就是說,當文生圖把「想清楚」這件事壓縮到幾分鐘,AI視頻領域反而出現了一個新的工具空缺:能不能有一個工具,看得懂這張參考板,能把它結構化拆解,能把每個分鏡變成畫布上可調度的節點?
這就是我說的「畫布原生Agent」要解決的問題之一。它不止是酷炫,也是真的有能力去適配是最新一代具有agent思維的圖像生成模型甩出來的高密度規劃素材。
我決定換個玩法:把整張參考板丟給RHTV的畫布,對RH智能體說一句話:
「按這張分鏡板生成MV,3個鏡頭」。
然后我就坐著不動了。
RH智能體接到指令之后,沒有像傳統模型那樣直接悶頭開生成。它先做了一件事:識別。
它在畫布的對話面板里,把這張參考板的核心元素逐條標記出來:
角色:JK制服小提琴少女
場景:法式宮廷
道具:小提琴
![]()
這個動作的關鍵不是它「識別對了」,而是它把識別過程暴露給我看了。我能看到RH智能體對這張參考板的全部解讀,確認無誤后才讓它繼續。如果它把JK制服理解成了和服,我可以在這一步就攔住它,不會等10分鐘后看到一團離譜的成片再來反悔。
我一直覺得,能不能看見AI在想什么,是判斷一個AI產品是工具還是搭檔的分水嶺。 工具只對結果負責,搭檔要對過程透明。
三、透明的力量
確認完元素,RH智能體開始自己建工作流。
它在畫布上拉出了兩組節點:
第一組叫「MV小提琴-視覺資產生產」,里面是3個image節點,分別承擔參考板拆解、角色生成、場景生成。
第二組叫「MV小提琴-最終視頻生成」,里面是3個video節點,對應分鏡板里的3個鏡頭:
鏡頭1:側面優雅演奏
鏡頭2:指尖技藝特寫
鏡頭3:沉浸式神情特寫
![]()
更讓我意外的是,RH智能體還把節點之間的參考關系也自動配置好了。哪個視頻鏡頭用哪張圖做參考、參考的優先級是什么,全部展開在對話面板里。
這是傳統Agent模式做不到的事情。它們的輸出是個「黑盒視頻」,它知道自己怎么做的,但不告訴你。RHTV的智能體是把它的整個工作思路展開成畫布上一張可視化的圖,哪個節點干什么、連給誰,一目了然。
![]()
AI創作這兩年最大的痛點,其實不是模型不夠強,是不可控。
你可能聽過太多創作者抱怨:「這個鏡頭明明只有一個細節不滿意,憑什么要重做整支視頻?」這個痛點的根源就是黑盒。第一代和第二代AI視頻工具,把創作過程鎖在后端。你輸入prompt,等結果,不滿意再調prompt,再等結果。整個反饋循環里,你永遠不知道AI到底是怎么處理你的話的。
畫布原生Agent真正值錢的,可能不是它會自動搭工作流,而是它把整個工作流攤開給你看。
每個節點都帶著明確的語義角色,每條連線背后都有可解釋的參考關系。我想在哪個環節插手就在哪個環節插手:換衣服只改character節點,換燈光只改lighting節點,調某個鏡頭的運鏡只改對應的video節點,下游會自動適配,不用重跑整條鏈路。
這一點對專業創作者特別重要。輕度玩家要的是「一鍵出片」,專業創作者要的是「可改」。 一段廣告片、一段品牌視頻、一支短劇,幾乎不可能一次成型,必然要反復迭代。如果每次迭代都意味著重新跑整條流程,那AI不是在幫你創作,是在浪費你的時間。
四、能力上限的賭注
聊到這里要回答一個問題:為什么是RHTV做出了「畫布原生Agent」,而不是其他家?
我覺得答案在生態。
AI視頻工具的核心矛盾,是用戶的需求邊界永遠在擴展,而單個產品團隊的開發能力是有限的。今天用戶要漫劇,明天要TVC,后天要MV,再后天要新的視覺風格。每一個新需求,封閉系統都得自己開發模型、調試節點、上線功能。
這種模式有個天然的天花板:產品能力的上限就是產品團隊的上限。
RHTV的解法是站在Runninghub生態之上。RunningHub是目前國內最活躍的AI內容創作者共創的圖像音視頻內容平臺,有國內規模最大的ComfyUI創作者,沉淀了10萬+社區AI應用、13681個可用節點、170+標準模型API。每天全球開源社區貢獻的新節點、新工作流、新模型,都會自動納入RHTV的能力矩陣。
這不是「接入了開源」那么簡單,是「產品的能力上限由全球開源社區決定」。每天都有開發者在貢獻新的節點、新的工作流、新的插件,這些都會自動出現在RHTV用戶的能力面板里。
封閉系統在和全球社區賽跑,結果其實是注定的。
短期看,封閉系統可能能通過精打細磨的官方能力贏得用戶。但長期看,5萬+工作流的復用、10萬+應用的可調用、五大模態全覆蓋(圖像、視頻、音頻、3D、文本),這種規模一旦展開,單個團隊是追不上的。
RHTV的智能體能力不會過時,因為它的能力天花板由社區決定,不由產品團隊決定。這是一個關于長期主義的產品判斷。
五、Seedance 2.0的特殊化處理
講完范式和生態,再講一個具體的、最近半年內創作者最關心的話題:Seedance 2.0。
字節這一代視頻模型,業內已經在叫「導演之選」。它支持@參考、首尾幀、上傳真人參考視頻驅動動作。這些能力讓它在動作戲、復雜運鏡、人物表演等場景成了第一梯隊。
但Seedance 2.0這種頂級模型,有個普遍問題:在大多數平臺上,它就是被「接入」了。你能調用它,但調得很基礎,等待時間長、畫質有限、玩法受限。
回到我剛才那支小提琴MV。Agent建好工作流之后,我點了「確認執行」,Seedance 2.0就接管了視頻生成。
![]()
配置面板上能看到模型版本(Seedance 2.0)、分辨率(720p)、時長(5秒/幀)、寬高比(16:9),還有「全部參考 / 首尾幀 / 圖片參考」三種參考模式的切換,連Seed這種細節參數都可以看。這些東西全部暴露給用戶,每一個我都能看到、能改、能針對單個鏡頭微調。
跑完之后,第一個鏡頭出來了:一個JK制服的少女在法式宮廷宴會廳里演奏小提琴。水晶吊燈的光在她身上散開,木地板的反光、墻面的雕花、遠處虛化的燭臺都在。少女演奏的姿態自然,沒有早期AI視頻里那種「融化感」,運鏡平穩。
這是我對Seedance 2.0的最新印象更新。RHTV對它的處理方式叫「增強式接入」:不排隊、速度快、支持4K和真人生成,年度會員折算下來等于6折用。
但我覺得最值得說的,還不是價格和速度,而是RHTV把Seedance 2.0的全部能力以節點參數的形式開放給用戶。你不只是在用一個模型,你是在調度一個模型。
優秀的AI工具平臺和普通的「模型接入商」的差別,就在于對核心模型的特殊化處理。 不是做加法(接入更多模型),而是做乘法(讓最好的模型在你的平臺上用得最好)。
收尾·新范式
回到開頭那個判斷:AI視頻工具走到了第三階段。
第一階段解決「AI能不能做出視頻」,第二階段解決「用戶怎么調用AI」,第三階段開始解決「人和AI怎么一起做事」。
畫布原生Agent不只是功能升級,更像是范式更新。 它把Agent從「畫布之外的服務」變成「畫布之內的大腦」,把AI創作從「開盲盒」變成「看得見的協作」,把產品的能力天花板從「團隊上限」變成「生態上限」。
我有個直覺:未來一年,AI視頻工具的競爭會沿著這三條線展開。哪些產品在做畫布原生,哪些還停留在雙入口;哪些把Agent的思考過程暴露出來,哪些還藏在后端;哪些站在開源生態上,哪些還在自研封閉體系里。
這三條線決定了,誰會沉淀成這一代AI視頻工具的基礎設施,誰只是過渡形態。
回到我那支MV:從我把分鏡板丟進畫布、說一句話,到Agent自動拆解、配置參考、調度Seedance 2.0生成——整個過程我沒碰過prompt,沒自己摳過圖,沒切換過界面。我做的事情只有兩件:上傳一張參考板、說一句中文。
這種體驗對我來說挺新的。它和我過去用過的所有AI視頻工具,確實不太一樣。
如果你也是創作者,建議你去自己跑一遍,看看「Agent住在畫布里」是種什么樣的體驗。
RHTV.ai
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.