![]()
Solo Filming 時代真的要來了。
作者|Moonshot
編輯|鄭玄
Seedance 2.0 發(fā)布后,影視行業(yè)感受到了實實在在的沖擊。這個全球最好的視頻模型,已經(jīng)能夠一鍵生成接近「影視級」的畫面鏡頭。
但實際上,影視工業(yè)從來不是幾段「好鏡頭」的疊加,它本質上是一條極其嚴密、依賴場面調度的重工業(yè)流水線。
從前期的劇本,拆解為復雜的分鏡;在拍攝時,要考慮場景搭建、服化道設計、布光天氣、場面調度;在后期要梳理鏡頭,捕捉故事線和剪輯節(jié)奏......
一部好作品的誕生,來源于這樣一套高度結構化的流程——這也是目前許多視頻 Agent 產(chǎn)品的困境:畫面都很精致,但作品不成立。
LibTV 的切入點,正好落在這個斷層上。
在遍地都是「盲盒生成器」的今天,它是第一個真正懂影視工業(yè)流程的 AI 創(chuàng)作平臺。
從底層來看,它依然集成了當前最完整的一批模型能力,從 Lib Nano Pro 到 Kling 3.0,一系列 SOTA 圖像、視頻、語言、音頻模型,構成了一個足夠強的技術底座。
![]()
使用 LibTV 生成的 AI 短片
但更關鍵的是它在試圖解決另一個層面的問題:統(tǒng)合這些技術,形成一個可控的創(chuàng)作過程。
這也是 LibTV 與多數(shù) AI 視頻工具的根本區(qū)別,它是真的懂行,也敬畏上百年來形成的影視工業(yè)。
當生成不再是問題后,怎么調度才是關鍵的下一步。
01
用戶真正想要的:「導演」的絕對控制權
目前的創(chuàng)作工具,正在兩個極端之間搖擺。
一端是只有 chatbot 的對話式生成。它本質上是黑盒,創(chuàng)作者只能通過反復對話去「撞」出一個相對可用的鏡頭,鏡頭之間也很難形成結構性的關聯(lián)。
另一端是節(jié)點式工作流。給用戶提供了控制力,但代價是復雜度,界面復雜如迷宮,學習成本高到勸退絕大多數(shù)人。
而 LibTV 的解法并不復雜,它把兩端融合到一起,形成了無限畫布疊加節(jié)點工作流的復合形態(tài)。
從工具到操作空間
LibTV 的主面板是一個巨大的畫布,那里沒有時間線,也沒有一個固定的起點。
所有信息被放在同一個平面上,可以被拖拽、并排、疊加、拆分。文本、圖像、視頻、音頻,各自以節(jié)點的形式存在,但它們之間的關系是開放的。
![]()
角色設定、場景草圖、視頻片段可以被并排擺放,整個項目的結構是全局可見的,創(chuàng)作者可以自由且動態(tài)地連接不同的處理環(huán)節(jié),也能隨時單點刪除不滿意的分支。
![]()
這種體驗很接近 Alan Kay 當年對 Dynabook 的設想。信息不再被封裝在一個個獨立的軟件里,而是像紙張一樣被攤在桌面上,可以隨時重組,創(chuàng)作過程從「進入工具」變成「操作空間」。
畫布上的每一個功能節(jié)點都具備高度的可編輯性和可調試性,而這些變化會在整個畫布中產(chǎn)生連鎖反應。創(chuàng)作者逐漸理清敘事脈絡的過程,在視覺上具象化為 Connect the dots(由點連線)的過程。
整個畫布之于影視創(chuàng)作者,就像刑偵部門的探案板,也像福爾摩斯的「思想宮殿」。
這種過程很難用傳統(tǒng)的軟件語言去描述,更接近一種「把思考外化」的過程。隨著節(jié)點逐漸增多,創(chuàng)作者對自己片子的實現(xiàn)路徑也會逐漸清晰,這種感覺像極了影視創(chuàng)作中的「討論會」,比起生成,它更像在排練的過程。
![]()
這種排演感在 9 宮格與 25 宮格的分鏡切分功能上體現(xiàn)得尤為直接。
推演與排練
傳統(tǒng)的 AI 視頻工具往往停留在「生成一個鏡頭」,最多擴展到幾段拼接。而 LibTV 把分鏡本身作為一個可以被生成和修改的對象。
分鏡生成和切分功能,讓曾經(jīng)花費大量時間精力去做的推演工作,極其細致地具象化了。從景別、音效、人物動作、臺詞,到分鏡提示詞、光影氛圍、視頻運動提示詞……
用戶還能直觀地看到鏡頭之間如何銜接,節(jié)奏如何推進,并且可以修改每一個表格。
![]()
這種對影視工作流的理解,結合上 LibTV 的技術底座,能讓一位獨立的創(chuàng)作者,用極低成本完成一個商業(yè)級別的 Pre-vis 視覺預演。
尤其是在傳統(tǒng)的影視工作流里,創(chuàng)作者寫下一行劇本,往往要等上幾個月才能在監(jiān)視器里看到它被視覺化的樣子。但在 LibTV 的這塊畫布上,反饋循環(huán)被壓縮到了「以分鐘計」。
而當我只是有一個簡單的故事想法時,LibTV 會帶著我不斷向前展開。從一句設定,到大致梗概,再到分場景的拆解,最終落在具體鏡頭上。
這種「推演感」是很多 AI 工具里缺失的部分,它讓創(chuàng)作不再依賴一次命中,而是變成一個逐步逼近的過程。
當然,這種方式也不是完全沒有門檻。LibTV 分鏡生成的細致程度,有時候會超出普通用戶的預期。它會給出過于具體的鏡頭描述、調度建議,甚至包含一些接近專業(yè)制作流程的細節(jié)。
對于沒有受過視聽語言專業(yè)訓練的普通用戶來說,面對如此高密度的參數(shù),上手修改的門檻顯得很高。
但換一個角度看,這恰恰說明系統(tǒng)預留了足夠高的上限,它能拿出一個高精度初稿,我可以選擇介入其中任何一環(huán)。
![]()
敘事的能力
LibTV 系統(tǒng)目前能夠支持生成超過 5 分鐘的視頻內(nèi)容,這是影視專業(yè)大二短片作業(yè)的時長要求,而在 AI 視頻領域,這是一個技術分水嶺。
當片段開始延展為短片,它就具備承載完整敘事的能力。
為了徹底解決長視頻敘事中的人物一致性問題,LibTV 引入了角色三視圖生成功能。
看起來只是一個小功能,但這對于想要拍攝連續(xù)短劇,或者試圖打造單一 IP 形象的創(chuàng)作者來說非常重要,它能讓短片里的 AI 演員不再變來變?nèi)ィ@是敘事成立的基礎之一。
![]()
無限畫布、連點成線、高度可編輯的精細腳本、角色固定……當這些能力成為了 LibTV 的技術底座時,創(chuàng)作的重心也發(fā)生了改變。
我花在「怎么生成」的時間減少了,更多精力被拉回到「哪個更好」和「我要表達什么」上。
02
當 Agent 推開「另一扇門」
目前的視頻 Agent 賽道看起來很熱鬧,但多數(shù)其實很「單薄」。
它們調用的往往只是碎片化的單點 API,本質上只是一個「調度器」,把一個個模型串起來,完成一條線性的調用鏈。
但問題在于,這種調用是無結構的,結果每一步都成立,但整體不成立。一旦任務從「生成一個片段」變成「完成一段敘事」,問題就會迅速暴露出來。
LibTV 直接換了個思路,直接調用一整套已經(jīng)被組織好的「創(chuàng)作能力」。
它把這套能力打包成了 Skill,可以直接部署在 OpenClaw 等平臺上,通過簡單的對話,就能實現(xiàn)「短漫劇生成 Skill」、「音樂 MV 生成 Skill」甚至是「爆款復刻 Skill」。
在實際體驗里,我直接在飛書(已安裝 OpenClaw)發(fā)給了一張足球圖和蘋果的廣告,下達指令「請復刻這個視頻風格,給我的足球做一部宣傳片」。
![]()
接下來,LibTV Agent 會自動解構那段視頻的鏡頭語言,自己去理解鏡頭組接、寫腳本、畫分鏡、生成片段、完成剪輯。
全程我只需要等待它告訴我「做好了」,我點進生成好的視頻后,哪里不滿意,再用自然語言告知,它會直接自己再理解,再修改。
我就像一個甲方,等待「乙方」提交后,再去做審美判斷,選擇采用還是修改。
![]()
靠「復刻 skills」在飛書指令里就做出來的足球產(chǎn)品宣傳片
這背后的變化超越了單純的效率提升,是軟件設計邏輯的轉向。
過去的軟件假設「人來一步步操作」,現(xiàn)在則要做到「Agent 能接管流程」。軟件不止要比拼功能夠不夠多,也要看各個能力能否串聯(lián),能不能被一次性調用并對結果負責。
所以問題不在于要不要引入 Agent,而在于如何分工。
LibTV 對此給出的答案更像是讓人負責選擇與審美,Agent 負責執(zhí)行與擴展。
前者決定方向,把過程中最枯燥乏味的環(huán)節(jié)解決掉,后者負責把這個方向推到極致,并且以極低成本反復試錯。
用戶可以做導演,一步步去扣細節(jié),也可以像個甲方一樣,直接下指令,看結果。
03
1+1>2:用機器的效率增強人類的直覺
效率工具的理想狀態(tài),是讓人不干活,但創(chuàng)作工具不能這么干,如果一個創(chuàng)作工具的目標是「讓人不參與」,那它最終一定只會生產(chǎn)內(nèi)容,做不出來作品。
而一部作品之所以成立,不是因為它完成了多少步驟,而是因為創(chuàng)作者在很多節(jié)點做出了選擇「這個鏡頭該不該停留長一點」,「這時候要不要接特寫強化情緒」,「這里音樂要停還是繼續(xù)」……
這些決定,至今沒有任何模型可以真正替代。
![]()
所以 LibTV 選擇打開兩扇門,一扇留給人類,一扇交給 AI。
這不是「手動模式」和「自動模式」的區(qū)別,而是一種可以隨時切換、互相補位的結構。人類的直覺配合機器的算力,最終讓 1+1>2。
翻翻 LibTV 官網(wǎng)上的那些精選案例,把他們的工作流節(jié)點拆開看,會發(fā)現(xiàn)那些頂尖 AI 玩家的「人工介入度」非常高。
節(jié)點該怎么連,燈光參數(shù)怎么調,場景怎么構建,鏡頭怎么連接……全都擺在畫布上,堪比 AI 時代的免費影像大師課。
![]()
看著這些連線和最終完成的作品,我會意識到 AI 視頻開始脫離「奇觀展示」的階段,進入到了「是否能承載創(chuàng)作者的表達」階段。也就是說,AI 影像開始具備「作品」和進入工業(yè)化的條件了。
而一旦進入這個階段,成本問題就會被重新放大。
AI 視頻創(chuàng)作曾經(jīng)是一個高試錯機制,用戶不知道哪個版本是對的,只能不斷生成、不斷推翻,就像「抽卡」一樣。而每一次點擊生成,都在燃燒用戶積分。最終,想象力會下意識給預算讓步。
但 LibTV 這次選擇當價格屠夫,39 折的年卡,模型積分定價甚至比同類競品低出 92%。
這本質上是在降低試錯門檻,當我更愿意多試一版,多走一條分支,甚至去驗證一些原本覺得「不值得」的想法時,創(chuàng)作的結果一定會發(fā)生微妙的改變。
![]()
再往前看一步,這種「人+Agent」的結構,其實正在重塑影像行業(yè)本身。
過去,影視行業(yè)是一條高度工業(yè)化的生產(chǎn)線。編劇、分鏡、攝影、美術、剪輯,每一個環(huán)節(jié)都需要專業(yè)分工,也需要大量協(xié)作成本。個人創(chuàng)作者很難跨越這條門檻,往往受困于資金和團隊的匱乏,而非缺乏好想法。
傳統(tǒng)的影視工業(yè)太重了,重到無數(shù)個輕巧的想法難以落地。但 LibTV 提供的技術底座,就在把這條生產(chǎn)線正在被壓縮、折疊,甚至集成到一人一平臺上。這就是所謂的 Solo Filming。
好玩的 Sweet Spot
LibTV 給我的實際上手體感,是一種「好玩」。它真的在數(shù)字世界里為我鋪開了一張沒有邊界的畫布。大學期間那些成型的劇本,曾經(jīng)因為沒錢拍、組不了團隊而被掐滅的瘋狂點子,現(xiàn)在全都有了重新顯影的可能,我可以在這上面無盡地折騰。
就算走出單打獨斗的 Solo Filming,進入視頻行業(yè)后,它也可以找到一席之地。比如某場戲的想法驗證、分鏡展示、風格測試,現(xiàn)在可以被快速壓縮、反復推演,不需要到片場開機后再叫停。
![]()
LibTV 很好「玩」,可以用較低的時間成本,就驗證一個模糊的想法
LibTV 剛好是在中間的平衡點上。
再往「手動檔」那邊走一點,會復雜到只能服務于受過科班訓練的影視從業(yè)者,再「自動化」一點,一切都被設置好了,人就只能不斷抽盲盒。
![]()
而在技術和創(chuàng)作的十字路口,LibTV 一邊是足夠扎實的產(chǎn)品底座,把生成、分鏡、剪輯這些原本分散的能力收攏在一起。
另一邊,是對影視創(chuàng)作流程本身的理解,它知道一部作品不是「生成」的,而是一步步推演出來的。正因如此,它既沒有把人困在繁瑣的細節(jié)操作里,也沒有把人直接踢出創(chuàng)作鏈路。
當一個工具足夠懂行,它一定能懂在一個行業(yè)中,「專業(yè)的人」有多重要。
就像資深影視從業(yè)者鄭林在《未來 1500 天,影視行業(yè)的錢會被這 1% 的人賺走?》那篇文章里所說的:「未來五年,這個行業(yè)里最值錢的東西……是一個真正懂行的人在看完一千個 AI 生成的畫面后,安靜地指著其中一個說:就是這個。」
最終,在那塊無限延伸的畫布上,算力、大模型和 Agent 最終都化作了托底的暗流。
水面之上,只有創(chuàng)作者的審美、判斷、選擇和最純粹的表達欲,以及那個早就該被講出來的好故事。
*頭圖來源:LibTV
本文為極客公園原創(chuàng)文章,轉載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待 LibTV ?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.