今天講一個(gè)我自己每天都在用的東西,視頻號(hào)粉絲做到 6100,每天我只手動(dòng)干一件事:發(fā)布
![]()
![]()
880c0206e68697eb76d0c24d8b168c4d.jpg 起因
做視頻號(hào)之前算過(guò)一筆賬,一條 5 分鐘的口播視頻,寫稿、錄音、剪輯、加字幕、加 BGM,最快 2 小時(shí)。一周三條,光是視頻就得吞掉 6 小時(shí)
太重了,做不下去
后來(lái)我換了個(gè)思路:公眾號(hào)文章已經(jīng)在寫,能不能讓 Coding Agent 把文章直接變成視頻?
折騰了幾周,把整條鏈路全打通。現(xiàn)在每天早上寫完公眾號(hào),對(duì) Agent 說(shuō)一句"文章轉(zhuǎn)視頻 + 路徑",喝杯茶回來(lái) MP4 已經(jīng)躺在那里,我只需要點(diǎn)"發(fā)布"
一句話生成視頻,里面到底發(fā)生了什么
7 個(gè) Agent Skills 串成一條流水線,互相調(diào)度,全程無(wú)人值守
你的文章(Markdown)
│
▼
┌─────────────────────────────────┐
│ 口播稿改寫 │
│ 把書面語(yǔ)改成口語(yǔ),去掉代碼塊, │
│ 調(diào)整節(jié)奏,加開場(chǎng)白和結(jié)束語(yǔ) │
│ 內(nèi)部還會(huì)調(diào)用一個(gè)標(biāo)題生成器 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 豆包 TTS 配音 │
│ 調(diào)用 seed-icl-2.0 模型 + │
│ 你自己克隆的音色 → 輸出 MP3 │
│ 整條視頻用你自己的聲音 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 火山 ASR 時(shí)間戳對(duì)齊 │
│ 把 MP3 喂給 volc.seedasr.auc, │
│ 返回每個(gè)字的出現(xiàn)時(shí)刻(毫秒級(jí)) │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Remotion 渲染豎版視頻 │
│ Node.js + Remotion + │
│ 思源宋體,文字逐字出現(xiàn), │
│ 9:16 豎版,干凈利落 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ BGM 混音 │
│ ffmpeg 把人聲和 BGM 按比例混合 │
│ 人聲 1.0、BGM 0.15 → 成品 MP4 │
└─────────────────────────────────┘
│
▼
你只做這一步:發(fā)布
5 個(gè) Skill,1 個(gè)標(biāo)題生成器,1 個(gè)主編排 Skill,加起來(lái) 7 個(gè)文件,整條鏈路自動(dòng)跑通
實(shí)測(cè)數(shù)據(jù)
1500 字公眾號(hào)文章 → 2-3 分鐘豎版視頻
渲染耗時(shí)(Apple M2/M3 本地):8-12 分鐘
每條視頻 API 成本:約 0.1 元(TTS + ASR)
字幕和聲音的同步精度:肉眼無(wú)錯(cuò)位
聲音是你自己的克隆音色,不是機(jī)器音
下載到的是一個(gè) zip 包,約 31 MB(思源宋體字體已經(jīng)塞在里面,不用再單獨(dú)下)
article-to-video-skills-share.zip
├── README.md 入口導(dǎo)航
├── INSTALL.md 給 Coding Agent 看的安裝指引
├── PROMPT-FOR-AGENT.md 開箱即用的安裝提示詞,復(fù)制粘貼給 Agent
├── SETUP-FOR-HUMAN.md 給你看的 API 申請(qǐng)清單 + 費(fèi)用估算
├── requirements.txt Python 依賴清單
└── skills/
├── 1-article-to-video/ 主編排 Skill,觸發(fā)詞:"文章轉(zhuǎn)視頻"
│ ├── SKILL.md
│ └── scripts/
├── 1-video-script-converter/ 口播稿改寫
│ ├── SKILL.md
│ ├── scripts/
│ ├── references/
│ └── assets/
├── 1-title_generator/ 標(biāo)題生成
│ └── SKILL.md
├── 1-doubao-tts-voice-clone/ 豆包 TTS + 音色克隆
│ ├── SKILL.md
│ ├── tts_voice_clone.py
│ └── test_tts_voice_clone.py
├── 1-audio-to-video/ 火山 ASR 時(shí)間戳
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
├── 1-remotion-audio-to-video/ Remotion 渲染(含字體)
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
│ └── SourceHanSerifSC-VF.ttf 57MB,已內(nèi)嵌
└── 1-video-bgm-mixer/ ffmpeg BGM 混音
├── SKILL.md
└── scripts/
所有代碼都做了脫敏處理,我的 API Key、音色 ID、品牌名、工作區(qū)路徑全部替換成占位符(${YOUR_VOICE_ID}、${YOUR_BRAND_NAME}、${WORKSPACE_ROOT}這種形式),安裝時(shí)由 Agent 引導(dǎo)你填上自己的值
安裝流程
解壓 zip 包
把
PROMPT-FOR-AGENT.md里那段提示詞整段復(fù)制,粘給你的 Coding AgentAgent 會(huì)問(wèn)你:工作區(qū)在哪、API Key 是多少、音色 ID 填什么、品牌名叫什么
Agent 自動(dòng)幫你復(fù)制 skill 目錄、替換占位符、裝 Python 依賴、裝 npm 依賴、把字體復(fù)制到系統(tǒng)目錄
裝完后對(duì) Agent 說(shuō)"文章轉(zhuǎn)視頻",能跑通就是 OK
整個(gè)過(guò)程 15-30 分鐘,絕大部分時(shí)間在等npm install
適合誰(shuí)
已經(jīng)在寫公眾號(hào)或博客,想低成本同步做視頻號(hào)
有 Coding Agent 基礎(chǔ),知道 Claude Code 或 Cursor 怎么用
想用自己的聲音做視頻,不想露臉
不想每條視頻耗 2 小時(shí)
完全沒接觸過(guò) Coding Agent,需要先去看入門教程
想做真人出鏡或剪輯花哨的視頻,這套是固定豎版字幕口播風(fēng)格
不愿意配置 API Key(這套依賴火山引擎,繞不開)
500 元,一次買斷
包含:
完整的 31MB zip 包(7 個(gè) Skill + 4 份文檔 + 字體 + Python 依賴清單)
一對(duì)一安裝答疑(48 小時(shí)內(nèi)響應(yīng),把錯(cuò)誤信息發(fā)我,大概率是路徑或 Key 配置問(wèn)題)
加我微信備注"視頻技能包"
總結(jié)
這套東西的價(jià)值,不在于"AI 生成視頻"這個(gè)功能本身,市面上工具一抓一大把
它的價(jià)值在于:和你已經(jīng)在做的事(寫公眾號(hào))無(wú)縫銜接,復(fù)用你的聲音、你的文風(fēng)、你的更新節(jié)奏,把視頻號(hào)的更新成本壓到接近于零
你寫完文章,剩下的事 Agent 全包了,你只需要做最后一件事:發(fā)布
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.