最近一個月模型發布太卷了。Claude Opus 4.7、GPT-5.5、DeepSeek V4 一個接一個,我每天打開 X 都覺得自己快被新模型淹沒。光是我自己,前幾周就趕著做了三期 B 站視頻去解讀這些發布。
![]()
錄過視頻的人應該有體會,做視頻最痛苦的環節之一,是剪字幕。
我錄視頻從來不按腳本念。
相比看著腳本讀稿,我通常還是更喜歡自由隨性點講,會顯得更有認為。然后遇到的情況就是:專業術語念一半改口、數字換種說法、想到一個例子塞進去,這是我錄視頻的常態。然后剪輯的第一步永遠是上字幕,丟進剪輯軟件自動識別,再花一個鐘頭改回來。
我特別討厭這個環節。倒不是麻煩。每次看到字幕里那一堆識別錯位的術語,我都會有點恍惚,總覺得有種說我普通話、英語發音不標準的彈幕在壞壞的飄過。
需要改寫什么呢?「Claude Opus 4.7」被聽成「Claude 四點七」,「Codex」被切成「Code X」,「GPT-5.5」變成「GBT 5.5」。![]()
這些都還好,最離譜的一次:上周我錄了一段介紹我自己開源的huashu-designskill,自動字幕給我轉出來一行字「花書 Diffusion」。
它完全把 Huashu Design 重新解析成了一個根本不存在的 AI 模型。下面這種錯誤都算客氣了。
![]()
我研究了一下原因。這是語音識別工具通用的工作方式:它在聽音頻的時候不知道我在錄什么,沒有上下文,于是在所有可能的同音組合里挑一個它最熟悉的。「huashu-design」這種組合從來沒在它訓練數據里出現過。
這件事困擾我至少三年。每次寫完腳本我都會想:要是錄之前能跟模型說一聲「我接下來要講 Codex、Claude Opus 4.7、Hermes Agent,huashu-design 是我自己的開源項目」,它會不會就不犯這種錯?
我說一下我的工作臺。我大部分時間在Claude Code等Coding Agent里干活,寫文章、改代碼、做調研、整理素材都在它里面。它對我的意義是:絕大多數任務都應該在這個工作臺內自動化完成,少跳出去用別的工具,少切換上下文。
但 Claude Code 這個工作臺里沒有原生的音視頻通道。我錄的 B 站視頻丟不進去(即便丟進去也只能截圖分析),會議錄音根本沒法直接處理,別人家的產品發布動畫也得手動轉寫。它在文字這一層非常強,在「眼睛+耳朵」這一層基本是空的。我每次想把視頻或者音頻變成可以處理的文本,都得跳出工作臺,去用別的工具,再把結果粘回來。而這個跳出去的環節,就是「花書 Diffusion」翻車的地方。
這事兒其實不是字幕工具一家的問題。你看國內大模型公司最近這半年的發布節奏就明白了,幾乎所有家都跟著 Anthropic 把 coding 和 agentic 卷到極致,多模態放在了相對靠后的位置。
我能理解這個選擇。coding 和 agentic 確實是模型最高價值的方向,也是模型公司之間分勝負的地方。但做內容這一行,經常會卡住的反而是多模態:要看競品視頻是怎么剪的、要把會議錄音整理成紀要、要給自己的視頻做精準字幕、要從一段長視頻里撈出 3 個關鍵片段。這些事 LLM 本身解決不了,每次都要跳出工作臺,找一個語音識別工具、一個抽幀腳本、一個膠水流程拼起來。
最近在火山引擎看到字節方舟發了豆包 Seed 2.0 Lite(0428版)。看到價格這超低的價格有點心動,然后,正好啟發了幾種新的工作流靈感~
![]()
它在原來 02 月 Lite 版的基礎上做了一件事:這次 Lite 也能聽了。原來的 Lite 已經能看圖、能讀視頻、能處理文字,這次把聽覺補上了。是真的「聽」,不只是把聲音轉成文字,連情緒、環境聲、多說話人都能一起捕捉。
以及有個特別值得強調的點是,別一看「全模態」就以為它跟普通圖像理解模型差不多。它是能直接讀視頻的,不是只能看一幀靜態圖。你扔一段 60 秒的視頻進去,它能告訴你畫面節奏、字體風格、動效轉場、音視頻是否一致,這件事 GPT-5.5、Claude Opus 4.7 都做不到。御三家里暫時只有Gemini做了這項能力,但是他們實在是特么有點貴了,沒那么實用。
以及,甚至從性能表現來說,最新的Seed 2.0 Lite不止超過了前一代的Seed 2.0 Pro的視覺理解能力,甚至在多個維度上都達到了SOTA級別
![]()
所以嚴格來說,它給 Agent 裝上的不只是耳朵,還是一雙能讀視頻的眼睛。我接下來會用兩個 demo 把這兩件事都跑一遍。
而且關鍵點在這里:豆包 Seed 2.0 Lite 的調用方式跟你調任何一個大模型 API 沒區別。這意味著你可以在 prompt 里告訴它你接下來要聽的是什么。
我把那段錄有「huashu-design」的音頻丟給它,附上一個 1900 字的 prompt:錄制背景、說話人風格、46 個易錯術語清單(GPT-5.5、Claude Opus 4.7、Codex、Anthropic、Apollo Research……)。讓它輸出標準 SRT 字幕。
然后我把同一段音頻也丟進剪輯軟件自動字幕——剪輯軟件是大多數人做視頻的默認選擇,對比它最直觀。結果:
![]()
剪輯軟件這邊把 GitHub 聽成了 GitLab、Claude Opus 4.7 變 COS4.7、GPT-5.5 變 GBT5.5、Claude 4.7 變 cloud 4.7、huashu-design 變花書design——這不是剪輯軟件爛,是所有自動字幕工具的通病:沒有上下文,模型只能在同音組合里挑它最熟的那個。平時會拍視頻的同學應該懂我在說什么。
豆包這邊呢?全對。huashu-design、Claude Opus 4.7、GPT-5.5、GitHub、Claude 4.7,一個不錯。
但這里要補一個 best practice,不然你照著去試可能會失望:豆包不寫 prompt 直接跑,效果只比剪輯軟件好一點——還是會把一部分專有名詞識別歪。它真正的能力,是你把背景、術語清單、說話人風格都寫進 prompt 之后才解鎖的。這次升級真正解鎖的不是「模型能聽」,是「模型能在你給的上下文里聽」。
所以如果你要把它塞進生產鏈路,prompt 上下文是必須做的功課。少了這一步,全模態的能力就發揮不出來。
更出乎意料的是成本。一段 277 秒的音頻,加了 1900 字 prompt 反而比不加便宜——prompt token 多了 1208 個,但模型不用瞎猜了,輸出 token 少了 763 個。總成本下降 20%,單次不到一分錢。
事情到這里其實沒完,因為「帶上下文做字幕」只是這次0428升級最淺的一層。我接下來連做了兩個 demo,一個是用它去看另一支 AI 的產品發布動畫,一個是驗證它在真實工作流里的位置。也就是這篇文章真正想說的那件事:
這一代 Agent 工具,不管是 Claude Code、Cursor 還是 OpenClaw,一直缺一雙能聽音頻、能看視頻的耳朵和眼睛。豆包 Seed 2.0 Lite 0428 非常難得給補上了,價格還很實惠。
讓 AI 看另一支 AI 的產品視頻
字幕這條線我跑通之后,做了第二個實驗,更狠一點。因為我發現Seed 2.0 Lite模型在視頻理解能力上有點猛,機會是全方面碾壓Gemini-3-Pro的水平
![]()
OpenAI 上周在 X 上發 GPT-5.5 的時候配了一支 55 秒的 hero 動畫:白底、Inter 字體、打字機標題、4 段產品演示(解魔方、跨 Slack 修 bug、生成財務 PPT、blossom logo 收尾)。
這種動畫是產品發布的標準品,我自己做過幾次,每次都得拉競品視頻反復看,寫一份給前端的 brief,再過一遍設計稿。整個鏈路三天起步。
先看看 OpenAI 那段原視頻長什么樣:
我把這支 55 秒視頻直接喂給豆包 Seed 2.0 Lite,寫了一份 prompt:你看完這個視頻,按 8 個維度(節奏、視覺系統、動效轉場、文案策略、品牌資產、音頻、鏡頭、遷移建議)給我一份結構化輸出,最后給我一份「豆包 Seed 2.0 Lite 發布動畫」的分鏡表,要具體到顏色 hex、字號、動效時序,讓前端能直接動手。
它真給了。
視頻里幾乎所有可觀測的細節它都識別到了:5 段時間碼(0-4s 標題、5-13s 解魔方、14-34s Slack 修 bug、35-50s 生成 PPT、51-55s logo 收尾)、字體氣質(Inter 類無襯線、字重 700/400/500 三層)、強調色紫、blossom 花形符號在魔方表面和結尾出現兩次、BPM 估值 80-90、平均切換頻率 3.5 秒。它還順手指出了開場前 3 秒的鉤子結構和結尾 3 秒的品牌定格邏輯。
![]()
更有用的是 H 部分。它給我寫了一份可執行的分鏡表:7 段、每段時間碼、畫面元素、文案、動效、要用的數據點。我把這份表又過了一遍,把它默認套用 OpenAI 紫色那部分換成火山方舟自己的品牌色( / ),把 5-13s 那段「全模態感官可視化」具象化(左側波形圖、中間豆包 logo 脈沖、右側抽幀縮略圖三欄匯聚),加了 SFX 節拍和字體規范,整成一份最終藍本。
然后這份藍本交給我自己另一個 skillhuashu-design(專門做 HTML 動畫的),讓它按藍本寫代碼、Playwright 錄屏、ffmpeg 出 MP4。最后產出長這樣:
整個鏈路從看視頻到拿到 MP4,沒有人寫一份 brief。
我以前做產品視頻是這樣的:看 5 個競品 → 寫 8 千字 brief → 找設計師 → 改 3 輪。現在變成:把 1 個競品丟進 LLM → LLM 寫 brief → 另一個 LLM 寫代碼出動畫。中間那 8 千字的 brief,是這次升級里第一個被吃掉的環節。
這個 demo 不是為了證明豆包能做視頻,它做不了,它只是看懂了視頻。讓 AI 看視頻這件事的價值,是把「拆解參考」這道工序從手動變成 API 調用。
數據對比:同一段音頻,兩個 prompt
回到字幕那條線,我把對比數據完整列一下,方便你看清楚 prompt 上下文到底改變了什么。
維度
不給上下文
給術語清單+背景
關鍵術語命中率
0/13 = 0%
13/13 = 100%
Claude Opus 4.7
Claude 四點七
Codex
Code X(斷成兩段)
GPT-5.5
GPT 5.5(丟連字符)
huashu-design
花書 Diffusion
29% / 22.1%
百分之二十九
字幕條數
72 條(碎)
41 條(適合閱讀)
SRT 時間戳格式合規
后段 5 處錯(句點)
全合規
總 token 成本
0.0101 元
0.0081 元(便宜 20%)
最反直覺的是最后一行。帶上下文的 prompt 多 1208 個 prompt token,你直覺以為更貴,但 completion 那一邊模型不用瞎猜了,反而少 763 個 token。多說一點話,讓模型少說一點廢話。這是這次升級里第二個被吃掉的環節:模型瞎猜的成本。
它在工作臺里的位置
把這兩個 demo 串起來看,論點其實很簡單。
豆包 Seed 2.0 Lite 0428 不是來替換你正在用的 LLM 的。它的輸出能力,寫代碼、復雜推理、長鏈路 Agent,肯定比不過 Claude Opus、GPT-5.5 這種旗艦。我也不會用它去寫 1 萬行代碼。
但輸入這一側,它提供的是 Claude Code、Cursor、Codex、OpenClaw 這一整代 coding agent 都沒有的能力:讓你直接把視頻、音頻、圖片以和文本同等地位塞進同一個 API 調用,讓 prompt 里的上下文直接作用在感知層。
這是「前置感官層」的意思,是它在你工作流里的位置:
![]()
視頻/音頻/截圖 → [豆包 Seed 2.0 Lite 0428] → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章
眼睛 + 耳朵
重點在這里:你不用換工作臺。日常用 Claude Code、Codex、龍蝦 OpenClaw、Hermes Agent,或者字節自家的 Trae 都行——把豆包 Seed 2.0 Lite 當成前置感官接一層進去,你原來的工作流立刻就有了完整的眼睛和耳朵。不用遷移、不用學新工具,只是給現有的 coding agent 補上它原來缺的那部分感知。
這個月初我發了一本 Hermes Agent 的橙皮書,講長鏈路 Agent 怎么把多步驟任務串起來。當時書里有一節專門講 Agent 工作流的「輸入側瓶頸」:絕大多數任務卡在「怎么把現實世界的視頻/音頻/會議錄屏喂給 Agent」這一步。
這本書寫完之后我自己在工作流里也沒真正解決這個問題,繞過去用 Whisper + 手動改字幕、用 Gemini 處理視頻、用一堆膠水腳本拼。豆包 Seed 2.0 Lite 0428 是我看到的第一個用一次 API 調用就把這兩件事都解決的全模態輕量模型。
價格也是這個論點的支撐。我只跟同檔的全模態輕量模型對比,旗艦模型不是同一個段位,沒必要拉進來。
模型
輸入(元/Mtok)
輸出(元/Mtok)
音頻輸入
Doubao Seed 2.0 Lite
0.6
3.6
9 元/Mtok
Gemini 3 Flash
3.6
21.6
7.2 元/Mtok
跟同尺寸的 Gemini 3 Flash 比,文本輸入便宜 6 倍,輸出便宜 6 倍。這個價格意味著你可以把它真的塞進生產鏈路,不只是做 demo。我那段 4 分 38 秒視頻轉字幕一次不到一分錢,意味著我每天錄的幾個視頻片段全跑一遍語音識別也只要幾毛錢。當成本低到「不用考慮成本」的時候,調用頻率就會漲一個量級,工作流的形態會跟著變。
下一次開 Claude Code 的時候,你可以試著把那段不愿意手動轉錄的會議錄屏丟給它了。
你也是時候給你的龍蝦裝上真正的耳朵和眼睛了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.