網易首頁 > 網易號 > 正文申請入駐

豆包 Seed 2.0 Lite升級：給 Agent 裝上眼睛和耳朵

2026-05-06 20:11:44　來源: AI進化論花生

北京舉報

分享至

最近一個月模型發布太卷了。Claude Opus 4.7、GPT-5.5、DeepSeek V4 一個接一個，我每天打開 X 都覺得自己快被新模型淹沒。光是我自己，前幾周就趕著做了三期 B 站視頻去解讀這些發布。

錄過視頻的人應該有體會，做視頻最痛苦的環節之一，是剪字幕。

我錄視頻從來不按腳本念。

相比看著腳本讀稿，我通常還是更喜歡自由隨性點講，會顯得更有認為。然后遇到的情況就是：專業術語念一半改口、數字換種說法、想到一個例子塞進去，這是我錄視頻的常態。然后剪輯的第一步永遠是上字幕，丟進剪輯軟件自動識別，再花一個鐘頭改回來。

我特別討厭這個環節。倒不是麻煩。每次看到字幕里那一堆識別錯位的術語，我都會有點恍惚，總覺得有種說我普通話、英語發音不標準的彈幕在壞壞的飄過。

需要改寫什么呢？「Claude Opus 4.7」被聽成「Claude 四點七」，「Codex」被切成「Code X」，「GPT-5.5」變成「GBT 5.5」。

這些都還好，最離譜的一次：上周我錄了一段介紹我自己開源的huashu-designskill，自動字幕給我轉出來一行字「花書 Diffusion」。

它完全把 Huashu Design 重新解析成了一個根本不存在的 AI 模型。下面這種錯誤都算客氣了。

我研究了一下原因。這是語音識別工具通用的工作方式：它在聽音頻的時候不知道我在錄什么，沒有上下文，于是在所有可能的同音組合里挑一個它最熟悉的。「huashu-design」這種組合從來沒在它訓練數據里出現過。

這件事困擾我至少三年。每次寫完腳本我都會想：要是錄之前能跟模型說一聲「我接下來要講 Codex、Claude Opus 4.7、Hermes Agent，huashu-design 是我自己的開源項目」，它會不會就不犯這種錯？

我說一下我的工作臺。我大部分時間在Claude Code等Coding Agent里干活，寫文章、改代碼、做調研、整理素材都在它里面。它對我的意義是：絕大多數任務都應該在這個工作臺內自動化完成，少跳出去用別的工具，少切換上下文。

但 Claude Code 這個工作臺里沒有原生的音視頻通道。我錄的 B 站視頻丟不進去（即便丟進去也只能截圖分析），會議錄音根本沒法直接處理，別人家的產品發布動畫也得手動轉寫。它在文字這一層非常強，在「眼睛+耳朵」這一層基本是空的。我每次想把視頻或者音頻變成可以處理的文本，都得跳出工作臺，去用別的工具，再把結果粘回來。而這個跳出去的環節，就是「花書 Diffusion」翻車的地方。

這事兒其實不是字幕工具一家的問題。你看國內大模型公司最近這半年的發布節奏就明白了，幾乎所有家都跟著 Anthropic 把 coding 和 agentic 卷到極致，多模態放在了相對靠后的位置。

我能理解這個選擇。coding 和 agentic 確實是模型最高價值的方向，也是模型公司之間分勝負的地方。但做內容這一行，經常會卡住的反而是多模態：要看競品視頻是怎么剪的、要把會議錄音整理成紀要、要給自己的視頻做精準字幕、要從一段長視頻里撈出 3 個關鍵片段。這些事 LLM 本身解決不了，每次都要跳出工作臺，找一個語音識別工具、一個抽幀腳本、一個膠水流程拼起來。

最近在火山引擎看到字節方舟發了豆包 Seed 2.0 Lite（0428版）。看到價格這超低的價格有點心動，然后，正好啟發了幾種新的工作流靈感～

它在原來 02 月 Lite 版的基礎上做了一件事：這次 Lite 也能聽了。原來的 Lite 已經能看圖、能讀視頻、能處理文字，這次把聽覺補上了。是真的「聽」，不只是把聲音轉成文字，連情緒、環境聲、多說話人都能一起捕捉。

以及有個特別值得強調的點是，別一看「全模態」就以為它跟普通圖像理解模型差不多。它是能直接讀視頻的，不是只能看一幀靜態圖。你扔一段 60 秒的視頻進去，它能告訴你畫面節奏、字體風格、動效轉場、音視頻是否一致，這件事 GPT-5.5、Claude Opus 4.7 都做不到。御三家里暫時只有Gemini做了這項能力，但是他們實在是特么有點貴了，沒那么實用。

以及，甚至從性能表現來說，最新的Seed 2.0 Lite不止超過了前一代的Seed 2.0 Pro的視覺理解能力，甚至在多個維度上都達到了SOTA級別

所以嚴格來說，它給 Agent 裝上的不只是耳朵，還是一雙能讀視頻的眼睛。我接下來會用兩個 demo 把這兩件事都跑一遍。

而且關鍵點在這里：豆包 Seed 2.0 Lite 的調用方式跟你調任何一個大模型 API 沒區別。這意味著你可以在 prompt 里告訴它你接下來要聽的是什么。

我把那段錄有「huashu-design」的音頻丟給它，附上一個 1900 字的 prompt：錄制背景、說話人風格、46 個易錯術語清單（GPT-5.5、Claude Opus 4.7、Codex、Anthropic、Apollo Research……）。讓它輸出標準 SRT 字幕。

然后我把同一段音頻也丟進剪輯軟件自動字幕——剪輯軟件是大多數人做視頻的默認選擇，對比它最直觀。結果：

剪輯軟件這邊把 GitHub 聽成了 GitLab、Claude Opus 4.7 變 COS4.7、GPT-5.5 變 GBT5.5、Claude 4.7 變 cloud 4.7、huashu-design 變花書design——這不是剪輯軟件爛，是所有自動字幕工具的通病：沒有上下文，模型只能在同音組合里挑它最熟的那個。平時會拍視頻的同學應該懂我在說什么。

豆包這邊呢？全對。huashu-design、Claude Opus 4.7、GPT-5.5、GitHub、Claude 4.7，一個不錯。

但這里要補一個 best practice，不然你照著去試可能會失望：豆包不寫 prompt 直接跑，效果只比剪輯軟件好一點——還是會把一部分專有名詞識別歪。它真正的能力，是你把背景、術語清單、說話人風格都寫進 prompt 之后才解鎖的。這次升級真正解鎖的不是「模型能聽」，是「模型能在你給的上下文里聽」。

所以如果你要把它塞進生產鏈路，prompt 上下文是必須做的功課。少了這一步，全模態的能力就發揮不出來。

更出乎意料的是成本。一段 277 秒的音頻，加了 1900 字 prompt 反而比不加便宜——prompt token 多了 1208 個，但模型不用瞎猜了，輸出 token 少了 763 個。總成本下降 20%，單次不到一分錢。

事情到這里其實沒完，因為「帶上下文做字幕」只是這次0428升級最淺的一層。我接下來連做了兩個 demo，一個是用它去看另一支 AI 的產品發布動畫，一個是驗證它在真實工作流里的位置。也就是這篇文章真正想說的那件事：

這一代 Agent 工具，不管是 Claude Code、Cursor 還是 OpenClaw，一直缺一雙能聽音頻、能看視頻的耳朵和眼睛。豆包 Seed 2.0 Lite 0428 非常難得給補上了，價格還很實惠。

讓 AI 看另一支 AI 的產品視頻

字幕這條線我跑通之后，做了第二個實驗，更狠一點。因為我發現Seed 2.0 Lite模型在視頻理解能力上有點猛，機會是全方面碾壓Gemini-3-Pro的水平

OpenAI 上周在 X 上發 GPT-5.5 的時候配了一支 55 秒的 hero 動畫：白底、Inter 字體、打字機標題、4 段產品演示（解魔方、跨 Slack 修 bug、生成財務 PPT、blossom logo 收尾）。

這種動畫是產品發布的標準品，我自己做過幾次，每次都得拉競品視頻反復看，寫一份給前端的 brief，再過一遍設計稿。整個鏈路三天起步。

先看看 OpenAI 那段原視頻長什么樣：

我把這支 55 秒視頻直接喂給豆包 Seed 2.0 Lite，寫了一份 prompt：你看完這個視頻，按 8 個維度（節奏、視覺系統、動效轉場、文案策略、品牌資產、音頻、鏡頭、遷移建議）給我一份結構化輸出，最后給我一份「豆包 Seed 2.0 Lite 發布動畫」的分鏡表，要具體到顏色 hex、字號、動效時序，讓前端能直接動手。

它真給了。

視頻里幾乎所有可觀測的細節它都識別到了：5 段時間碼（0-4s 標題、5-13s 解魔方、14-34s Slack 修 bug、35-50s 生成 PPT、51-55s logo 收尾）、字體氣質（Inter 類無襯線、字重 700/400/500 三層）、強調色紫、blossom 花形符號在魔方表面和結尾出現兩次、BPM 估值 80-90、平均切換頻率 3.5 秒。它還順手指出了開場前 3 秒的鉤子結構和結尾 3 秒的品牌定格邏輯。

更有用的是 H 部分。它給我寫了一份可執行的分鏡表：7 段、每段時間碼、畫面元素、文案、動效、要用的數據點。我把這份表又過了一遍，把它默認套用 OpenAI 紫色那部分換成火山方舟自己的品牌色（ / ），把 5-13s 那段「全模態感官可視化」具象化（左側波形圖、中間豆包 logo 脈沖、右側抽幀縮略圖三欄匯聚），加了 SFX 節拍和字體規范，整成一份最終藍本。

然后這份藍本交給我自己另一個 skillhuashu-design（專門做 HTML 動畫的），讓它按藍本寫代碼、Playwright 錄屏、ffmpeg 出 MP4。最后產出長這樣：

整個鏈路從看視頻到拿到 MP4，沒有人寫一份 brief。

我以前做產品視頻是這樣的：看 5 個競品 → 寫 8 千字 brief → 找設計師 → 改 3 輪。現在變成：把 1 個競品丟進 LLM → LLM 寫 brief → 另一個 LLM 寫代碼出動畫。中間那 8 千字的 brief，是這次升級里第一個被吃掉的環節。

這個 demo 不是為了證明豆包能做視頻，它做不了，它只是看懂了視頻。讓 AI 看視頻這件事的價值，是把「拆解參考」這道工序從手動變成 API 調用。

數據對比：同一段音頻，兩個 prompt

回到字幕那條線，我把對比數據完整列一下，方便你看清楚 prompt 上下文到底改變了什么。

維度

不給上下文

給術語清單+背景

關鍵術語命中率

0/13 = 0%

13/13 = 100%

Claude Opus 4.7

Claude 四點七

Codex

Code X（斷成兩段）

GPT-5.5

GPT 5.5（丟連字符）

huashu-design

花書 Diffusion

29% / 22.1%

百分之二十九

字幕條數

72 條（碎）

41 條（適合閱讀）

SRT 時間戳格式合規

后段 5 處錯（句點）

全合規

總 token 成本

0.0101 元

0.0081 元（便宜 20%）

最反直覺的是最后一行。帶上下文的 prompt 多 1208 個 prompt token，你直覺以為更貴，但 completion 那一邊模型不用瞎猜了，反而少 763 個 token。多說一點話，讓模型少說一點廢話。這是這次升級里第二個被吃掉的環節：模型瞎猜的成本。

它在工作臺里的位置

把這兩個 demo 串起來看，論點其實很簡單。

豆包 Seed 2.0 Lite 0428 不是來替換你正在用的 LLM 的。它的輸出能力，寫代碼、復雜推理、長鏈路 Agent，肯定比不過 Claude Opus、GPT-5.5 這種旗艦。我也不會用它去寫 1 萬行代碼。

但輸入這一側，它提供的是 Claude Code、Cursor、Codex、OpenClaw 這一整代 coding agent 都沒有的能力：讓你直接把視頻、音頻、圖片以和文本同等地位塞進同一個 API 調用，讓 prompt 里的上下文直接作用在感知層。

這是「前置感官層」的意思，是它在你工作流里的位置：

視頻/音頻/截圖 → [豆包 Seed 2.0 Lite 0428] → 結構化文本 → Claude Code / Codex / OpenClaw / Trae → 代碼/文章
                  眼睛 + 耳朵

重點在這里：你不用換工作臺。日常用 Claude Code、Codex、龍蝦 OpenClaw、Hermes Agent，或者字節自家的 Trae 都行——把豆包 Seed 2.0 Lite 當成前置感官接一層進去，你原來的工作流立刻就有了完整的眼睛和耳朵。不用遷移、不用學新工具，只是給現有的 coding agent 補上它原來缺的那部分感知。

這個月初我發了一本 Hermes Agent 的橙皮書，講長鏈路 Agent 怎么把多步驟任務串起來。當時書里有一節專門講 Agent 工作流的「輸入側瓶頸」：絕大多數任務卡在「怎么把現實世界的視頻/音頻/會議錄屏喂給 Agent」這一步。

這本書寫完之后我自己在工作流里也沒真正解決這個問題，繞過去用 Whisper + 手動改字幕、用 Gemini 處理視頻、用一堆膠水腳本拼。豆包 Seed 2.0 Lite 0428 是我看到的第一個用一次 API 調用就把這兩件事都解決的全模態輕量模型。

價格也是這個論點的支撐。我只跟同檔的全模態輕量模型對比，旗艦模型不是同一個段位，沒必要拉進來。

模型

輸入（元/Mtok）

輸出（元/Mtok）

音頻輸入

Doubao Seed 2.0 Lite

0.6

3.6

9 元/Mtok

Gemini 3 Flash

3.6

21.6

7.2 元/Mtok

跟同尺寸的 Gemini 3 Flash 比，文本輸入便宜 6 倍，輸出便宜 6 倍。這個價格意味著你可以把它真的塞進生產鏈路，不只是做 demo。我那段 4 分 38 秒視頻轉字幕一次不到一分錢，意味著我每天錄的幾個視頻片段全跑一遍語音識別也只要幾毛錢。當成本低到「不用考慮成本」的時候，調用頻率就會漲一個量級，工作流的形態會跟著變。

下一次開 Claude Code 的時候，你可以試著把那段不愿意手動轉錄的會議錄屏丟給它了。

你也是時候給你的龍蝦裝上真正的耳朵和眼睛了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.