網易首頁 > 網易科技 > 網易科技 > 正文

豆包2.1殺到生產現場：Coding/Agent跨過質變點，火山引擎要讓AI真干活

2026-06-26 14:16:51　來源: 態℃

北京舉報

分享至

出品 | 網易科技《態度》欄目

作者 | 紀川

編輯 | 丁廣勝

180萬億 Tokens 的日均調用量、49.5% 的中國公有云 MaaS 市場份額、超過110萬企業和個人開發者，這些數字擺在一起，已經足夠說明火山引擎在大模型市場的存在感。

但當調用量增長和模型能力提升逐漸成為頭部玩家的標配，真正決定下一階段競爭格局的，開始變成另一個問題：

模型能否從高頻使用，走向高價值交付；能否從個人嘗鮮和效率輔助，進入企業研發、辦公協同、內容生產和產業流程；能否在真實生產環境中穩定完成復雜任務。

火山引擎將這道分水嶺稱為“質變點”。

在其看來，圖像領域的 Nano Banana、視頻領域的 Seedance 2.0、語言模型領域的 Claude Opus 4.7，都被視為這一階段的代表性產品。它們的意義不只是生成效果進一步提升，而是讓 AI 開始從“展示能力”走向“交付結果”，逐步進入創作、辦公、研發和商業生產流程。

6月23日，火山引擎在北京舉辦2026夏季 FORCE 原動力大會，正式發布豆包大模型2.1。并宣布豆包視頻生成模型Seedance 2.5預計將于7月正式上線。

火山引擎認為，Seedance 2.0已經率先推動視頻生成跨過質變點，讓視頻模型從娛樂化工具進入商業內容生產環節，并開始服務具身智能、自動駕駛等高端制造業；而豆包2.1，則希望在 Coding 和 Agent 領域完成類似躍遷。

它要驗證的，不再是模型能否回答問題、生成代碼片段或調用幾個工具，而是能否理解復雜目標、拆解任務流程、持續協同多種工具，并最終在企業真實研發和業務場景中交付結果。

這背后，也是火山引擎敘事重心的一次轉變。

過去幾年，大模型行業的核心議題是能力提升；而從今年開始，越來越多廠商開始將關注點轉向生產力落地。競爭的焦點，正從模型能力本身，轉向結果交付能力。

更長期來看，火山引擎希望將模型、Agent、多模態能力與企業基礎設施進一步融合，成為承載下一代 AI 應用和產業智能化的新型生產力平臺。

01豆包2.1跨過Coding與Agent門檻，模型開始進入辦公現場

豆包大模型2.1這次同步推出兩個版本：面向高性能復雜任務的Doubao-Seed-2.1-pro，以及面向高性價比、高頻調用場景的Doubao-Seed-2.1-turbo。

其中，豆包2.1 Pro最核心的變化，集中在Coding、Agent和VLM三個方向。尤其是Coding與Agent，直接決定了模型能否進入真實辦公和生產流程。

火山引擎披露，豆包2.1 Pro在Terminal Bench 2.1、SWE-Pro、SciCode、GDPval、NL2Repo-Bench等多項評測中進入全球第一梯隊。其中，Terminal Bench 2.1接近Claude Opus 4.7；SciCode得分達到59.8，超過Opus 4.7與GPT-5.5；NL2Repo-Bench得分47.0，領先GPT-5.5和Gemini 3.1 Pro。

發布會上，火山引擎還展示了一個芯片設計中的RTL任務案例：豆包2.1 Pro連續運行近18小時，經歷9輪迭代，完成1300多行可用代碼，并跑通仿真、測試、綜合檢查等流程。

這個案例真正重要的地方，不是“寫了多少行代碼”，而是模型完成了一個真實工程任務的閉環：理解目標、拆解模塊、生成代碼、發現錯誤、持續調試，最后交付可驗證結果。

這也是為什么Coding會成為Agent能力的底座。

過去很多Agent本質上還是“模型加插件”：用戶說一步，它做一步；工具調用失敗，任務就中斷；上下文一復雜，結果就漂移。真正的生產級Agent，需要理解模糊目標、拆解任務、動態調整路徑，并在數據缺失、接口報錯、權限限制時自我修正，最終交付結果。

豆包2.1 Pro在Agent方向的升級，正是圍繞這一點展開。它強化了復雜任務理解和拆解能力，可以在復雜環境中動態調整執行路徑，提高真實業務場景中任務的一次性交付完成度。

這一變化會首先體現在豆包App和PC端的“辦公任務”模式中。

網易科技實測發現，“辦公任務模式”下，豆包專業版可以支持本地電腦操作、瀏覽器操作、網站生成、Office集成、飛書協同、Skill技能調用和定時任務等能力。

其中，最能體現“干活”屬性的，是本地電腦操作。下載豆包電腦版之后，通過授權，豆包可以協助調用電腦里的應用、瀏覽器和文件，完成文件整理、資料歸類、文檔處理、表格填寫、信息搬運和跨應用協作。

這意味著，用戶不再只是讓AI“幫我寫一段話”或“總結一份材料”，而是可以提出更接近真實辦公場景的需求：比如整理一個文件夾里的合同資料，把關鍵信息匯總到表格；根據網頁資料生成一份調研文檔；或者把多個來源的信息搬運、整合并輸出成結構化報告。

更重要的是，豆包專業版還嵌入了飛書的部分能力，整合了飛書旗下的辦公套件，包括在線文檔、表格、PPT等常用功能。也就是說，它不僅可以完成文字生成，還可以獨立制作滿足專業交付要求的在線文檔、在線表格和PPT作品。據了解，豆包專業版未來還將進一步與飛書融合。

也就是說，豆包正在從Chatbot升級為辦公現場中的任務執行者。

對企業來說，這個變化更加關鍵。據火山引擎披露，ezona、WPS、沐瞳、OPPO、美的等企業已經完成測試并落地，場景覆蓋代碼生成、智能體應用等方向。

這也是豆包2.1最重要的意義：它讓大模型更接近真實辦公現場。

02 Seedance帶動視頻生成質變，多模態能力走向生產系統

如果說豆包2.1解決的是語言、代碼和Agent進入生產的問題，那么Seedance、Seedream和Seed-Audio代表的，則是火山引擎在多模態生產系統上的布局。

其中，視頻模型Seedance 2.0是最關鍵的樣本。

譚待在采訪中提到，判斷一個模型是否跨過質變點，不能只看發布會Demo，而要看用戶真實使用方式有沒有變化。

他舉了Seedance 2.0的例子：在Seedance 2.0之前，視頻模型調用更多集中在周末，說明用戶主要把它當作UGC和娛樂工具；Seedance 2.0之后，工作日負載和調用次數超過周末，說明它已經開始被用于辦公和生產場景。

這是一個很直觀的信號。

當視頻生成只是“好玩”，用戶會在休閑時間使用；當它能夠生成具身智能和自動駕駛的合成數據、廣告素材、電商視頻、影視預覽、產品說明、培訓內容時，它就會進入工作日的生產流程。

Seedance 2.0實現了原生4K生成能力，支持4K 10-bit高位深原生直出，并已在影視創作、廣告、電商營銷等領域規模化落地。

即將于7月初上線的Seedance 2.5，則進一步強化三類能力：一是支持30秒單段原生直出，突破行業主流20秒左右的生成時長；二是支持最多50個全模態素材聯合輸入，包括角色設定、場景參考、實拍片段、腳本分鏡、3D資產等；三是支持在維持整體畫面不變的情況下進行局部編輯。

這些能力的價值，不只是讓視頻更精致，而是讓視頻生成更接近真實制作流程。

商業內容生產并不需要完全隨機的“抽卡式生成”，而是需要穩定、可控、可修改、可復用。多素材輸入和局部編輯，正是視頻模型從玩具走向工具、從工具走向生產系統的關鍵。

更重要的是，視頻模型的價值不只在內容行業。

在制造業，企業可以用它生成產品操作說明、員工培訓視頻、售后服務內容；在具身智能領域，可以生成機器人操作訓練數據；在自動駕駛領域，可以合成極端天氣、罕見事故、高速復雜路況等Corner Case，用于訓練和測試。

譚待在采訪中還提到，視頻生成模型是通往世界模型的重要路徑之一。因為視頻天然包含時間、空間、動作和環境變化。一個能夠生成連續、穩定、符合物理關系視頻的模型，背后一定具備一定的世界理解和連續推演能力。

因此，Seedance不只是內容生產模型，也可能成為未來機器人、自動駕駛、仿真訓練和數據生成的重要基礎能力。

除了視頻，火山引擎也在圖像和音頻方向同步推進。

Force大會展示最新的圖像模型Seedream 5.0 Pro，該模型將在近日上線，強調的不是單純“畫得更美”，而是交互式編輯、多圖層分離、高密度信息表達和多語種文字生成。這些能力更貼近企業設計工作流。商業設計需要的不只是生成一張圖，而是能持續修改、拆分圖層、承載復雜信息，并適配不同語言市場。

音頻模型Seed-Audio 1.0則把語音合成推進到更完整的制作流程。它支持0樣本多模態生成、長時一致性，以及多角色、多軌道語音同步合成與混編，適合有聲書、播客、影視配音、虛擬人、多語種傳播等場景。

當文本、代碼、圖像、視頻、音頻模型分別跨過自己的生產力門檻，真正的變化會發生在它們被Agent統一調度之后。

比如，一個企業用戶提出：“幫我做一支面向東南亞市場的新品發布視頻。”未來的Agent可以自動讀取產品資料、提煉賣點、生成腳本、設計分鏡、生成視覺素材、調用Seedance生成視頻片段、調用Seed-Audio生成多語種配音，并輸出適配不同平臺的版本。

這類工作過去需要策劃、設計、視頻制作、配音、翻譯、運營等多個角色協作。多模態模型加Agent，正在把它重構成一條自動化生產鏈。

這就是多模態質變的真正含義：不是單個模型效果提升，而是文本、代碼、圖像、視頻、音頻開始共同組成面向真實業務的生產系統。

03火山引擎進入“模型即生產力基礎設施”階段

豆包2.1和Seedance 2.0背后，是火山引擎更大的戰略：從提供模型能力，走向提供AI生產力基礎設施。

過去，大模型競爭更多圍繞“誰的模型更強”。但當模型逐漸跨過生產級門檻后，新的問題變成：企業如何真正用起來？

企業不是在真空中使用AI。它們有既有系統、內部數據、權限體系、安全要求、行業流程和ROI約束。模型能力再強，如果不能接入這些現實環境，也很難真正創造生產力。

這正是火山引擎想切入的地方。

截至2026年6月，豆包大模型日均Tokens調用量突破180萬億，過去一年增長超過10倍；火山方舟已服務超過110萬企業和個人；在中國公有云MaaS市場，火山引擎Tokens份額提升至49.5%；年Token調用量超過1萬億的企業超過200家，半年增長一倍，覆蓋互聯網、制造、金融、汽車等多個行業。

這些數據說明，火山引擎已經不是在驗證MaaS市場是否存在，而是在爭奪企業AI基礎設施入口。

但譚待在采訪中也提到，模型進入企業，不能只停留在API調用量增長，而要真正深入業務場景。為此，火山引擎今年專門成立了FDE團隊。

FDE不是傳統銷售，也不是普通售前，而是具備代碼落地能力和行業理解能力的工程團隊。它的任務是進入客戶業務現場，和標桿客戶一起找到AI真正能落地的關鍵環節，把模型能力轉化為可運行、可評估、可復制的方案。

這個動作說明，火山引擎已經意識到，大模型商業化不是把API賣給企業就結束了。真正的價值發生在模型進入業務流程之后：進入研發流程、營銷流程、金融分析流程、制造仿真流程、教育輔導流程、智能汽車交互流程。

發布會上，火山引擎展示了多個行業案例。

安謀科技采用火山引擎EDA混合云方案，將核心IP和設計數據保留本地，結合TRAE、ArkClaw、HiAgent等產品提升仿真、取數、CAD運維和UVM測試效率；Wind在金融終端集成豆包大模型，用于處理研報、公告等非結構化數據；新東方基于豆包打造AI助教Agent，覆蓋口語練習、作文批改和個性化反饋；涂鴉智能將豆包接入AIoT生態，已落地12000多個Agent，每天為全球用戶提供超過1.55億次AI交互。

這些案例共同說明，AI正在從外圍工具進入行業內部流程。

與此同時，火山引擎也在升級Agent基礎設施。

大會上發布的方舟CLI，支持開發者通過自然語言調用全系列模型，并一鍵接入Claude Code、Cursor、TRAE等主流Agent。AgentKit也全面升級，新增Policy和Registry模塊。

其中，Policy用于明確Agent行為邊界，確保Agent在企業身份、權限和策略范圍內執行；Registry則負責Agent、Skills和工具能力的統一注冊、發現和治理。

這背后的邏輯是，當Agent進入企業，它不再只是聊天窗口，而是一個能訪問數據、調用工具、執行動作的“數字員工”。企業必須知道它是誰、能訪問什么、能執行什么、不能做什么，以及出了問題如何追溯。

在安全和版權方面，火山引擎也同步補齊底座。

大會發布的AI Trust安全體系，覆蓋機密計算、智能體安全和安全運營。譚待在采訪中還透露，Seedance 2.0春節前就已經出來，但正式API到4月才開放，中間幾個月很重要的工作，就是完善安全策略、商業端安全策略、IP版權保護和用戶側人臉保護。

因此，火山引擎現在做的，不只是發布更強模型，而是搭建一套完整的AI生產力基礎設施：底層是豆包、Seedance、Seedream、Seed-Audio等模型；中間是火山方舟、方舟CLI、AgentKit、HiAgent、ArkClaw等平臺；上層是汽車、半導體、金融、教育、智能家居、制造、零售、具身智能、自動駕駛等行業場景。

質變點之前，AI主要回答問題。質變點之后，AI開始交付工作。

而火山引擎正在做的，就是把大模型從應用入口，推向企業生產力基礎設施。