網易首頁 > 網易號 > 正文 申請入駐

實測豆包1.8后,我終于明白字節為什么要推豆包手機了。

0
分享至

大家好,我是袋鼠帝

好久沒有因為一款國產模型,產生這種明顯的期待感了。

這次,是豆包1.8。


在這個大家都忙著做年終總結的十二月,我本來以為AI圈能消停一會兒。

沒想到,字節不講武德,又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..




從節奏上看,字節這幾年在AI這條路上,一直走得非常穩。產品和模型并行發展,從文本到多模態,從對話到Agent,再從云端走到端側。

這次原動力大會,又是一次階段性成果的集中展示。

其中,豆包大模型1.8,作為字節新一代主力模型,正式接棒。

注意,是主力模型。

是接下來一段時間里,字節在企業Agent、應用層、工具鏈上真正要用、要打的那個模型。

先看看跑分:在教育、客服、金融、法律、審核等多個場景測評中處于領先水平


Agent能力和多模態理解能力非常強,直逼Gemini3 Pro


看得出來,這次不是單項能力的突破,明顯沖著一個目標去的:復雜Agent,尤其是企業級Agent。

比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了

雙手離開鍵盤~(順便聽一聽我最近一直單曲循環的歌)

說實話,第一眼看到豆包1.8的能力,我是有點驚喜的。

這一看就是能干實事的。因為下面這三個點能同時滿足,這在國產模型里,是獨一檔了。

>/ 第一:Agent能力往前走了一大步。

多工具調用能力增強,多輪指令遵循的穩定性大幅提升,長文指令不再容易跑偏,執行規劃能力更強。

尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。

在很多真實業務里,最后一公里從來不是推理,而是操作。

在屏幕上完成一些相對復雜的點點點的任務,這些事情對人來說可能很簡單,但對模型來說一直是難點。

豆包1.8把這件事當成重點去做,本身就是一個非常務實的信號。也很有可能就是沖著豆包手機去的。

>/ 第二:256K的超長上下文,是真的好用。

目前國產的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~

但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準越好。

豆包1.8的一個關鍵點在于,它支持通過原生API做上下文管理,什么意思?

你不再需要每次把所有歷史上下文一股腦塞進去,而是可以像整理文件夾一樣,按需清理、按需保留。

這在企業級 Agent 場景里,價值非常大。

一方面,成本直線下降。另一方面,模型的注意力更集中,執行穩定性也會更好。

>/ 第三:多模態能力這次是真的實打實升級了。

視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。

單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內容。

如果再配合火山方舟應用實驗室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關鍵片段。

這個邏輯,非常像一個聰明人快速學習新知識的方法。先快進掃一遍,再倒回來看重點。

這三點放在一起,我覺得豆包1.8非常適合搭建復雜Agent,跑真實流程。

之前,其他模型不太能完成的復雜任務,現在好像可以試著交給它了。

于是我快速做了幾個測試(難度越來越高),想看看它在復雜、多步驟、容易出錯的真實任務里,表現到底穩不穩。

因為Agent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環,或者慢慢跑偏。

目前火山引擎已經支持了豆包1.8的API


為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用


并集成了我認為最好用的瀏覽器自動化MCP-Server:playwright mcp


話不多說,我們開始!

多平臺電商篩選比價 + 跨平臺加購

先用這個案例來小試牛刀,如果這個任務跑不出來,后面的也不用看了。

Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍牙耳機,價格區間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價格區間后選定銷量第一就行了),然后在唯品會和京東進行這款耳機的比價,找到價格最便宜的同款耳機,添加到我的購物車中。

這個任務里,難點不在于找耳機。

難在三件事:

第一,要在平臺篩選、過濾,找到符合要求的正確的商品。

第二,要能跨平臺識別同款商品。

第三,最后一步需要實際操作,加購。

但是某寶有點der啊,為什么選擇了價格區間在500-1000,還有這么多500元以下的?


這個現象一度讓豆包1.8懷疑自己

豆包1.8內心:啊???我不是固定了500-1000價格嗎,為什么還有500以下的,不對,我再看看。

于是我加了一句提示:

可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價 格區間后選定銷量第一就行了

執行過程見視頻:

從執行過程來看,豆包1.8在幾個關鍵節點上表現都很穩。

它先打開了某寶,在搜索欄搜索半入耳式藍牙耳機,并篩選了500-1000的價格區間,以銷量排序,進入商品詳情頁確認了商品名稱。

然后打開某品會,搜索同款商品,對比價格,最后打開某東,發現某東的價格是最便宜的,并加入了購物車。

條件鎖定后,它不會反復橫跳。在不同平臺頁面結構差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現誤點或卡死。

整個過程像是一個熟練用戶在操作,每一步都比較精準。

但就是還是Agent的老問題,整個過程有點慢,看得著急(急性子估計用不了),好在最后順利完成了。

當然這里面有模型推理思考的時間,還有就是playwright MCP雖然已經是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執行操作,要調用多個工具協同完成,這個過程也比較耗時。

B站「影視颶風」互動任務

既然第一個任務成功了,那接下來難度升級

正好今天火山的大會Tim也去了,我們來給他的頻道增加點互動~

這個任務需要打開B站,進入影視颶風主頁,從投稿列表里篩選最近發布且播放量超過500萬的3個視頻,保存鏈接。然后逐個訪問,根據獲取到的信息,分別發出三條貼合內容的評論。

Prompt:請幫我登錄B站,去“影視颶風”的個人主頁執行一個互動任務。為了防止頁面刷新導致迷路,請你嚴格按照先找齊鏈接,再逐個訪問的順序來操作:

第一步,篩選視頻。請進入他的“投稿”列表,保持默認的“最新發布”排序。請耐心地從上往下滾動瀏覽,仔細查看每一個視頻的播放數據,直到找出最近發布的、且播放量明確超過500萬的3個視頻。找到后,請先把這3個視頻的鏈接保存下來。

第二步,發送評論。請依次直接訪問這3個鏈接。每進入一個視頻,先花點時間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點。然后,基于這些信息,分別寫一條言之有物、符合科技區粉絲調性的評論并發送。注意,三條評論的內容要完全不同,必須貼合各自的視頻主題。注意:評論的時候你一定要輸入自己思考后的內容,并點擊發布,不要被評論輸入框中自帶的文字誤導了

執行過程如下:

這個任務頁面多,信息雜,需要判斷、總結,還要生成貼合視頻的評論內容。

豆包1.8的表現,像一個知道自己在干嘛的人。

它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個訪問。

在評論生成上,沒有套模板,會根據視頻主題調整語氣和內容,像一個老粉一樣(雖然我是新粉 哈哈哈)。

創建火山API Key + Fastgpt配置

這個任務,我刻意選了一個容易翻車的場景。偏向開發者日常。

我幾個月前用某模型來測試過,一直是死循環,硬是選不中對的按鈕。

Prompt:進入火山引擎,控制臺,找到火山方舟并進入,在apikey那里,新建一個apikey并復制。打開fastgpt,登錄進去,根據 fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可。火山引擎地址: https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234

下面是我給豆包1.8的fastgpt的操作截圖


這個任務,幾乎集齊了Agent所有痛點,非常考驗模型的綜合理解能力。

難點在于,模型需要識別圖片上的操作指引,而且步驟非常細,任何一步錯了,后面都走不通。

包括頁面跳轉、字段識別、復制粘貼、表單提交。

跑下來,一個明顯的感受是,豆包1.8對頁面結構的理解很扎實,視覺能力也很強。

不會因為頁面稍微復雜,就迷路。

而且在長指令下,步驟執行順序穩定,沒有出現跳步或重復。

這些對于Agent應用,非常關鍵。

如果把視角再拉遠一點,你會發現,豆包1.8的很多能力,其實已經在為另一個方向鋪路。

那就是端側Agent。

最近備受爭議的豆包手機,我覺得就是一個非常直觀的嘗試。

系統級AI助手這件事,跨App自動化,系統級權限,模擬操作。

這些能力,在技術上是很酷的,但在現實生態里,必然會遇到阻力。

這不是模型的問題,而是整個行業的博弈。

豆包手機的意義,也不是賣了多少臺,而是驗證了一件事:

當模型的Agent能力足夠強,系統級AI助手這條路,是必然走得通的。

只是,怎么走,走多快,需要時間,也需要一些妥協。

豆包1.8的出現,無疑讓這條路更好走了

最后,如果你關心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。

那這一代豆包,確實已經走到一個很關鍵的位置了。

接下來,就看大家拿它,能做出什么樣的Agent了~

我是袋鼠帝,持續分享AI實踐干貨,我們下期見!

能看到這里的都是鳳毛麟角的存在!

如果覺得不錯,隨手點個贊、在看、轉發三連吧~

如果想第一時間收到推送,也可以給我個星標?

謝謝你耐心看完我的文章~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中興通訊發布一季報:營收349.9億元,算力占比升至27%

中興通訊發布一季報:營收349.9億元,算力占比升至27%

新浪財經
2026-04-25 18:53:27
閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

閆闖 被問買問界M6和Model Y哪個好? 被旁邊大哥一句話干沉默了

周哥一影視
2026-04-11 03:19:35
四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

四川達州一女神太漂亮了,這是什么逆天顏值,媲美西施并不過分

情感大頭說說
2026-04-04 09:49:49
美國已保不住日本,俄羅斯通告全球:中國的一切都在按照計劃進行

美國已保不住日本,俄羅斯通告全球:中國的一切都在按照計劃進行

阿柒的訊
2026-04-24 19:11:19
曼聯名宿斯科爾斯愛女僅穿內衣錄美妝視頻!引粉絲驚呼:美絕了

曼聯名宿斯科爾斯愛女僅穿內衣錄美妝視頻!引粉絲驚呼:美絕了

仰臥撐FTUer
2026-04-25 09:53:02
被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

夜深愛雜談
2025-12-02 20:51:10
古代黑科技秦直道,很多地方2000多年寸草不生,至今仍可使用

古代黑科技秦直道,很多地方2000多年寸草不生,至今仍可使用

抽象派大師
2026-04-24 12:20:31
都說國外好,今天說點大實話:加拿大和國內,根本是兩個世界

都說國外好,今天說點大實話:加拿大和國內,根本是兩個世界

千秋文化
2026-04-23 20:16:03
今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

今天才知道:冰箱冷凍室不能放這4樣,放了冰箱容易炸,真可怕

Home范
2026-04-20 11:07:38
Pure日月評論:飛天茅臺酒變天了!

Pure日月評論:飛天茅臺酒變天了!

馬蹄燙嘴說美食
2026-04-25 21:52:18
西方紛紛撤退,中國堅持死磕。為啥全世界就中國拼命搞核聚變?

西方紛紛撤退,中國堅持死磕。為啥全世界就中國拼命搞核聚變?

知識TNT
2026-04-25 09:40:10
國民黨、民眾黨聯手彈劾賴清德 5月19日將投票表決 此前累計超500萬人參與網絡聯署

國民黨、民眾黨聯手彈劾賴清德 5月19日將投票表決 此前累計超500萬人參與網絡聯署

每日經濟新聞
2026-04-24 18:53:33
雙子星閃耀!哈珀卡斯爾同場砍25+:比肩杜蘭特韋少

雙子星閃耀!哈珀卡斯爾同場砍25+:比肩杜蘭特韋少

體壇周報
2026-04-25 15:59:10
李金羽:為上一輪的失利向球迷致歉,接下來我們都會全力以赴

李金羽:為上一輪的失利向球迷致歉,接下來我們都會全力以赴

懂球帝
2026-04-25 22:34:05
中國首店!這家國際知名巧克力品牌落子淮海中路,超大巧克力墻,還有上海限定口味!

中國首店!這家國際知名巧克力品牌落子淮海中路,超大巧克力墻,還有上海限定口味!

上海黃浦
2026-04-25 21:08:11
天津賴老師被停課,才知道她早有“前科”!

天津賴老師被停課,才知道她早有“前科”!

牛鍋巴小釩
2026-04-25 18:14:48
扎哈羅娃抨擊西方對烏克蘭襲擊俄羅斯導致的環境破壞“視而不見”

扎哈羅娃抨擊西方對烏克蘭襲擊俄羅斯導致的環境破壞“視而不見”

山河路口
2026-04-24 19:06:09
退休前4-5年是黃金期!糊涂人混日子,聰明人都在悄悄布局

退休前4-5年是黃金期!糊涂人混日子,聰明人都在悄悄布局

瓜哥的動物日記
2026-04-25 21:05:57
iOS 26.4.2 續航測試出爐,這幾款機型崩了

iOS 26.4.2 續航測試出爐,這幾款機型崩了

簡科技
2026-04-25 13:43:43
丁俊暉拒絕連輸4局!單桿69分止損,6-8落后趙心童,小特優勢縮水

丁俊暉拒絕連輸4局!單桿69分止損,6-8落后趙心童,小特優勢縮水

劉姚堯的文字城堡
2026-04-25 23:48:43
2026-04-26 00:23:05
袋鼠帝 incentive-icons
袋鼠帝
持續分享AI實踐干貨,走超級個體崛起之路
75文章數 71關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

藝術
房產
家居
游戲
公開課

藝術要聞

蓬皮杜中心的韓國分館,6月4日開幕!

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

家居要聞

自然肌理 溫潤美學

金發美少女魔王和我是鄰居!新游首曝美女角色太吸睛

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版