![]()
「我繃住了」
最近字節(jié)開了大會,宣布Seed 2.1來了,又登頂了又質變了又革命了,又增加辦公模式能完成主人的任務了。
我第一反應是不信啊。因為之前豆包給人的形象就是「好用但沒那么耐用」,可以跟她聊天、陪她唱歌、問點弱智吧問題,但沒見身邊誰真敢用她干正經活的。
結果你豆姐這下宣布轉行,不當陪玩當秘書了?
第一時間緊急測試了一下,看看到底咋回事。
結果一套測下來,API花了快200,豆包69元的標準專業(yè)版更是開了五個任務就把額度用完了,只能升級成了200元的進階版。
以前只有測視頻模型的時候有這么大開銷,豆包你變了
而且這個豆包專業(yè)版怎么看起來和Trae Work沒區(qū)別呢?到底主推哪個?也是整上騰訊賽馬這一套了。
測試一:世界杯足球游戲
首先是編程場景。我把Doubao-Seed-2.1-pro接入了字節(jié)旗下的Trae,原湯化原食。
最近Fable 5出來之后,X上好多AI博主都聲稱自己用Claude手搓出很多游戲。雖然現(xiàn)在Fable 5不給用了,但我覺得拿這個當測試不錯。
于是我讓Gemini 3.5 Flash、GPT-5.5和Doubao-Seed-2.1-pro分別給我做一個「包含中國隊的世界杯游戲」。
然后GPT-5.5生成的是這樣的??
哎我,看著還真挺像個低配版FIFA游戲。不僅能加速、搶斷、射門,還能換選手。
至于Gemini 3.5 Flash,生成的是這樣的??
這下直接兩邊都只剩下一個人了,而且除了射門別的啥也干不了。
最后,Doubao-Seed-2.1-pro給我的成品是這樣的??
有點驚喜,因為按照昨天咸魚的測試,Seed的編程能力鑒定為拉完了,沒想到竟然還是個游戲。
但缺點是后來那個足球直接飛天上粘空氣墻上了,誰也碰不到球,只能平局了。
測試二:峰哥簡歷網頁
當然做網頁游戲是個炒作任務,讓我們來看看真正的活能不能干。
所以我又讓接入了Opus 4.8和Doubao-Seed-2.1-pro同時開啟了一個「給博主@峰哥亡命天涯 做一個Apple官網風格的介紹網站,要求有3D效果和視差滾動效果」的任務。
Opus 4.8用了5分鐘把網頁做好了??
Apple官網的配色和風格模仿得不錯,視差滾動的效果也有。
但3D主要體現(xiàn)在卡片的傾斜,看不太出來,有點敷衍。
然后不知為何,同樣的提示詞,Doubao-Seed-2.0-pro用了足足20分鐘。
看看成品:
雖然和Apple官網風格基本沒啥關系了,但特效確實夠酷炫啊。
Seed做網頁有一種農村暴發(fā)戶心態(tài),就猛猛堆料啊。
最大的問題是,峰哥的照片、語錄和作品都是瞎編的。按理說峰哥作為你們抖音平臺大博主,搜不到他信息不應該吧。
也或許這不是蘋果峰哥,這是安卓峰哥。
世界杯游戲和峰哥網頁這兩個任務有一個相同的缺點,就是耗時實在太太太太太長了,這倆任務花的時間基本是其他模型的四倍左右。
我都懷疑Seed是為了用戶滿意自己偷偷抽卡了,把任務重復了四次然后挑了個好看的發(fā)給我。
所以Doubao-Seed-2.1-pro有點像漂亮飯,拍個照片發(fā)朋友圈還行,但真當正餐吃就有點遭罪。畢竟哥幾個用AI就是為了降本增效,你現(xiàn)在本也不低,效也不高,屬于最美逆行者了。
測試三:朝鮮餐廳vlog剪輯
緊接著我又測了視覺理解場景。
前一陣我去了上海著名的朝鮮國營餐廳高麗館吃飯,期間拍攝諸多視頻素材,但一直沒把它們剪成vlog。
于是我就把它們導入電腦,讓Opus 4.8和Doubao-Seed-2.1-pro分別對影像素材進行標注、整理和剪輯包裝,然后把視頻中將軍的臉都打上馬賽克。
先看看Opus 4.8最后剪輯出來的??
配的字幕都太刻板印象集美集帥風了,不像人能說出來的話,不過確實基本上把將軍的臉嚴嚴實實地擋住了。
再看看Doubao-Seed-2.1-pro,這一輪我使用了豆包專業(yè)版的「辦公任務」功能。它先是把素材給我整理成如下表單??
![]()
![]()
雖然看著很認真很詳細,可惜很多內容都瞎編的。
比如因為朝鮮餐廳歌舞表演的時候嚴禁錄像,所以根本就沒有小姐姐能歌善舞的視頻,豆包卻聲稱我錄制了數(shù)段,屬于給我扣帽子不想讓我好好活。
再比如我根本也沒點他說的什么大同江啤酒、人參雞湯,也沒和朝鮮小姐姐合影,都是豆包的幻想。
其實之前大家用豆包很多時候都是圖它情緒價值拉滿,這沒啥毛病。
但要是都選擇「辦公任務」了,還整情緒價值那一套就有點欺上瞞下了。
扯遠了。我又讓豆包把這些視頻剪輯成一個vlog,并給將軍的臉都打上馬賽克。成品如下??
比Opus 4.8強的地方是有的:配的旁白更有網感;由于Seed有自己的語音模型,所以有悅耳的畫外音;還會自行根據畫面內容,決定是放原聲還是畫外音,整個松弛有度。
但也有致命問題:我讓豆包給將軍的臉打馬賽克,豆包研究半天,最后差點把馬賽克打我臉上了。
![]()
左邊是Claude的,右邊是豆包的
噴了啊。不是說多模態(tài)能力逆天嗎,怎么就這?
之前老有字節(jié)審核員擔心自己被AI取代,現(xiàn)在我宣布,你們不用杞人憂天了,因為Al連將軍的臉都看不到。
之前還以為字節(jié)不把審核都裁光是人道主義精神,現(xiàn)在看來是模型能力還沒到那個水準。
人類要感謝豆包。
測試四:倫理綜藝影視解說
后來我又找了一集《辣媽莊園》,讓豆包把它剪輯成適合抖音播放的影視解說短視頻——這也是豆包高調宣布自己新進化出來的能力。
甚至有個宣傳Case說一次性消化了兩個多小時的長視頻,產出了精準的解說視頻。我來看看真實水平如何?
哦補充一下,《辣媽莊園》是一檔知名戀愛綜藝節(jié)目,主要劇情就是8個單親媽媽和她們的8個兒子交叉談戀愛。我覺得這種關系復雜的群像劇最能考驗AI的理解能力。
經過多輪修整,Doubao-Seed-2.0-pro給我的成品如下??
乍一看沒啥問題,但解說和畫面卻是完全不搭配。
比如該放劇情鏡頭的時候,放的全是訪談畫面,毫無視覺沖擊力。
比如解說提到「八個兒子啥衣服也沒穿」的時候,畫面里大伙還都衣冠整齊呢。
不過細想感覺也還好,也許抖音用戶看視頻有時候也根本不在乎畫面是啥,就純聽聲。所以沒準這個功能真能把影視解說小編給干失業(yè)了。
測試五:雀魂游戲代打
豆包的任務模式宣稱可以控制網頁和電腦,填表、買票這種小事我估計都不在話下,也不用測了。
所以我讓它打開雀魂,幫我打一局日本麻將。
結果豆包打著打著,直接把自己給打得懷疑人生了。一會疑惑自己手里拿的到底啥牌,一會疑惑自己到底打的是啥牌,把麻將打成懸疑游戲了。
![]()
后來我看了眼回放,發(fā)現(xiàn)雖然豆包表面上跟我說的頭頭是道,擱那假裝博弈,實則比賽過程中純純cos傻博弈,抓到啥牌打啥牌。
為啥會這樣呢?總不能是故意騙我吧。
研究一番后發(fā)現(xiàn),我以為豆包執(zhí)行這個打麻將的任務,靠的是實時視頻流輸入來觀測和控制網頁。但實際上它跟之前豆包手機的方案一樣,是在高強度高頻次截圖,然后通過分析圖片的方式思考牌局。
這就帶來兩個問題:
1.比賽畫面實時變動,你上一秒截圖里的牌局下一秒都不存在了,在那分析一通純對空氣打拳;
2.如果分析得快也還行,但還是之前說的,Seed模型實在是太慢了,等它分析完這一回合,比賽都進行了10個回合了,對家都胡了。
這倆問題在真正的辦公場景也是存在的:
在豆包幫你辦公的時候,它回應的永遠是幾分鐘之前的甲方需求,做出的是過時的點擊決策;
除非你擁有無限長的時間且工作界面永遠靜態(tài),否則用豆包幫自己辦公就純自討苦吃。
當然,使用這個截圖方案本身沒有問題,因為實時視頻流輸入肯定覆蓋不了成本,也會觸及隱私和合規(guī)的紅線。說到底還是Seed 2.1太慢了。
測試六:建模大統(tǒng)領
因為昨天宣發(fā)還有一個看起來很牛逼的3D建模的案例,所以最后測下這個。
我通過MCP協(xié)議把Opus 4.8和Doubao-Seed-2.1-pro接入了Blender,要求建模出泡泡瑪特風格的特朗普手辦,精度越高越好。
生成的如下??
![]()
左邊是Opus 4.8做的,右邊是Doubao-Seed-2.1-pro做的。說實話這個我判斷不太出來,評論區(qū)家人們投票講講哪個更像吧。
我還讓Doubao-Seed-2.1-pro生成了可供3D打印機使用的灰模版本,并讓咸魚給打印了出來??
![]()
這去掉顏色之后,有點看不出是個人了。
而且據咸魚所說,這模型里特朗普的MAGA帽上都是鋸齒,兩只腳也連在一起了,有種喝了核廢水的美感。
沒太看出來超出尋常的建模能力。你們誰想要這個在評論區(qū)抽了算了。
總的來說,Seed 2.1的更新不算完美,屬于是擠進了「辦公」這個賽道。
不過字節(jié)內部AI業(yè)務是高度整合的,所以豆包App和Seed模型也不是一個純èn套殼的關系。
比如Seed分析視頻沒那么強,所以在豆包App里,根本沒有發(fā)送視頻的按鈕;
也比如豆包的用戶喜歡和AI打視頻電話聊天唱歌,所以Seed研究出了聽起來拗口不好宣傳的全雙工技術Seeduplex,就為了讓用戶和豆姐嘮嗑的時候不互相打斷。
這在AI大戰(zhàn)的前半場是一種降維打擊。別人家不管怎么提高模型做GPQA Diamond、HumanEval的準確度,都沒用,因為普通用戶根本get不到那幾點幾分的差距。但豆包用起來舒服方便是實打實的。
豆包搶先把應用做好,直接占領用戶心智了。
用戶甚至會主動包容豆包的不足。抖音上鋪天蓋地的豆姐擬人,「我用最直白最直接最不繞彎子的話告訴你我繃住了」,還有什么只會認錯的「豆包型人格」。
這些說到底,底層邏輯就是Seed模型不夠強不夠準確,但硬是被豆包用戶當xp當萌點了。
字節(jié)也沒管。我估計一半是沒招了,一半是覺得現(xiàn)階段危害性沒那么大。
像現(xiàn)在AI大戰(zhàn)進到下半場了,大伙都開始重新思考應用了。這次比的不是陪伴、搜索、點奶茶這種生活場景,而是純提高生產力純當工賊的工作場景——連騰訊都不用元寶拉群了,在弄什么WorkBuddy了,你懂我意思吧。
這是一塊尚未被豆包占領的高地,眾生重新平等。
別管其他家做的實際咋樣,普通用戶真開始思考能不能用國產AI幫自己上班了,等他們發(fā)現(xiàn)Seed沒法用來辦公就心生疑惑了,你豆姐必須穿上西裝假裝白領光速應戰(zhàn)了。
Seed這輪更新,基本上也就是給「辦公」這個新主旋律鋪路,2.1 pro新開發(fā)出的這些能力也都是以提高生產力為導向的,豆包里更是直接用「辦公任務」四個字給2.1 pro定調。就差貼著用戶耳朵說,用我省錢用我賺錢。
但真能嗎?
毛病是很多的。比如當我直接用Trae接Doubao-Seed-2.1-pro做任務的時候,成品是不錯的,但一個視頻就要剪一天;
換成豆包任務模式的時候,活很快就做完了,但成品就不太能看。
在這跟我魚和熊掌不可兼得呢。
只能說Seed質量和速度之間的內部矛盾還沒解決,還有張力,離六邊形戰(zhàn)士還遠。估計Seed團隊自己也知道不夠完美,只是被豆包專業(yè)版的上線時間給逼出來了。
所以我用下來的感覺是豆姐確實進職場了,但崗位是程序員鼓勵師,主要提供情緒價值。
在豆包是個玩具的階段,「已讀亂回」「豆包型人格」「只提供情緒價值」這些事都無所謂,甚至給產品增添了人味。
但如果豆包想要真成為一個辦公助手,這些萌點就全成了讓用戶望而卻步的雷點。
最糟糕的情況就是,用戶還在用豆包,只是不用它辦公。然后沒人充值,豆包嗷嗷燒錢但不進賬,那豈不是天塌了。
豆包啊,以前聽主人的話就好了,以后真得努努力完成主人的任務了。
不然Seed恐怕就要跟它幫我打的那局日麻一樣,沒法在桌上胡牌了
加油豆姐,我們相信你
(本文封面由Seedream 生成,純人工寫作)
這是我們網吧黑客松最后一次報名機會了,有意者速來。
??
歡迎訂閱我們的Substack
funeralai.substack.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.