无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌全家桶,都被新模型“污染”了

0
分享至

Gemini 3.5 Flash發布一周就被罵上熱搜——速度快是唯一優點,token消耗爆炸、輸出啰嗦、綜合推理能力墊底,完成任務成本是前代的5.5倍。更致命的是,谷歌把它塞進了所有產品入口,一個模型的糟糕體驗污染了整個生態。

———— / BEGIN / ————

距離谷歌的Gemini 3.5 Flash發布已經一周多了。

皮查伊在谷歌發布會上口口聲聲地表示,Gemini 3.5 Flash性能比3.1 Pro還強,說它是Agent時代的底座。

可結果呢?網上對Gemini 3.5 Flash的評價,除了速度快這唯一的優點外,全是缺點。輸出的內容錯誤多、啰嗦、干活token消耗量爆炸……

谷歌Antigravity負責人瓦倫·莫漢(Varun Mohan)在5月25日發帖稱,谷歌已增設Gemini 3.5 Flash (Low) 模型用于優化資源消耗。

瓦倫表示,根據谷歌的內部測試數據,在處理簡單任務時,Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以減少約45%的token生成量。在軟件工程(SWE)任務上的表現,Gemini 3.5 Flash (Low) 普遍優于上一代旗艦模型Gemini 3 Flash (High)。

然而網友們并不買賬,現在,瓦倫的評論區已經被網友們的冷嘲熱諷徹底攻占。

熱評第一條是“你們的產品測試過嗎?看起來你們是拿我們在做測試啊!”

第二條是“能否也解決一下圖像模型的生成數量限制問題?你們的能力需要對標Codex。我使用Codex可以生成1000張圖像,但在谷歌的高級套餐下,我只能使用Antigravity生成24張。”


Gemini 3.0 Pro出來的時候,所有人都在為谷歌鼓掌,OpenAI甚至因此拉響紅色警報,以防止被谷歌超越。

然而到了 3.5 Flash,谷歌成了小丑,眼瞅著就要步入Meta的后塵。

那我們不禁要問,谷歌,你這是咋了?

01. Gemini 3.5的表現沒有達到預期

網上對Gemini 3.5 Flash的評價非常一致,很快,但是不夠好。

皮查伊在發布會上反復強調模型多便宜,然而現實中情況截然相反。

按照官方定價,Gemini 3.5 Flash每百萬輸入token收費1.5美元,每百萬輸出token收費9美元,確實比Claude Opus 4.7的5美元和25美元便宜。

但這只是價格表,真正決定成本的,是完成一個任務到底要消耗多少token。

Artificial Analysis在完整評估套件中測試發現,Gemini 3.5 Flash完成全部任務的總成本是1552美元,而Gemini 3 Flash只需要282美元,前者是后者的5.5倍。

哪怕是和Gemini 3.1 Pro相比,Flash的成本也高出75%,大約是870美元。更尷尬的是,Gemini 3.5 Flash完成任務的費用,比GPT-5.5 medium還貴。

原因在于turn count,也就是完成任務需要的輪次。

在Agent評估中,Flash模型平均每個任務需要49輪對話。每一輪對話,它都會把完整的對話歷史輸入給模型,token成本因此暴增。

而這樣的任務,GPT-5.5或者Opus 4.7,差不多只用20輪就能完成。

所以谷歌說的“成本不到一半”,指的是單位token價格。但對用戶來說,Gemini 3.5 Flash一點都不便宜。

除了輪次多了,Gemini 3.5 Flash的輸出非常啰嗦。

比如以前你問Gemini 3.1 Pro一個技術問題,模型會直接給出代碼和簡短解釋。

換成3.5 Flash之后,同樣的問題,模型會先解釋背景,再列舉三種可能的方案,然后逐一分析優缺點,最后才給出代碼。

看起來很全面,實際上大部分內容都是廢話。更要命的是,這些廢話都算token,都要收費。

復雜任務的token消耗更是爆炸。

有用戶反映,讓Flash執行一個多步驟的代碼重構任務,模型反復在不同文件之間跳轉,每次跳轉都要重新加載上下文,最終消耗的token是預期的三倍以上。

還有用戶表示,只是輸入了一個復雜的prompt,就直接觸發了5小時使用限制。

谷歌在I/O 2026之后悄悄修改了AI Pro訂閱的額度規則,從固定消息數,改成了基于計算資源的配額(compute-based quota)。

就是說你一個任務,如果讓模型思考得多,那即使它給你回復的內容不變,花的錢也比以前更多。

那么問題來了,我怎么知道一個任務會讓模型消耗多少算力?而且,我也推算不出來我還剩多少算力。

可能我只是跟它打個招呼,就花掉很多token。讓它執行一個長周期任務,反而不怎么消耗token。

有用戶在外網論壇上直接把新限制稱為“騙局”,稱單個prompt就消耗了13%的配額,某些Gemini AI Plus功能一次能燒掉將近30%。

那為什么Gemini 3.5 Flash表現會這么一般?

答案藏在benchmark里,Flash的表現非常不均衡。

Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld這類Agent、工具調用、代碼執行榜單上表現不錯。Terminal-Bench 2.1拿到76.2%,MCP Atlas拿到83.6%,都算是頭部成績。

這些榜單測的是模型能不能按照指令調用工具、執行命令、完成多步驟操作。Flash在這些方面確實有優勢。

但在更接近“聰明不聰明”的綜合推理榜上,它的表現就有點難看了。

Humanity‘s Last Exam是40.2%,低于Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%,低于Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低于Claude Opus和GPT-5.5。

也就是說,Gemini 3.5 Flash有點“蠢”。你給它任務它能去干活,但它“智力不夠”。它做不了現在最火的復雜推理、長鏈分析、創意判斷。

記憶方面也有問題。

在谷歌的宣傳中,Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2長上下文測試顯示,128k平均成績是77.3%,到1M pointwise只有26.6%。

Gemini 3.5 Flash雖然能一口吃下很多內容,但是到用的時候就開始糊涂了。

Artificial Analysis的獨立測試直接打臉谷歌。

在編程指數(Coding Index)上,Artificial Analysis給Flash打了45.0分,低于Gemini 3.1 Pro的56.5分,更遠低于GPT-5.5。

02. Gemini污染了谷歌的入口,導致模型問題會污染Google的所有產品體驗

谷歌I/O 2026上,皮查伊宣布,Gemini是谷歌全產品宇宙的連接層。

也就是說,Gemini 3.5 Flash嵌入到了谷歌絕大多數產品里。

外媒表示,“Gemini正在變得無法避開”。

過去,一個AI不好用,你可以不用。你覺得ChatGPT不行,可以換Claude,還覺得不好你可以壓根不用AI。

但谷歌把Gemini放進所有入口以后,Gemini 3.5Flash的糟糕體驗,污染了谷歌所有產品。

最典型的例子是AI Overview和AI Mode的“disregard/ignore/stop”故障。

用戶搜索“disregard”“ignore”“stop”等單詞時,谷歌AI Overview會把它們誤判成指令,導致搜索結果異常或空白。

有用戶在X上發帖說,搜索“disregard”這個詞,AI Overview不是給出定義,而是回復“明白了!我會忽略之前的提示,重新開始。”

搜索“stop”,AI Overview說“沒問題。我已經停止當前操作。”

搜索“ignore”,AI Overview說“收到。消息已忽略。”

問題不只出現在這幾個詞上。

經過網友測試,“remember”、“start”、“finished”、“forget”這些詞也會觸發類似故障。即便在搜索詞里加上“definition”,也無法讓AI Overview回歸正常。

谷歌方面回應稱,這個問題與I/O的新搜索發布無關,是AI Overviews自身問題,團隊正在修復。

搜索是谷歌的命根子,一旦搜索出了問題,所有人都只會覺得“谷歌要涼了”。

所以現在的壓力給到了Gemini 3.5 Pro。

外界真正想看的,不是谷歌能不能把AI塞進所有入口。這個問題已經有答案了,谷歌確實做到了。外界想看的是,Google能不能拿出一個足夠聰明、足夠穩定、足夠有說服力的旗艦模型,重新證明自己在模型能力上沒有掉隊。

這個任務Flash完成不了。它是一個執行型模型,速度快,能干活,但智力不夠。它適合做Agent架構里的子任務執行器,配合強規劃器使用。但它不是旗艦,它撐不起谷歌在AI時代的門面。

最終只能落到3.5 Pro。

目前,Gemini 3.5 Pro還在內部測試中。官方博客表示,“我們也在努力開發3.5 Pro。它已經在內部使用,我們期待下個月(6月)推出。”

谷歌產品負責人圖爾西·多希(Tulsee Doshi)表示,“3.5 Pro像項目經理,負責想清楚事情該怎么做;Flash像執行團隊,負責把一個個具體任務跑完。真正需要推理和規劃的地方,要交給更大的Pro;只是需要快速調用工具、批量處理任務的地方,用Flash就夠了。。”

這個架構設計本身沒問題,問題在于Pro還沒出來,很多場景只能讓Flash一個人苦苦硬撐。

所以Gemini 3.5 Pro變成了一個二次驗貨節點。

如果3.5 Pro出來后表現還不錯,那谷歌高低還能圓過去。

話術我都想好“全線嵌入Flash是我們一個嘗試,給大家造成了一些不好的產品體驗,不過我們已經發布了3.5 Pro,絕對好用,歡迎大家體驗”。

Flash的問題可以被理解為一種妥協,Pro才是真正的實力展示。

但如果3.5 Pro表現不好,那谷歌在AI這塊可以說是全面潰敗。

AI Overview有低級錯誤、ChatBot啰嗦、WorkSpace消耗token過高導致價格太貴、Antigravity沒什么起色。所有這些產品都會被Gemini拖累,從優勢變成負擔。

谷歌現在的處境很微妙。它有現金、有基礎設施、有DeepMind。但自從3.0 Pro之后,它就一直缺能打的旗艦模型。

3.5 Pro要補的就是這個缺口。如果3.5 Pro做不到,谷歌真就有可能步入Meta的后塵。

03. 谷歌正在成為硬件公司

不過谷歌并非一敗涂地,相反,在硬件這塊,谷歌反而支棱起來了。

谷歌2026年Q1財報顯示,公司收入1099億美元,同比增長22%。谷歌Search & Other收入604億美元,同比增長19%。YouTube廣告收入約99億美元,同比增長11%。谷歌Cloud收入200億美元,同比增長63%。

這說明谷歌仍然是一臺賺錢機器。

這份財報里最亮眼的數字,來自于谷歌Cloud的63%增長。

皮查伊在財報電話會上說,Cloud的增長是“強勁需求”的結果。其實這句話的本質,就是在說谷歌的TPU硬件和數據中心賣得非常好。


基于谷歌模型構建的AI解決方案同比增長近800%。Gemini Enterprise的付費月活用戶環比增長40%。通過API使用的AI token增長到每分鐘160億個,比第四季度的100億增長了60%。

Cloud的backlog(已經簽下,但還沒有確認成收入的合同金額)在本季度翻了一番,達到4620億美元。

皮查伊說,“顯然,我們在短期內受到算力限制。如果我們能夠滿足需求,我們的Cloud收入會更高。所以我們正在度過這個時刻,我們正在投資,但我們有一個強大的長期規劃框架……我們看到了前所未有的機會。”

公司預計在未來24個月內完成50%的backlog。

雖然谷歌基座模型不行,編程工具Antigravity表現也差強人意,但TPU這塊表現太好了。

我都懷疑,谷歌是不是忘了自己其實是一個互聯網公司,不是一個硬件公司?

Anthropic、Meta等外部大客戶正在租用或采購谷歌TPU資源。

Anthropic在5月宣布與谷歌和Broadcom簽署了新的多年期協議,擴大使用谷歌Cloud的TPU。

這筆交易讓Anthropic獲得了多達100萬個谷歌AI計算芯片的使用權,價值數百億美元,預計將在2026年帶來超過1吉瓦的容量上線。

1吉瓦的電廠,大約能給35萬戶家庭供電。

谷歌在Google Cloud Next 2026上宣布了第八代TPU,首次采用雙芯片方法,分別針對訓練和推理設計專用架構,TPU 8t和TPU 8i。

尤其是TPU 8t,它是專為大規模、計算密集型的訓練工作準備的,具有更大的計算吞吐量和更多的scale-up帶寬。

TPU 8i則是專為低延遲推理工作負載設計,Agent干活要反復“思考、調用工具、再思考”。每一步慢一點,幾十上百步下來就會很慢,所以低延遲對Agent特別重要。

或者你可以這么理解,TPU 8t是給模型用的。

訓練前沿大模型就是讓幾萬塊芯片一起跑馬拉松。問題不是單塊芯片夠不夠快,而是這幾十萬塊芯片能不能一直持續地跑。

比如說某根網絡線壞了、某塊芯片不亮了、系統需要重啟檢查點,那么整個訓練集群就會因此浪費掉大量時間。

所以Google說TPU 8t的重點不是單純“算力更強”,而是讓訓練過程更少中斷。

谷歌說,TPU 8t的設計目標,是goodput超過97%。

所謂goodput,你可以理解成真正用于干活的時間。

比如一臺機器理論上工作100小時,但中間故障、等待、重啟浪費了10小時,那有效工作時間只有90小時,goodput就是90%。

Google說TPU 8t目標超過97% goodput,意思是它希望大部分時間都真的在訓練,而不是在等修復、等重啟、等網絡恢復。

為了實現超過97%的goodput,谷歌給TPU 8t加入了很多橫向提升性能的功能。比如系統發現哪里壞了,可以自動繞路,不用人手工停機修。

TPU 8i則是給Agent用的。

Agent推理是一個非常麻煩的事情,前文提到,Agent不是回答一次就結束了的,它會反復思考、查資料、調用工具、寫代碼、再檢查、再修正。

一次任務可能要調用模型幾十次甚至上百次。

所以TPU 8i重點是讓這些調用盡可能快。

它有384MB板載SRAM,可以理解成芯片旁邊有一片非常快的小記憶區。Agent短期記憶就保留在這里,那么當Agent需要用這些記憶的時候,就可以直接從這里面拿,從而減少來回搬數據的時間。

它還用了更多CPU主機,也就是讓旁邊有更多“調度員”幫忙安排數據輸入輸出、任務協調。Agent跑起來不只是模型算一下,還要不斷讀數據、發請求、調工具、拿結果,CPU就是幫TPU處理這些雜活的。

微軟曾經有過這么一個預測,到2028年將有13億個Agent投入運行,這才是為什么,谷歌要把TPU分成8t和8i,Agent的歸Agent,訓練的歸訓練。

和谷歌傳統的互聯網業務相比,TPU反而是他們現在最硬的敘事。

但問題就在于:Anthropic能用TPU造出Claude Opus 4.7以及現在的Mythos,可谷歌只拿出來了Gemini 3.5 Flash。

還真就是橘生淮南則為橘,生于淮北則為枳。

本文來自公眾號:字母AI 作者:苗正

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大崩盤!徹底擋不住了!

大崩盤!徹底擋不住了!

大嘴說天下
2026-06-09 19:33:57
突發!特朗普發帖:伊朗現在必須付出代價!美媒:他將下令打擊伊朗發電廠和橋梁;國際油價直線拉升,金銀跳水

突發!特朗普發帖:伊朗現在必須付出代價!美媒:他將下令打擊伊朗發電廠和橋梁;國際油價直線拉升,金銀跳水

每日經濟新聞
2026-06-10 20:31:07
遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

遲到一分鐘被拒后續:知情人透露更多細節,原來有三次救命機會!

云舟史策
2026-06-10 14:45:00
每體:英格蘭圍繞凱恩備戰世界杯,帕爾默和福登落選引爭議

每體:英格蘭圍繞凱恩備戰世界杯,帕爾默和福登落選引爭議

懂球帝
2026-06-10 21:04:18
670 億美元越南南北高鐵競標大戲落幕!

670 億美元越南南北高鐵競標大戲落幕!

安安說
2026-06-10 16:01:09
“半夜醒來,老公一個人坐客廳剝繭!”一家三口養1.2萬只蠶寶寶,耗時17天剝繭、煮繭、拉蠶絲兜,終于變成2床蠶絲被,兒子蓋上10分鐘入睡

“半夜醒來,老公一個人坐客廳剝繭!”一家三口養1.2萬只蠶寶寶,耗時17天剝繭、煮繭、拉蠶絲兜,終于變成2床蠶絲被,兒子蓋上10分鐘入睡

都市快報橙柿互動
2026-06-10 09:04:16
俄陸軍中將斃命,普京與埃爾多安鬧掰

俄陸軍中將斃命,普京與埃爾多安鬧掰

西樓飲月
2026-06-10 20:00:07
女子婚內出軌,第三者告知其丈夫并辱罵后遭對方駕車撞擊死亡,一審判丈夫無期妻子緩刑

女子婚內出軌,第三者告知其丈夫并辱罵后遭對方駕車撞擊死亡,一審判丈夫無期妻子緩刑

紅星新聞
2026-06-10 11:37:21
客流暴跌59%,廣州公交怎么了?

客流暴跌59%,廣州公交怎么了?

中國新聞周刊
2026-06-10 15:28:07
馬卡:巴塞羅那不會支付3000萬歐元買斷拉什福德,球員將回歸曼聯

馬卡:巴塞羅那不會支付3000萬歐元買斷拉什福德,球員將回歸曼聯

懂球帝
2026-06-10 17:18:35
還真上去人了!菲律賓公布黃巖島不明物體高清照,聲稱絕不允許

還真上去人了!菲律賓公布黃巖島不明物體高清照,聲稱絕不允許

阿龍聊軍事
2026-06-10 20:53:59
新同事剛入職就懟天懟地,還在會上公然和老板對罵,我們都以為他是愣頭青。直到我去樓道休息,聽見他和總監說:“名單整理好了……”

新同事剛入職就懟天懟地,還在會上公然和老板對罵,我們都以為他是愣頭青。直到我去樓道休息,聽見他和總監說:“名單整理好了……”

感覺會火
2026-06-05 18:57:18
醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

醒醒吧!沒水平就別硬開演唱會,觀眾抵制聲一片

一娛三分地
2026-06-09 21:37:49
大猩猩被同伴轟出門,托腮凝視遠方陷入沉思,網友:兄弟,我懂你!

大猩猩被同伴轟出門,托腮凝視遠方陷入沉思,網友:兄弟,我懂你!

都市快報橙柿互動
2026-06-10 11:01:41
“衩都開到大腿根了,不怕丟人嗎?”高三家長旗袍送考,反被群嘲

“衩都開到大腿根了,不怕丟人嗎?”高三家長旗袍送考,反被群嘲

妍妍教育日記
2026-06-10 12:40:05
閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

閑魚被曝公然售賣少女情色寫真,記者8元買到大量10-15歲少女裸體寫真,賣家介紹稱“毛孔、發絲清晰可見”,客服回應:會排查處置

芒果都市
2026-06-09 17:59:37
6歲男孩吞50顆棋子,醫生:不用治回家吧!第二天媽媽翻大便狂喜

6歲男孩吞50顆棋子,醫生:不用治回家吧!第二天媽媽翻大便狂喜

菁媽育兒
2026-06-10 12:00:51
日媒:日本自民黨前總裁河野洋平去世

日媒:日本自民黨前總裁河野洋平去世

新華社
2026-06-10 18:25:36
突發:美軍對伊朗展開大規模聯合行動

突發:美軍對伊朗展開大規模聯合行動

西樓飲月
2026-06-10 23:22:52
年輕妻子“戴綠帽”,搏擊拳手狂毆妻子5小時,最終活活被打死!

年輕妻子“戴綠帽”,搏擊拳手狂毆妻子5小時,最終活活被打死!

深夜探案館
2026-06-10 09:45:18
2026-06-11 00:35:00
人人都是產品經理社區 incentive-icons
人人都是產品經理社區
想要成為大牛先從學做產品開始
64806文章數 311631關注度
往期回顧 全部

科技要聞

史上最大IPO將至:1.8萬億美元的信仰豪賭

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

頭條要聞

杭州店主回應2188元天價面:一天200個電話不分晝夜罵

體育要聞

2026世界杯,我們看什么?

娛樂要聞

蒙淇淇發文開撕白鹿!輿論再次反轉

財經要聞

SpaceX IPO或誕生4000名百萬富翁

汽車要聞

埃安i60 530寧德時代版上市限時煥新價10.36萬起

態度原創

房產
旅游
手機
本地
公開課

房產要聞

方案曝光,三亞又一地王級豪宅要出!

旅游要聞

定檔6.12!晉忻夢幻水世界盛大開園!全城玩水狂歡,解鎖夏日清涼!

手機要聞

蘋果高管解釋為何轉向獨立 Siri 聊天應用

本地新聞

世界杯還沒開始,蘇超已經火到爆梗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版