亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3 深夜發(fā)布:碾壓GPT-5.1、超越Claude 4.5,中文卻是短板?

0
分享至

從數(shù)學(xué)競賽的 “地獄級” 突破到智能體開發(fā)平臺的生態(tài)革新,這場由 TPU 算力支撐的技術(shù)爆發(fā),標(biāo)志著 Google 在 AGI 賽道強(qiáng)勢回歸。但光鮮戰(zhàn)績背后,中文表現(xiàn)與寫作能力的明顯短板,也讓這場 “最好 LLM” 之爭留下了更多懸念。

———— / BEGIN / ————

推特上喊了快 1個月的 Gemini 3「馬上發(fā)布」,昨晚狼真的來了!


沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。連 Sam Altman 都久違地獻(xiàn)上了自己的點贊。


這一次,那個曾經(jīng)定義了 Transformer、如今「All in Gemini」的巨人,真的殺回來了。

全面霸榜的推理怪獸:SOTA 殺瘋了

事實證明,Google 沒有讓等待的人失望。Gemini 3 Pro 的發(fā)布再一次定義了 SOTA(State-Of-The-Art)。


根據(jù) Google 披露的數(shù)據(jù),Gemini 3 Pro 在推理、多模態(tài)、Agent 工具使用等關(guān)鍵基準(zhǔn)上,實現(xiàn)了全方位的霸榜。

  • 數(shù)學(xué)能力的「地獄級」碾壓:在數(shù)學(xué)競賽的「地獄模式」MathArena Apex 里,當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這就像小學(xué)生還在掰手指算加減法,旁邊的 Gemini 3 已經(jīng)開始徒手搓火箭了。

  • 人類智力的天花板:在 Humanity’s Last Exam(人類最終大考)中,Gemini 3 Pro 轟出了37.5%的高分(GPT-5.1 為 26.5%)。在開啟工具使用后,更是達(dá)到了45.8%

  • 視覺智能的質(zhì)變:在衡量屏幕理解能力的 ScreenSpot-Pro 測試中,GPT-5.1 得分僅為 3.5%(基本是瞎子),而 Gemini 3 Pro 高達(dá)72.7%。這是近乎20 倍的能力碾壓!


但這還不是極限。

Google 還藏了一手Gemini 3 Deep Think(深度思考模式)

在不使用任何工具的情況下,Deep Think 模式在 Humanity's Last Exam 上的得分飆升至41.0%

在 ARC-AGI-2 上更是取得了前所未有的45.1%的得分。

這意味著模型在處理復(fù)雜學(xué)術(shù)問題時,已經(jīng)具備了完全不同的理解深度。


顛覆性的交互體驗:生成式 UI 與 Vibe Coding

Gemini 3 的野心不止于跑分,它正在從 Chatbot 進(jìn)化為Generative App

首創(chuàng)「生成式界面」(GenUI):以前的 AI 給你文字或代碼,現(xiàn)在的 Gemini 3 能直接為你生成一個交互界面。比如搜索「RNA 聚合酶工作原理」,它不再扔給你一堆鏈接,而是利用強(qiáng)大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動 3D 分子模型。你不僅可以瀏覽,還能點進(jìn)去和里面的元素交互。

Vibe Coding:理解你的「直覺」Gemini 3 引入了「Vibe Coding」概念。你不需要清楚地描述開發(fā)要求,它能捕捉你的開發(fā)風(fēng)格和模糊意圖。只用一句話,Gemini 3 就能通過感知你的「編碼直覺」,直接生成全功能的應(yīng)用程序。

實測了幾個案例,前端能力簡直炸裂

復(fù)刻 Web OS:僅僅輸入一段 Prompt,要求創(chuàng)建一個類似 Windows 的 Web OS。Gemini 3 Pro 寫了將近 2 分鐘,結(jié)果真的生造了一個系統(tǒng)!從終端、代碼編輯器到畫圖工具,大部分功能竟然都是可用的。

復(fù)古 3D 游戲:編寫一款具有豐富視覺效果的太空飛船游戲,一句話搞定(from 機(jī)器之心」


Google Antigravity:Agent 優(yōu)先的開發(fā)平臺

有了最強(qiáng)的模型,Google 直接在應(yīng)用層「掀桌子」,扔出了小王炸——Google Antigravity

這不僅僅是一個 IDE,它是 Google 定義的Agent-first(智能體優(yōu)先)開發(fā)平臺。在這里,Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權(quán)限的「執(zhí)行合伙人」。

Antigravity 配置了一個「模型軍團(tuán)」協(xié)同作戰(zhàn):

  • Gemini 3:大腦,負(fù)責(zé)推理和寫代碼。

  • Gemini 2.5 Computer Use:手眼,控制瀏覽器進(jìn)行 UI 驗證。

  • Nano Banana:美工,生成圖像和 UI 素材。

這種打通底層模型到頂層交互的閉環(huán)體驗,對于 Cursor 等現(xiàn)有編輯器來說,無疑是一次降維打擊。Agent 可以代表你自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù),甚至自己打開瀏覽器驗證 UI,發(fā)現(xiàn)報錯自己修。

致命短板:寫作能力慘遭 Claude 4.5 吊打

雖然代碼和推理能力強(qiáng)到讓人頭皮發(fā)麻,但在寫作能力上,Gemini 3 Pro 卻讓人大跌眼鏡。

實測顯示,在科普文章寫作方面,Gemini 3.0 的表現(xiàn)幾乎是在「御三家」里墊底

以「基于上下文工程技術(shù)文章寫科普文」為例:

  • Claude 4.5 Sonnet:寫了 3000 字,場景描述抓人,用咨詢顧問做類比把抽象概念講透,結(jié)尾還能升華認(rèn)知。

  • Gemini 3.0:輸出只有 1000 多字。雖然開頭用了「你有沒有過這樣的經(jīng)歷」的套路,但每個觀點點到為止,缺乏展開和讓人眼前一亮的類比。

更讓人抓狂的是,Gemini 3.0 依然保留了老毛病:喜歡在中文后面加括號注釋英文單詞(如「提示詞工程(Prompt Engineering)」),讀起來非常割裂,像是一份沒翻譯完的文檔。

相比之下,Claude 4.5 Sonnet 理解什么時候該鋪墊、什么時候該直給,這一點目前 Gemini 3 確實還做不到。

谷歌王者歸來

Gemini 3 的發(fā)布,釋放了一個強(qiáng)烈的信號:算力霸權(quán)依然存在

Gemini 3 Pro 是使用 Google TPU 從頭開始訓(xùn)練的。當(dāng)全世界都在等英偉達(dá) GPU 時,Google 坐在自家的 TPU 礦山上,擁有極高的帶寬內(nèi)存和算力冗余,這給了它肆意擴(kuò)張參數(shù)規(guī)模的底氣。

從底層的 TPU 硅基霸權(quán),到中間層的 Antigravity 開發(fā)生態(tài),再到頂層的生成式 UI,Google 展示了一個只有巨頭才能構(gòu)建的嚴(yán)絲合縫的未來。

雖然寫作能力略顯拉胯,但在代碼、推理和多模態(tài)交互上,Gemini 3 確實已經(jīng)殺瘋了

對于開發(fā)者而言,會不會寫前端、會不會調(diào)框架可能真的不重要了。重要的是你能不能把腦子里的東西,翻譯成精準(zhǔn)的 Prompt。

Gemini 3 現(xiàn)已全面開放,即日起可通過 Google AI Studio 體驗。

至于它到底能不能終結(jié)「最好的 LLM」之爭?讓子彈(和服務(wù)器)再飛一會兒。

本文來自公眾號:餅干哥哥AGI 作者:餅干哥哥AGI

2025AI產(chǎn)品大會,將于12月20-21日在深圳開幕!

聚焦“AI+行業(yè)”的落地實踐,分享AI在物流、音視頻、內(nèi)容、數(shù)字化、工業(yè)制造、大數(shù)據(jù)、協(xié)同辦公、出海、具身智能、智能硬件等等領(lǐng)域的具體案例。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗或再次上當(dāng)?局勢180度反轉(zhuǎn),美突然變臉,特朗普:謝謝伊朗

伊朗或再次上當(dāng)?局勢180度反轉(zhuǎn),美突然變臉,特朗普:謝謝伊朗

軍機(jī)Talk
2026-04-18 11:48:59
ESPN詳解勇士休賽期:庫里或2年1.367億續(xù)約 格林科爾未來成疑

ESPN詳解勇士休賽期:庫里或2年1.367億續(xù)約 格林科爾未來成疑

羅說NBA
2026-04-18 13:37:37
拉夫羅夫剛回國,普京在莫斯科會上罕見發(fā)火!特朗普意外送上助攻

拉夫羅夫剛回國,普京在莫斯科會上罕見發(fā)火!特朗普意外送上助攻

書紀(jì)文譚
2026-04-17 18:16:26
海事情報公司:伊朗革命衛(wèi)隊向試圖穿越霍爾木茲海峽的油輪開火

海事情報公司:伊朗革命衛(wèi)隊向試圖穿越霍爾木茲海峽的油輪開火

界面新聞
2026-04-18 18:53:56
世錦賽戰(zhàn)報:正賽首輪,趙心童失誤不少,依舊3-1。張安達(dá)2-2

世錦賽戰(zhàn)報:正賽首輪,趙心童失誤不少,依舊3-1。張安達(dá)2-2

求球不落諦
2026-04-18 19:12:40
面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

面多加水,水多加面?外媒痛批:電車3噸重,填鴨式造車不可取!

少數(shù)派報告Report
2026-04-17 07:03:05
深夜猝死的人增多!醫(yī)生反復(fù)強(qiáng)調(diào):吃完晚飯后,盡量少做這4件事

深夜猝死的人增多!醫(yī)生反復(fù)強(qiáng)調(diào):吃完晚飯后,盡量少做這4件事

岐黃傳人孫大夫
2026-04-18 11:45:03
張雪機(jī)車奇觀:10萬人在飲料直播間看摩托車比賽,提心吊膽地

張雪機(jī)車奇觀:10萬人在飲料直播間看摩托車比賽,提心吊膽地

真理是我親戚
2026-04-18 14:14:19
46歲馬寧成亞冠頭條 2次爭議判罰惹怒2萬人 球員怒撞他被直接罰下

46歲馬寧成亞冠頭條 2次爭議判罰惹怒2萬人 球員怒撞他被直接罰下

風(fēng)過鄉(xiāng)
2026-04-18 10:24:20
伊朗軍方發(fā)言人:因美國“違背承諾”伊方已恢復(fù)對霍爾木茲海峽的控制

伊朗軍方發(fā)言人:因美國“違背承諾”伊方已恢復(fù)對霍爾木茲海峽的控制

財聯(lián)社
2026-04-18 16:16:06
快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

快檢查自家陽臺!有人家里已大量出現(xiàn),官方提醒:千萬別摸

環(huán)球網(wǎng)資訊
2026-04-18 16:23:18
80年失蹤已久的彭加木“現(xiàn)身”美國,中央嚴(yán)令:無論如何要找到他

80年失蹤已久的彭加木“現(xiàn)身”美國,中央嚴(yán)令:無論如何要找到他

春秋硯
2026-04-18 15:30:08
數(shù)名醫(yī)生強(qiáng)調(diào):只要做過腸息肉切除手術(shù),術(shù)后病人一定關(guān)注這幾點

數(shù)名醫(yī)生強(qiáng)調(diào):只要做過腸息肉切除手術(shù),術(shù)后病人一定關(guān)注這幾點

垚垚分享健康
2026-04-18 08:47:05
在醫(yī)療領(lǐng)域搞新型隱性腐敗,武漢大學(xué)中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

在醫(yī)療領(lǐng)域搞新型隱性腐敗,武漢大學(xué)中南醫(yī)院原黨委常委、院長王行環(huán)被“雙開”,曾任武漢雷神山醫(yī)院院長

大風(fēng)新聞
2026-04-18 11:25:25
234萬平方公里大國,海岸線僅37公里:準(zhǔn)內(nèi)陸國到底有多憋屈

234萬平方公里大國,海岸線僅37公里:準(zhǔn)內(nèi)陸國到底有多憋屈

兔斯基聊科學(xué)
2026-04-18 10:45:36
難過啊!80后男人的葬禮上,出殯草草了事,家人連一聲痛哭都沒有

難過啊!80后男人的葬禮上,出殯草草了事,家人連一聲痛哭都沒有

火山詩話
2026-04-18 16:26:38
國家工作人員巨額財產(chǎn)來源不明罪新規(guī)立案標(biāo)準(zhǔn)從30萬提高到300萬

國家工作人員巨額財產(chǎn)來源不明罪新規(guī)立案標(biāo)準(zhǔn)從30萬提高到300萬

深度報
2026-04-17 22:54:19
越南迎來公務(wù)員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

越南迎來公務(wù)員下崗潮,數(shù)十萬人鐵飯碗不保,越南要做什么?

琴琴有氧運(yùn)動
2026-04-17 23:36:42
中國已經(jīng)退無可退了!美軍早就選好了他們的主戰(zhàn)場

中國已經(jīng)退無可退了!美軍早就選好了他們的主戰(zhàn)場

阿七說史
2026-04-16 15:55:50
生涯第七次無緣季后賽!庫里場下不停搖頭顯沮喪 膝傷反復(fù)僅17分

生涯第七次無緣季后賽!庫里場下不停搖頭顯沮喪 膝傷反復(fù)僅17分

顏小白的籃球夢
2026-04-18 12:56:46
2026-04-18 21:00:49
人人都是產(chǎn)品經(jīng)理社區(qū) incentive-icons
人人都是產(chǎn)品經(jīng)理社區(qū)
想要成為大牛先從學(xué)做產(chǎn)品開始
64638文章數(shù) 311585關(guān)注度
往期回顧 全部

數(shù)碼要聞

這“游戲盒子”,能挑戰(zhàn)Steam Machine?

頭條要聞

女子經(jīng)介紹加入平臺搶紅包結(jié)果40萬沒了 報警未獲受理

頭條要聞

女子經(jīng)介紹加入平臺搶紅包結(jié)果40萬沒了 報警未獲受理

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達(dá)的女王2》疑似辱華?

財經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
親子
游戲
公開課

房產(chǎn)要聞

官宣簽約最強(qiáng)城更!海口樓市,突然殺入神秘房企!

藝術(shù)要聞

耗資600億,貴陽人的“上海外灘”,現(xiàn)在去看,荒得嚇人

親子要聞

啥字呢?

LPL第二賽段:BLG三局戰(zhàn)勝IG,感覺他們第二局有問題

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版