亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Gemini 3強(qiáng)的可怕,但真讓他干活兒他像實(shí)習(xí)生一樣不靠譜

0
分享至



最近谷歌正式發(fā)布 Gemini 3 后,其基準(zhǔn)測(cè)試成績(jī)斷檔級(jí)領(lǐng)先,大家也是各種前端 vibe coding 玩得不亦樂(lè)乎。

但知危比較在意的兩個(gè)點(diǎn)是,一方面谷歌宣布 Gemini 3 是世界上最好的多模態(tài)模型,也強(qiáng)調(diào) Gemini 3 對(duì)用戶(hù)意圖的理解,“ 無(wú)需過(guò)多提示就能獲得所需信息 ”,這就讓 Gemini 3 的 ToC 屬性變得很強(qiáng)。

另一方面,Gemini 3 在編程能力的基準(zhǔn)測(cè)試上并沒(méi)有實(shí)現(xiàn)對(duì)其它模型的斷檔級(jí)領(lǐng)先( 甚至這兩天內(nèi) OpenAI 就拿出了 GPT-5.1 Codex Max 來(lái)狙擊 Gemini 3 ),谷歌也沒(méi)有強(qiáng)調(diào) Gemini 3 在幻覺(jué)、指令遵循等方面的優(yōu)勢(shì),但這些維度其實(shí)才是企業(yè)級(jí)場(chǎng)景最關(guān)心的,否則你在用 AI 編程的時(shí)候,不管模型多么博學(xué)多才,總會(huì)沒(méi)那么放心,就怕改 Bug、修漏洞比手寫(xiě)代碼還辛苦,所以 Gemini 3 的 ToB 屬性是否夠強(qiáng)還有待進(jìn)一步考察。

為了深度感受 Gemini 3 的 ToC 和 ToB 屬性,在本次測(cè)評(píng)中,知危著重體驗(yàn)Gemini 3 的多模態(tài)理解和編程能力,至于科研能力,本次評(píng)測(cè)沒(méi)有涉及。

具體而言,在多模態(tài)理解能力方面,知危主要是讓 Gemini 3 理解視頻,包括電視劇、體育比賽、軟件操作等場(chǎng)景的視頻,看 Gemini 3 能理解到什么程度,幻覺(jué)多不多,是否夠?qū)I(yè)。此外,看到 Gemini 3 在 ARC-AGI-2 上面翻倍的亮眼成績(jī),知危也忍不住在相同場(chǎng)景中給 Gemini 3 再上上難度。

編程能力方面,知危基于過(guò)去的測(cè)評(píng)經(jīng)驗(yàn),會(huì)直接拿一些需求多且雜的場(chǎng)景讓 Gemini 3 一次做出來(lái),如果不成功或者錯(cuò)誤太大,不會(huì)給太多挽尊的機(jī)會(huì)。這些場(chǎng)景包括一次寫(xiě)完 Excel、看 UI 截圖寫(xiě) 3D 引擎、看視頻寫(xiě) 3D 引擎等。知危也會(huì)在不同的平臺(tái)上都測(cè)試類(lèi)似場(chǎng)景,包括網(wǎng)頁(yè)版 Gemini、Cursor 以及谷歌自己新推出的編程 IDE Antigravity。

好了,我們?cè)挷欢嗾f(shuō),測(cè)評(píng)開(kāi)始!

多模態(tài)理解能力測(cè)評(píng)

其實(shí),目前很少有 AI 模型能直接分析視頻的,國(guó)內(nèi)只有通義千問(wèn)提供這個(gè)功能。

我們拿《 甄嬛傳 》中最具張力的一場(chǎng)戲,也就是 “ 滴血驗(yàn)親 ” 來(lái)測(cè)試一下Gemini 3( 在網(wǎng)頁(yè)版 Gemini 中調(diào)用 Gemini 3 Pro,也就是思考模式 )看不看得懂。因?yàn)榫W(wǎng)頁(yè)版上傳視頻有 100M 的限制,所以將視頻分成了好幾段輸入。

在第一段視頻中,皇后先向皇帝提出了 “ 滴血驗(yàn)親 ” 的狠招,隨后呈現(xiàn)甄嬛等人的反應(yīng)。



Gemini 3 的表現(xiàn)令人驚訝,幾乎無(wú)任何錯(cuò)誤,對(duì)各個(gè)人物的動(dòng)作、心思、表情,以及更宏觀的派系解析和劇情背景,都做出了非常準(zhǔn)確的解釋。







當(dāng)進(jìn)一步提示 Gemini 3 做更細(xì)致的逐幀逐秒分析時(shí),它也是不負(fù)眾望。



整整一分半鐘的視頻,真的按照幾秒一個(gè)單位來(lái)分析。



臺(tái)詞和潛臺(tái)詞都很精準(zhǔn),但最能展示多模態(tài)能力的,是對(duì)微表情的捕捉。比如皇后引導(dǎo)皇帝實(shí)施滴血驗(yàn)親時(shí),Gemini 3 描述皇后的表情動(dòng)作為 “ 身體微微前傾,語(yǔ)重心長(zhǎng),眉頭微蹙,眼神看似誠(chéng)懇,實(shí)則緊盯著皇帝的反應(yīng) ”,大家可以看看對(duì)不對(duì)。



再看看以下幾個(gè)精彩瞬間,動(dòng)作和表情也是描述的很到位,雖然 “ 嘴唇微張 ” 等一些細(xì)節(jié)是 Gemini 3 自己加戲和夸大,“ 眼神游移 ” 應(yīng)該要更后面才出現(xiàn),這里更多是 “ 純粹的恐懼 ”。









只是看到分析的最后一句話(huà),知危才意識(shí)到,Gemini 3 分明知道后面的劇情進(jìn)展,畢竟 Gemini 3 的訓(xùn)練數(shù)據(jù)已經(jīng)包含了《 甄嬛傳 》的各種視頻、文本資料,能分析到這個(gè)程度或許并不令人意外。



而且,臺(tái)詞語(yǔ)音其實(shí)是很好的對(duì)齊模態(tài),臺(tái)詞能提供精準(zhǔn)的語(yǔ)義提示,并和視頻時(shí)間線(xiàn)做對(duì)齊,假設(shè)已經(jīng)有大量文本語(yǔ)料給《 甄嬛傳 》做了逐幀分析,那 Gemini 3 可能很大程度上不是基于視頻來(lái)理解的。

所以,若是分析無(wú)聲音的同樣一段視頻,效果又如何呢?結(jié)果,Gemini 3 還是能認(rèn)出這是《 甄嬛傳 》,以及大部分的人物,就是出現(xiàn)了非常大的錯(cuò)誤,把甄嬛認(rèn)成了華妃。



也因?yàn)檫@個(gè)錯(cuò)誤導(dǎo)致對(duì)劇情的推測(cè)也產(chǎn)生了幻覺(jué)。



從這個(gè)結(jié)果來(lái)看,或許目前 AI 的多模態(tài)理解對(duì)文字的依賴(lài)還是比較大。

最后,因?yàn)榻裉?Nano Banana Pro 剛好上線(xiàn),知危也在對(duì)話(huà)的末尾讓Gemini畫(huà)一幅漫畫(huà)來(lái)呈現(xiàn)劇情,結(jié)果還是很驚艷的( 可能 Nano Banana Pro 太火,谷歌自己服務(wù)器撐不住了,沒(méi)實(shí)際生成圖像,最后是用 Lovart 的 Nano Banana Pro 畫(huà)出來(lái)的 )。



這里還有一個(gè)非常離譜的地方,Nano Banana Pro 生成的這張漫畫(huà)圖,右下角甚至還有 “ 騰訊動(dòng)漫 ” 的水印。。。

也不知道谷歌拿騰訊動(dòng)漫練 AI 有沒(méi)有合法買(mǎi)數(shù)據(jù)授權(quán),如果沒(méi)有的話(huà)歡迎騰訊聯(lián)系本編輯部搜集證據(jù),索賠之后記得分我們點(diǎn)

為進(jìn)一步避免模型對(duì)訓(xùn)練數(shù)據(jù)的依賴(lài),基于 Gemini 3 的知識(shí)截止日期是 2025 年 1 月,知危決定用 Gemini 3 來(lái)分析 2024-2025 賽季 NBA 總決賽雷霆 vs 步行者第一場(chǎng)的最后兩分鐘( 比賽時(shí)間 )的視頻片段( 這場(chǎng)比賽實(shí)際是在 2025 年 6 月份舉行的,晚于 Gemini 3 的知識(shí)截止日期 )。



相比電視劇,理解體育賽事有著不同的復(fù)雜度,雖然不需要關(guān)注微表情,但運(yùn)動(dòng)員動(dòng)作大,且和籃球、其他運(yùn)動(dòng)員有物理交互,更有快速的空間移動(dòng)和頻繁的視覺(jué)遮擋,相關(guān)訓(xùn)練語(yǔ)料也更少,難度會(huì)更大。

在第一次的簡(jiǎn)單分析中,Gemini 3 的回答表明了它認(rèn)為這場(chǎng)比賽不存在,它甚至認(rèn)為這是 NBA 2K 游戲的模擬畫(huà)面。當(dāng)然,它準(zhǔn)確地認(rèn)出了這是 NBA 雷霆 vs 步行者的總決賽,以及一開(kāi)始的賽況。



在接下來(lái)的關(guān)鍵鏡頭分析中,Gemini 3 能準(zhǔn)確描述步行者球員的 “ 橫撤步 ” 運(yùn)球動(dòng)作,要知道當(dāng)時(shí)的實(shí)況解說(shuō)員并沒(méi)有說(shuō)出這個(gè) “ 橫撤步 ” 術(shù)語(yǔ),只是 Gemini 3 把球員身份認(rèn)錯(cuò)了,應(yīng)該是 2 號(hào)的內(nèi)姆哈德而不是 23 號(hào)的內(nèi)史密斯。

之后對(duì)第二回合、第三回合攻防的分析,Gemini 3 的描述都是準(zhǔn)確無(wú)誤的,除了內(nèi)史密斯的 “ 猶豫 ” 其實(shí)指的是在 “ 上籃 ” 和 “ 投籃 ” 之間的猶豫,而不是上籃之前要不要減速的猶豫。



接下來(lái),再進(jìn)行一次更細(xì)節(jié)的逐幀分析。



第一回合中內(nèi)姆哈德的單打動(dòng)作很精彩,所以值得再分析一次。

Gemini 3 雖然還是沒(méi)改正對(duì)身份的錯(cuò)誤認(rèn)識(shí),但對(duì)動(dòng)作的分析非常專(zhuān)業(yè),它把剛才的 “ 橫撤步 ” 改為更精準(zhǔn)的 “ 向右后方撤步 ”,并且球員在做撤步前,先做了向左側(cè)突破然后變向的連續(xù)假動(dòng)作,這些描述并不是 Gemini 3 對(duì)實(shí)況解說(shuō)的鸚鵡學(xué)舌,而是自主做出來(lái)的分析( 這里對(duì)左右方位的定義可能和我們直觀理解上相反,但還是可以解釋通的 )。





在第四回合雷霆的 2 號(hào)球員亞歷山大單打強(qiáng)攻拿回兩分,并把比分重新拉大到 105:110 后,到第五回合,對(duì)雷霆的 9 號(hào)球員卡魯索的防守策略分析中,Gemini 3 出現(xiàn)了嚴(yán)重幻覺(jué)。

卡魯索是在內(nèi)姆哈德運(yùn)球時(shí)被雷霆球員拍掉球后立馬上前搶球,并沒(méi)有出現(xiàn) Gemini 3 所言的 “ 雙腳站定,雙手護(hù)胸 ” 的動(dòng)作,這時(shí)裁判哨響,但在該片段內(nèi),并沒(méi)有給出裁判結(jié)果,Gemini 3 則立馬判定是內(nèi)姆哈德進(jìn)攻犯規(guī)。





為了再次檢驗(yàn) Gemini 3 對(duì)實(shí)況解說(shuō)語(yǔ)音的依賴(lài)程度,知危也上傳了無(wú)聲音版本的同一片段給 Gemini 3 分析。

這一次,Gemini 3 的分析出現(xiàn)了很明顯的錯(cuò)誤或模糊不清的情況,比如( 00:16-00:55 )這一段,Gemini 3 描述 “ 視頻出現(xiàn)剪輯跳躍 ”,但實(shí)際上在這段期間,雷霆和步行者先后進(jìn)行了一次進(jìn)攻未得分,最后雷霆的亞歷山大憑借單打強(qiáng)攻得到兩分。

并且( 00:56-01:08 )時(shí)間段內(nèi),被撞倒在地的球員應(yīng)該是 2 號(hào)球員內(nèi)姆哈德,而不是 0 號(hào)球員哈利伯頓。



但總體來(lái)看,Gemini 3 達(dá)到的準(zhǔn)確率還是令人感到意外的,大部分情況下都能分析出是哪位球員執(zhí)行了什么動(dòng)作,以及對(duì)比分或比賽的貢獻(xiàn)。



知危接下來(lái)還將后續(xù)比賽片段( 一直到步行者的 0 號(hào)球員哈利伯頓在最后時(shí)刻三分絕殺雷霆 )在同一個(gè)對(duì)話(huà)中傳遞給了 Gemini 3 繼續(xù)分析,Gemini 3 結(jié)合實(shí)況解說(shuō)語(yǔ)音還是能保持基本準(zhǔn)確的水平,對(duì)步行者的 43 號(hào)球員西亞卡姆的高光時(shí)刻的分析很到位,并盛贊西亞卡姆給出了 MVP 級(jí)別的表現(xiàn)。











總體而言,Gemini 3 對(duì)體育視頻的分析掌握程度還是不如對(duì)電視劇的分析。雖然能夠基于實(shí)況解說(shuō)的提示和視覺(jué)線(xiàn)索,給出更精細(xì)的描述和適當(dāng)?shù)暮暧^分析,但幻覺(jué)率過(guò)于高,超出了實(shí)用限制。并且,在該場(chǎng)景也是非常依賴(lài)解說(shuō)語(yǔ)音的,而不是原生地對(duì)視覺(jué)線(xiàn)索有足夠精細(xì)的理解。

最后也是用 Nano Banana Pro 畫(huà)一頁(yè)漫畫(huà)來(lái)呈現(xiàn)內(nèi)姆哈德后撤步三分的高光時(shí)刻。這一次畫(huà)面精細(xì)度和劇情還原度也是很高,但內(nèi)姆哈德相對(duì)其他球員以及在球場(chǎng)的空間站位呈現(xiàn)的不是很準(zhǔn)確,后撤步則像是在沖浪,可能在空間智能或透視作圖方面還不是很擅長(zhǎng)。



最后一個(gè)測(cè)試場(chǎng)景,是軟件操作視頻分析。

推特上有一個(gè)帖子比較火,Pietro Schirano 展示了如何用一句話(huà)讓 Gemini 3 寫(xiě)一個(gè)功能完善的 3D 樂(lè)高引擎原型。





知危將這個(gè)視頻傳遞給 Gemini 3,令其分析這個(gè)引擎的 UI 組成和功能。

Gemini 3 的分析結(jié)果很精細(xì),甚至能精準(zhǔn)到視頻第 19 秒展現(xiàn)了重新上色功能,整體基本完全準(zhǔn)確。



這個(gè)編碼案例其實(shí)很多網(wǎng)友并不買(mǎi)賬,他們自己用相同提示詞寫(xiě)的 3D 樂(lè)高引擎完全不是那么回事。



所以,知危也順便將分析結(jié)果提煉成提示詞,進(jìn)入下一個(gè)測(cè)評(píng),也就是編程能力測(cè)

評(píng)。

編程能力測(cè)評(píng)

提示詞( 基于視頻分析原文 ):

基于Three.js、html技術(shù),構(gòu)建一款名為 "BRICK BUILDER" 的3D樂(lè)高積木構(gòu)建軟件。

采用經(jīng)典且直觀的 "三段式" (左-中-右) 布局,配合深色模式 (Dark Mode) 界面,旨在減少視覺(jué)疲勞并突出彩色的積木模型。

以下是對(duì)該軟件UI構(gòu)成和核心功能的詳細(xì)分析:

1,頂部全局導(dǎo)航欄 (Top Toolbar)

這是軟件的控制中心,主要負(fù)責(zé)工具切換和項(xiàng)目管理。

基礎(chǔ)工具 (左側(cè)):

Select (選擇箭頭): 用于選中場(chǎng)景中的積木。

Add (加號(hào)): 默認(rèn)模式,用于放置新積木。

Paint (油漆桶): 用于給已放置的積木重新上色(視頻 00:19 處展示了此功能)。

Delete(橡皮擦):用于刪除已有積木塊。

歷史操作: 包含 撤銷(xiāo) (Undo) 和 重做 (Redo) 箭頭。

項(xiàng)目管理 (右側(cè)):

Clear: 清空畫(huà)布。

New Project: 新建項(xiàng)目。

Export PNG: 將當(dāng)前模型截圖導(dǎo)出為圖片。

Save Project: 保存當(dāng)前進(jìn)度。

2,左側(cè)資源庫(kù)面板 (Left Sidebar - Library)

這里是用戶(hù)的“零件箱”,用于尋找和選擇積木部件。

搜索欄 (Search): 允許用戶(hù)通過(guò)名稱(chēng)快速查找特定積木。

分類(lèi)標(biāo)簽頁(yè) (Tabs): 將積木部件分為 Basic (基礎(chǔ)磚), Plates (板件), Slopes (斜坡磚), Projects 等類(lèi)別,方便篩選。

縮略圖列表: 視覺(jué)化展示積木的形狀(如 1x1, 1x2, 2x4 磚塊),點(diǎn)擊即可選中作為當(dāng)前筆刷。

3,中央3D工作區(qū) (Center Viewport)

這是核心交互區(qū)域,用戶(hù)在此進(jìn)行搭建。

3D 網(wǎng)格底板 (Grid Baseplate): 提供空間參考,幫助用戶(hù)對(duì)齊積木。

智能吸附與預(yù)覽 (Smart Snapping & Ghost Preview): 當(dāng)鼠標(biāo)懸停在網(wǎng)格或已有積木上時(shí),會(huì)顯示半透明的“幽靈磚”預(yù)覽(紅色半透明),告知用戶(hù)積木即將落下的位置。積木會(huì)自動(dòng)吸附到網(wǎng)格點(diǎn)或其他積木的表面。

交互反饋: 放置積木時(shí)有輕微的動(dòng)畫(huà)效果。

4,右側(cè)屬性與設(shè)置面板 (Right Sidebar)

該區(qū)域用于控制外觀、視角和選中物體的屬性。

視角控制 (View Cube/Buttons): 位于面板左上角的小圖標(biāo),允許用戶(hù)一鍵切換視圖:

3D: 自由透視視角。

TOP / FRONT / SIDE: 快速切換到頂視圖、正視圖或側(cè)視圖(視頻 00:14-00:17 展示了此功能)。

顏色調(diào)色板 (Colors): 提供預(yù)設(shè)的樂(lè)高標(biāo)準(zhǔn)色(紅、橙、黃、綠、藍(lán)、黑、白等)。用戶(hù)可以在放置前選擇顏色,或配合油漆桶工具使用。

屬性 (Properties):

Position (X, Y, Z): 顯示當(dāng)前選中積木的坐標(biāo)。

Rotation: 包含一個(gè)按鈕(通常是旋轉(zhuǎn)90度),用于調(diào)整積木方向。

場(chǎng)景設(shè)置 (Scene):

Grid: 開(kāi)關(guān)網(wǎng)格顯示。

Shadows: 開(kāi)關(guān)陰影渲染,用于提升真實(shí)感或節(jié)省性能。

5,底部狀態(tài)欄 (Footer)

提供統(tǒng)計(jì)信息和操作提示。

統(tǒng)計(jì)數(shù)據(jù): 左下角顯示 Bricks (積木數(shù)量) 和 File Size (文件大小)。

上下文提示: 屏幕底部中間會(huì)根據(jù)當(dāng)前工具顯示提示文本,例如 "Place Brick (Click to rotate)" 或 "Paint Brick (Click to select)",這是非常好的UX設(shè)計(jì),降低了學(xué)習(xí)成本。

6,總結(jié)與UX亮點(diǎn)

極簡(jiǎn)主義: 界面沒(méi)有復(fù)雜的菜單層級(jí),所有常用功能都平鋪在界面上,所見(jiàn)即所得。

清晰的邏輯: “左側(cè)選材 -> 中間搭建 -> 右側(cè)調(diào)整”的操作流非常符合直覺(jué)。

視覺(jué)輔助: 預(yù)覽(Ghosting)和網(wǎng)格吸附功能極大地降低了在2D屏幕上操作3D物體的難度,確保積木不會(huì)放歪。

將以上提示詞用于 Gemini 3 生成 3D 樂(lè)高引擎,如果做得好,那便是多模態(tài)理解和編程雙劍合璧。

最終實(shí)現(xiàn)的 3D 樂(lè)高引擎能夠成功運(yùn)行,雖然沒(méi)有完全按照分析細(xì)節(jié)來(lái)實(shí)現(xiàn),或者說(shuō)沒(méi)有完全復(fù)刻原版,而是簡(jiǎn)化了很多。



但至少基礎(chǔ)的磚塊、添加、刪除、上色、視圖、旋轉(zhuǎn)、導(dǎo)出等是都有的,足夠完成一個(gè)最粗糙的作品。



上面案例所采用的 Three.js 畢竟是 Javascript 的庫(kù),如果能用純 Javascript 寫(xiě)出足夠復(fù)雜的前端場(chǎng)景,那才更厲害,為此自然還是得測(cè)試寫(xiě)一個(gè)的 Excel 原型才能讓人信服。

知危套用之前 GPT-5 在 Cursor 一次運(yùn)行成功的提示詞,再次輸入到網(wǎng)頁(yè)版 Gemini 3 中,試圖復(fù)刻。

提示詞如下:

請(qǐng)幫我開(kāi)發(fā)一個(gè)功能完整的網(wǎng)頁(yè)版Excel應(yīng)用,技術(shù)棧使用HTML、CSS、JavaScript,需要實(shí)現(xiàn)以下核心功能模塊:

-第一階段:基礎(chǔ)功能(核心優(yōu)先級(jí))

網(wǎng)格渲染系統(tǒng):

實(shí)現(xiàn)1000×1000單元格的虛擬渲染;

優(yōu)化滾動(dòng)性能,確保流暢體驗(yàn);

橫坐標(biāo)(A、B、C等)和縱坐標(biāo)(1、2、3等)需要與單元格精確對(duì)齊;

滾動(dòng)時(shí)坐標(biāo)軸與內(nèi)容區(qū)域保持同步,無(wú)偏移;

單元格編輯功能:

雙擊單元格進(jìn)入編輯狀態(tài),編輯框與原單元格完全重合;

Enter鍵保存內(nèi)容并向下移動(dòng)到下一個(gè)單元格;

Tab鍵保存內(nèi)容并向右移動(dòng)到下一個(gè)單元格;

支持空值和默認(rèn)值的正確處理;

編輯欄應(yīng)可編輯,實(shí)時(shí)顯示和修改當(dāng)前選中單元格的值;

富文本格式工具欄:

實(shí)現(xiàn)獨(dú)立的格式按鈕,每個(gè)按鈕狀態(tài)基于當(dāng)前選中單元格的格式屬性獨(dú)立判斷;

字體大小調(diào)整;

加粗、斜體、下劃線(xiàn)、刪除線(xiàn)(按鈕狀態(tài)互相獨(dú)立);

文本對(duì)齊:左對(duì)齊、居中、右對(duì)齊;

背景顏色設(shè)置;

一鍵清除格式功能;

UI界面要求:

頂部工具欄包含所有格式設(shè)置按鈕;

名稱(chēng)框顯示當(dāng)前選中單元格坐標(biāo)(如A1、B2);

編輯欄顯示并可編輯當(dāng)前單元格內(nèi)容;

整體界面美觀,具有現(xiàn)代化設(shè)計(jì)風(fēng)格;

-第二階段:高級(jí)功能(擴(kuò)展功能)

行列操作:

點(diǎn)擊行號(hào)后,按"="鍵在下方插入新行,按"-"鍵刪除當(dāng)前行;

點(diǎn)擊列號(hào)后,按"="鍵在右側(cè)插入新列,按"-"鍵刪除當(dāng)前列;

刪除后自動(dòng)重排坐標(biāo)編號(hào),保持連續(xù)性;

添加最小保護(hù)機(jī)制,避免刪除最后一行或列;

復(fù)制粘貼操作:

實(shí)現(xiàn)Command/Ctrl+C(復(fù)制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘貼)快捷鍵;

支持單元格內(nèi)容和格式的復(fù)制粘貼;

支持行列的整體復(fù)制粘貼操作;

撤銷(xiāo)恢復(fù)系統(tǒng):

實(shí)現(xiàn)Command/Ctrl+Z(撤銷(xiāo))和Command/Ctrl+Y(恢復(fù))功能;

維護(hù)操作歷史棧,限制最大100層以控制內(nèi)存;

頁(yè)面刷新時(shí)清空操作棧;

選擇功能:

支持單元格多選(拖拽選擇矩形區(qū)域);

支持整行、整列選擇;

選中狀態(tài)的可視化反饋;

-第三階段:完善功能(產(chǎn)品化)

數(shù)據(jù)導(dǎo)入導(dǎo)出:

支持導(dǎo)出為CSV格式文件;

支持導(dǎo)出為JSON格式文件;

確保導(dǎo)出的文件能在Microsoft Excel中正確打開(kāi);

UI美化優(yōu)化:

添加滾動(dòng)動(dòng)畫(huà)效果;

優(yōu)化陰影和漸變效果;

提升整體視覺(jué)體驗(yàn)和交互流暢度;

響應(yīng)式設(shè)計(jì),適配不同屏幕尺寸;

但最終寫(xiě)出來(lái)的 Excel 有一堆 Bug,比如字體格式有時(shí)能用有時(shí)不能用,文本對(duì)齊、復(fù)制剪切功能也有各種意想不到的問(wèn)題,簡(jiǎn)直是災(zāi)難現(xiàn)場(chǎng),不如上次對(duì) GPT-5 的測(cè)試 ( 傳送門(mén) )。



知危懷疑是網(wǎng)頁(yè)版 Gemini 的 Agent 能力不足,就切換到谷歌新推出的編程 IDE Antigravity,用相同的提示詞來(lái)測(cè)試。

結(jié)果,寫(xiě)出來(lái)的網(wǎng)頁(yè)版 Excel 完全無(wú)法交互,鼠標(biāo)點(diǎn)擊沒(méi)有反應(yīng),也不能輸入,甚至不能顯示單元格,應(yīng)該說(shuō)比網(wǎng)頁(yè)版表現(xiàn)還差吧。



為了再給它一次機(jī)會(huì),我提示它自行檢查并修復(fù)。



第一階段:基本功能

發(fā)現(xiàn)一個(gè)錯(cuò)誤,即單元格編輯器和選中高亮顯示會(huì)在滾動(dòng)時(shí)與網(wǎng)格分離,因?yàn)樗鼈兾挥谝暱谌萜鞫莾?nèi)容容器中。已將它們移至正確的容器。

但它發(fā)現(xiàn)的錯(cuò)誤和單元格相關(guān),這并不是最關(guān)鍵的,甚至實(shí)際界面中都看不到有任何單元格。

接下來(lái),知危極大降低了要求,只讓 Antigravity 寫(xiě)了一個(gè)《 2048 》游戲,看看產(chǎn)品本身是否有問(wèn)題。

測(cè)試發(fā)現(xiàn)游戲能運(yùn)行,視覺(jué)效果也很好。



但 Agent 運(yùn)行有一些問(wèn)題,會(huì)無(wú)限期的停留在測(cè)試階段。



到此,只能認(rèn)為 Antigravity 作為編程 IDE 產(chǎn)品還不夠成熟完善。為了最大程度發(fā)揮 Gemini 3 的編程水平,知危決定在 Cursor 上測(cè)試。

果然,在 Cursor 上調(diào)用 Gemini 3 Pro,就能用相同提示詞順利完成 Excel 原型的開(kāi)發(fā),而且也是一次成功。



目前為止,知危拿這個(gè)案例測(cè)試過(guò)很多大模型,只有 GPT-5 和Gemini 3 Pro 是能一次成功的。在 UI 審美上,Gemini 3 Pro 比 GPT-5 更好。

但接下來(lái)的測(cè)試再次讓知危大跌眼鏡。

還是緊接前面提到的 3D 樂(lè)高引擎案例,我們?cè)?Cursor 上再試一遍,因?yàn)?Cursor 無(wú)法輸入視頻,所以只用了 UI 截圖。

第一次嘗試,讓 Gemini 3 Pro 參考 3D 樂(lè)高引擎的UI界面截圖來(lái)開(kāi)發(fā)。



結(jié)果還是依樣畫(huà)葫蘆寫(xiě)了個(gè)不能交互的網(wǎng)頁(yè)。



知危給了它最后一次機(jī)會(huì),將前面在網(wǎng)頁(yè)版 Gemini 3 分析推特視頻后得到的提示詞,再一次提供給 Cursor 中的 Gemini 3 Pro,結(jié)果這個(gè)網(wǎng)頁(yè)仍然是不能交互的。



到此,基于這些實(shí)測(cè)結(jié)果判斷,Gemini 3 的編程能力還是能達(dá)到頂尖水平,也有足夠的代碼審美,但發(fā)揮是不夠穩(wěn)定的,不管是幻覺(jué)率還是對(duì)指令遵循的細(xì)致全面程度,還沒(méi)有達(dá)到業(yè)內(nèi)最高水平。

前面因?yàn)榉治?3D 樂(lè)高引擎視頻被帶進(jìn)了編程能力測(cè)評(píng)的坑,但多模態(tài)理解測(cè)評(píng)的難度還沒(méi)真的上來(lái),我們繼續(xù)這個(gè)維度的測(cè)評(píng)。

為了提高多模態(tài)分析的難度,自然還是要上 ARC-AGI-2 這個(gè)測(cè)試集,畢竟 Gemini 3 在這個(gè)基準(zhǔn)測(cè)試集中的提升幅度是最大的。



但知危不是拿公開(kāi)的評(píng)估集來(lái)再測(cè)一次,測(cè)試設(shè)置需要針對(duì)多模態(tài)這個(gè)屬性做一些調(diào)整。

ARC-AGI-2 的官方發(fā)布使用 json 表示二維網(wǎng)格,例如下圖是該項(xiàng)目的 GitHub 中包含的一個(gè)評(píng)測(cè)集中的數(shù)據(jù)部分展示:



樣本:e376de54.json,來(lái)源:https://github.com/arcprize/ARC-AGI-2/blob/main/data/evaluation

通過(guò)順手 vibe 一個(gè)小型程序可以將這個(gè)矩陣轉(zhuǎn)換成圖像( 每個(gè)數(shù)字代表在圖像中的坐標(biāo)和顏色 ),如下圖所示:



知危不想按照官方設(shè)置使用 json 為輸入,而是要以圖像作為輸入傳遞給 Gemini 3,并且為防止大模型吸收基準(zhǔn)測(cè)試數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)取巧,會(huì)對(duì)這個(gè)評(píng)估集樣本再做一些微調(diào)( 修改 json 數(shù)據(jù)再轉(zhuǎn)換為圖像即可 )。比如下圖中,左圖是原評(píng)估集樣本,右圖是微調(diào)后的樣本,黑邊與數(shù)據(jù)無(wú)關(guān)可忽略。



按這個(gè)思路,知危制作出了兩個(gè)新的謎題。這是第一題:



下圖是準(zhǔn)確答案,應(yīng)該按照排第二的長(zhǎng)度值重組所有斜線(xiàn)。



Gemini 3 的分析框架是對(duì)的,但得出的結(jié)論卻是:取最大長(zhǎng)度統(tǒng)一( 無(wú)法理解,真的就差一點(diǎn)點(diǎn)啊 )。



在下一道題中,知危對(duì)原評(píng)估集樣本做了如下改動(dòng)( 樣本:247ef758.json ):



這是第二道題的完整呈現(xiàn):



下圖是準(zhǔn)確答案,方框的四條邊上如果有某個(gè)顏色構(gòu)成十字相對(duì)方位,該顏色對(duì)應(yīng)的方框外幾何素材就可以放入方框內(nèi)十字交叉點(diǎn)的位置。這里因?yàn)槲⒄{(diào)了顏色,第四組的藍(lán)色幾何素材也要放入方框內(nèi)。



Gemini 3 有理解到規(guī)則是對(duì)左側(cè)素材的篩選,但錯(cuò)誤地把篩選規(guī)則理解為基于素材的形狀,映射位置規(guī)則有理解到要基于方框邊框像素點(diǎn),但沒(méi)有精確到十字交叉點(diǎn)。



所以,它最終得出來(lái)的答案也是錯(cuò)誤的。



這才測(cè)了兩道,Gemini 3 就都錯(cuò)了。要知道這還是 ARC-AGI-2 中比較簡(jiǎn)單的題。

樣本:4c7dc4dd.json

這個(gè)結(jié)果并不代表 Gemini 3 在類(lèi)似 ARC-AGI-2 場(chǎng)景中的實(shí)際表現(xiàn),畢竟實(shí)驗(yàn)設(shè)置不同,只是也表明 Gemini 3 在靜態(tài)圖像的空間認(rèn)知和邏輯分析上還是比較初級(jí)的,過(guò)程有理有據(jù),但低級(jí)錯(cuò)誤令人頭疼。

好了,到了這里,本期內(nèi)容的全部測(cè)評(píng)就結(jié)束了。

通過(guò)這個(gè)測(cè)評(píng),可以認(rèn)為,Gemini 3 在各種多模態(tài)理解和編程場(chǎng)景中,都給出了局部亮眼、整體不穩(wěn)定的表現(xiàn),比如:

  • 能多維度分析電視劇劇情和人物,卻把主角給認(rèn)錯(cuò);
  • 能自主分析運(yùn)動(dòng)員連續(xù)動(dòng)作,卻編造不存在的球員動(dòng)作;
  • 能逐幀分析視頻,卻高度依賴(lài)語(yǔ)音;
  • 能寫(xiě)全UI解析,卻不能完整復(fù)刻;
  • 能寫(xiě)好Excel,卻寫(xiě)不好3D樂(lè)高引擎;
  • 圖片理解框架很有邏輯,卻敗在尺寸比較的一小步;

所以 Gemini 3 給人的感覺(jué)就是巨好玩,但不夠令人放心,畢竟跨越不同模態(tài)確實(shí)有趣,但聚焦單個(gè)模態(tài)才是專(zhuān)業(yè),換句話(huà)說(shuō)就是 ToC 屬性爆棚,ToB 屬性還不夠。

他有點(diǎn)像一個(gè)優(yōu)秀大學(xué)畢業(yè)的高學(xué)歷實(shí)習(xí)生,知識(shí)素養(yǎng)足夠,但真讓他干活他也是錯(cuò)漏百出。

總之,我們暫時(shí)認(rèn)為 Gemini 3 玩一玩是很不錯(cuò)的,但是還是盡量不要把它用到生產(chǎn)環(huán)境,萬(wàn)一出什么問(wèn)題也不好解決。( 昨天吃到個(gè)不知真假的瓜,有人用 Gemini 3 來(lái) Coding 的時(shí)候被刪了 800G 重要文件 )

或許,谷歌這次能這么強(qiáng)得益于其生態(tài)中擁有的豐富模態(tài)的海量數(shù)據(jù),隨之帶來(lái)的缺點(diǎn)是谷歌還來(lái)不及將模型調(diào)教的足夠可靠。

當(dāng)然,畢竟?jié)摿μ螅覀冞€是期待谷歌和 Gemini 家族的后續(xù)發(fā)力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
獨(dú)立百年的蒙古國(guó),正在把中國(guó)人40年的努力悄悄毀掉

獨(dú)立百年的蒙古國(guó),正在把中國(guó)人40年的努力悄悄毀掉

犀利辣椒
2026-03-19 06:40:31
女人最讓男人銷(xiāo)魂的,不是長(zhǎng)腿大胸,而是這種“頂級(jí)吸引

女人最讓男人銷(xiāo)魂的,不是長(zhǎng)腿大胸,而是這種“頂級(jí)吸引

匹夫來(lái)搞笑
2026-04-19 07:48:33
5月1日起全國(guó)嚴(yán)查!開(kāi)車(chē)上班、做生意,這些小事別再碰,輕則罰款

5月1日起全國(guó)嚴(yán)查!開(kāi)車(chē)上班、做生意,這些小事別再碰,輕則罰款

寶哥精彩賽事
2026-04-19 06:35:05
顧客稱(chēng)在山姆買(mǎi)美素佳兒嬰兒奶粉 竟在罐子里挖出類(lèi)似毛刷的碎片!涉事門(mén)店回應(yīng)

顧客稱(chēng)在山姆買(mǎi)美素佳兒嬰兒奶粉 竟在罐子里挖出類(lèi)似毛刷的碎片!涉事門(mén)店回應(yīng)

閃電新聞
2026-04-18 19:38:13
笑死!原來(lái)大佬的推薦信只需要幾個(gè)字,網(wǎng)友:一字千金

笑死!原來(lái)大佬的推薦信只需要幾個(gè)字,網(wǎng)友:一字千金

另子維愛(ài)讀史
2026-04-15 20:37:30
iPhone 18 Pro 系列全新配色、價(jià)格曝光

iPhone 18 Pro 系列全新配色、價(jià)格曝光

簡(jiǎn)科技
2026-04-18 23:40:44
教育部新規(guī)落地,9月上學(xué)都變了,家長(zhǎng)趁早看,別耽誤孩子

教育部新規(guī)落地,9月上學(xué)都變了,家長(zhǎng)趁早看,別耽誤孩子

小談食刻美食
2026-04-19 08:27:50
出大事了,特朗普癡呆已晚期?和伊朗開(kāi)戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

出大事了,特朗普癡呆已晚期?和伊朗開(kāi)戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

阿紿聊社會(huì)
2026-04-19 04:44:48
凌晨突襲!以色列不宣而戰(zhàn),特朗普連下3個(gè)決定,用美艦封鎖海峽

凌晨突襲!以色列不宣而戰(zhàn),特朗普連下3個(gè)決定,用美艦封鎖海峽

通文知史
2026-04-18 10:15:07
越南高鐵訂單給了德國(guó),蘇林來(lái)中國(guó)為何還要坐10多個(gè)小時(shí)高鐵?

越南高鐵訂單給了德國(guó),蘇林來(lái)中國(guó)為何還要坐10多個(gè)小時(shí)高鐵?

小嵩
2026-04-18 09:37:40
悲哀!幾個(gè)女同事想郊游沒(méi)人愿去,吐槽現(xiàn)在男生太精,不好拿捏了

悲哀!幾個(gè)女同事想郊游沒(méi)人愿去,吐槽現(xiàn)在男生太精,不好拿捏了

火山詩(shī)話(huà)
2026-04-18 07:26:36
藍(lán)營(yíng)內(nèi)斗升級(jí)!超20位藍(lán)委集體倒戈,公開(kāi)反對(duì)鄭麗文!

藍(lán)營(yíng)內(nèi)斗升級(jí)!超20位藍(lán)委集體倒戈,公開(kāi)反對(duì)鄭麗文!

瞻史
2026-04-18 17:47:28
中考政策重磅調(diào)整!2026年6月前執(zhí)行,全國(guó)初三生都將受影響

中考政策重磅調(diào)整!2026年6月前執(zhí)行,全國(guó)初三生都將受影響

戶(hù)外阿毽
2026-04-19 01:05:28
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開(kāi)眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開(kāi)眼

鄉(xiāng)野小珥
2026-04-08 00:48:57
四大皆空成定局!西媒:皇馬醞釀清洗8人 佛爺該賣(mài)掉1巨星

四大皆空成定局!西媒:皇馬醞釀清洗8人 佛爺該賣(mài)掉1巨星

葉青足球世界
2026-04-18 15:53:51
福建一男子拋下妻女去世,15年后妻子不顧家人反對(duì),當(dāng)場(chǎng)強(qiáng)行開(kāi)棺

福建一男子拋下妻女去世,15年后妻子不顧家人反對(duì),當(dāng)場(chǎng)強(qiáng)行開(kāi)棺

紅豆講堂
2024-09-04 12:45:03
文章“八號(hào)院兒”亂套了,顧客門(mén)口大打出手,黃牛號(hào)炒到數(shù)百元

文章“八號(hào)院兒”亂套了,顧客門(mén)口大打出手,黃牛號(hào)炒到數(shù)百元

光影新天地
2026-04-18 16:02:08
二手車(chē)價(jià)格全面下降!新車(chē)調(diào)價(jià)引發(fā)連鎖反應(yīng),經(jīng)銷(xiāo)商陷“價(jià)格倒掛”困局

二手車(chē)價(jià)格全面下降!新車(chē)調(diào)價(jià)引發(fā)連鎖反應(yīng),經(jīng)銷(xiāo)商陷“價(jià)格倒掛”困局

華夏時(shí)報(bào)
2026-04-18 07:30:03
巴西總統(tǒng):不能每天一醒來(lái)就看到一位總統(tǒng)發(fā)文威脅世界、發(fā)動(dòng)戰(zhàn)爭(zhēng),美國(guó)對(duì)伊朗的軍事行動(dòng)將導(dǎo)致窮人為“戰(zhàn)爭(zhēng)的不負(fù)責(zé)任”付出代價(jià)

巴西總統(tǒng):不能每天一醒來(lái)就看到一位總統(tǒng)發(fā)文威脅世界、發(fā)動(dòng)戰(zhàn)爭(zhēng),美國(guó)對(duì)伊朗的軍事行動(dòng)將導(dǎo)致窮人為“戰(zhàn)爭(zhēng)的不負(fù)責(zé)任”付出代價(jià)

極目新聞
2026-04-19 07:36:30
不參選,才是最狠的一步棋,鄭麗文的退里藏著什么野心

不參選,才是最狠的一步棋,鄭麗文的退里藏著什么野心

娛樂(lè)小可愛(ài)蛙
2026-04-17 05:57:25
2026-04-19 10:23:00
知危 incentive-icons
知危
投資不立危墻之下
561文章數(shù) 1836關(guān)注度
往期回顧 全部

科技要聞

50分26秒!榮耀獲得人形機(jī)器人半馬冠軍

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車(chē)要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
游戲
藝術(shù)
公開(kāi)課

選對(duì)發(fā)型,真的能少走很多變美彎路

手機(jī)要聞

華為Pura X Max:被曝24日開(kāi)賣(mài)!華為Pura 90:發(fā)售日成謎!

《冰汽時(shí)代》系列慶典啟幕!官方致謝中國(guó)玩家

藝術(shù)要聞

鄭麗文大陸之行引發(fā)熱議,孫中山贈(zèng)對(duì)聯(lián)成焦點(diǎn)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版