網易首頁 > 網易號 > 正文 申請入駐

馬斯克的Grok 4.3悄悄上線,跑分評測出爐

0
分享至


新智元報道

編輯:艾倫

【新智元導讀】Grok 4.3 是 xAI 一次務實升級:更便宜、更快、更像能干活的助手。但它在硬推理、穩定性和可信度上,仍落后 GPT-5.5 與 Claude Opus 4.7。

xAI 發布 Grok 4.3,沒有把聲量拉到最大,馬斯克甚至沒單獨發推,看起來只是個過渡版本。


https://x.com/elonmusk/status/2045590599206875216

它更像一次安靜的產品換擋:把模型放進 API,把價格打下來,把工具能力補上,再告訴開發者可以從舊版 Grok 遷移過來。

沒有 AGI 宏大敘事,也少了馬斯克式的「即將改變一切」。這反而讓 Grok 4.3 看起來更真實。

對普通消費者來說,Grok 4.3 最重要的變化并非某個榜單分數漲了幾分,而是 AI 助手正在變得更便宜、更快,也更像一個能替人完成文件、表格、演示文稿的合格助手。

然而,Grok 4.3 的聰明程度仍然沒追上 GPT-5.5 和 Claude Opus 4.7。

它是一款性價比很強的新模型,也是一款仍有明顯天花板的模型。

消費者真正需要關心的,是它在哪些場景能省錢省時間,在哪些場景會因為判斷不準、想太久或說太多,反而增加成本。

它確實變強了

尤其像一個更會干活的助手

Artificial Analysis 給 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超過 Claude Sonnet 4.6 和 Muse Spark。


這個提升不算小,尤其在 xAI 自家模型線里,Grok 4.3 已經是目前最強的一檔。

更值得看的是代理任務表現。

Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。


這個榜單更接近日!缸 AI 做事」的場景,比如整理資料、執行復雜步驟、處理真實工作流。這對普通用戶有實際意義。

讓 AI 幫忙寫周報、搭表格、做方案、拆會議紀要、生成 PPT,Grok 4.3 的體驗會比前代更完整。

Grok 可以創建演示文稿、文檔和電子表格,可以在一個計算機環境里寫代碼、運行代碼、安裝依賴并產出文件。

對不懂代碼的用戶來說,這意味著很多原本需要在 Excel、PowerPoint、瀏覽器之間來回切換的操作,可能會被壓縮成一句指令。

這也是 AI 消費級產品真正該競爭的地方——用戶更在意它能不能把一個報銷表做完,把一份旅行計劃排清楚,把一封語氣得體的郵件寫好。

Grok 4.3 在這部分的進步,是真進步。

更便宜

是這次最直接的產品賣點

Grok 4.3 的價格很有侵略性。

它的 API 價格為每百萬輸入 Tokens 1.25 美元、每百萬輸出 Tokens 2.50 美元,相比 Grok 4.20 輸入價格低約 40%,輸出價格低約 60%。


Artificial Analysis 測算,運行整套 Intelligence Index 評測成本約為 395 美元,比 Grok 4.20 0309 v2 低約 20%。


這會影響消費者,只是方式沒那么直觀。

大多數普通人不會直接調用 API,但他們會用到基于 API 構建的產品。

AI 寫作工具、客服機器人、語音助理、教育應用、辦公插件,背后都要為模型調用付費。

當底層模型價格下降,應用廠商有空間降低訂閱費,或者在同樣價格下提供更多次數、更長上下文、更復雜任務。

Grok 4.3 還有一個優勢是速度。

Artificial Analysis 的 xAI 模型頁顯示,它是 xAI 當前輸出速度最快的模型之一,約 196 Tokens/s,屬于很快的一檔。


對語音聊天、實時客服、長文生成和批量內容處理來說,等待時間會直接影響體驗。

但速度有一個細節容易被忽略:Grok 4.3 的首 Token 延遲并不低。

它會先「想一會兒」,然后快速輸出。

長答案里,這種速度優勢明顯;短對話里,用戶可能先感受到停頓,再感受到快。

用于客服、語音助手、移動端聊天時,這個差異會被放大。

它更會說人話

這是 Grok 的隱藏優勢

Grok 一直有一個微妙優勢:語氣更像真人。

Hacker News 上有人提到,一些英語非母語用戶認為 Grok 在把握文本語氣、正式程度和微妙人際表達上,比其他模型更自然。

有人拿它和 ChatGPT、Claude 比,認為 Grok 在非正式朋友語氣、同事溝通、語音輸入識別上表現更貼近真實交流。


https://news.ycombinator.com/item?id=47972447

Grok 可能受益于 X 平臺海量口語化表達訓練。

它更容易捕捉社交網絡里的語氣、節奏、松弛感等;它也可能因此繼承社交網絡的噪音、偏見和表達習慣。

對 C 端用戶來說,這種「更自然」的能力會讓 Grok 在寫消息、口語轉寫、語音助手、輕辦公場景里很討喜。

它未必最聰明,但可能更像一個愿意按你的語氣說話的助手。

Yes, BUT...

它比不過 GPT-5.5 和 Claude Opus 4.7

Grok 4.3 最大的問題,是它看起來已經進入第一梯隊邊緣,卻還沒站到最前面。

Grok 4.3 的 Intelligence Index 為 53,GPT-5.5 為 60,Claude Opus 4.7 為 57。

這個差距不只是排行榜上的幾分。

對普通消費者來說,它會體現在復雜推理、代碼調試、長文核查、專業咨詢和多步驟任務的穩定性上。

在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按標準 Elo 公式,面對 GPT-5.5 的預期勝率約 17%。

它在幻覺控制上也有代價。

Grok 4.3 的 AA-Omniscience Accuracy(準確率)提升 8 分,但 Non-Hallucination Rate(非幻覺率)下降 8 分。


這里的準確率和非幻覺率是不同的,準確率只看你答對了多少,而非幻覺率是看你沒答出來的問題里面,有多少是模型老實承認自己不會的——不會但振振有詞,就是所謂的「幻覺」。

換言之,Grok 4.3 的知識覆蓋率變高了,但也更容易出現幻覺了。

而消費者最怕的情況就是 AI 答得很流暢、很自信、很像那么回事,結果關鍵事實錯了。

人類已經很擅長自信地犯錯,機器不必急著加入這個傳統項目。

這意味著,在醫療、法律、金融、學術和工程等高風險場景里,Grok 4.3 仍需要謹慎使用。

它適合幫用戶起草、整理、生成初稿,適合做低風險的輔助工作;涉及最終判斷,GPT-5.5 和 Claude Opus 4.7 仍更穩。

長上下文和工具能力很好

但消費者買賬的是結果

Grok 4.3 提供 100 萬 Token 上下文窗口,這對長文檔、代碼庫、合同、報告和資料庫很有吸引力。


用戶可以丟進去更多材料,讓模型在更完整的信息環境里工作。

對研究、辦公和創作來說,這是一種實用能力。

它還支持文本和圖像輸入,輸出文本,并圍繞工具調用、網頁搜索、X 搜索、代碼執行、文件搜索、RAG 等能力加強。

xAI 還推出了 Custom Voices、語音代理、TTS 和 STT 等產品,把 Grok 的邊界從文字擴展到語音。

對普通用戶來說,未來的 Grok 可能不只是一個聊天框,而是一個能讀文件、查網頁、寫表格、說話、聽話的多模態助手。

問題在于,功能多不等于體驗好。

消費級 AI 的競爭,最后會回到三個樸素標準:少等、少錯、少折騰。

Grok 4.3 在「少等」和「少花錢」上明顯前進,在「少錯」上還沒給出足夠強的答案。

Grok 4.3 的準確定位:

性價比模型,不是最強模型

Grok 4.3 最適合的定位,是一款高性價比的工作型模型。

它適合高頻內容生成、語氣改寫、長文本初篩、語音產品、客服場景、批量辦公任務、輕量級代理工作流。

它也適合那些對成本敏感、對響應速度敏感、對最強推理沒有執念的產品。

很多消費者并不需要每次都調用最強模型,就像不應該只是為了買菜開超跑,除非另有所圖。

但如果任務要求深度推理、嚴謹事實核查、復雜代碼、數學證明、長期項目記憶和專業判斷,Grok 4.3 還不該成為第一選擇。

GPT-5.5 和 Claude Opus 4.7 仍然更適合承擔這些高價值、高風險任務。

這次 xAI 的策略很清楚:先把模型做得足夠強,再把價格打下來,用速度和工具能力擴大可用場景。

它沒有贏下「最聰明模型」的頭銜,但可能會贏走一部分真實使用量。

因為市場并不總獎勵最強者,也獎勵夠強、夠快、夠便宜的選擇。

Grok 4.3 的意義正在這里。它把 xAI 從一個經常靠馬斯克聲量吸引注意的模型供應商,往更務實的 API 和消費級工具競爭者方向推進了一步。

它看起來很好,確實很好;只是還沒好到能讓 GPT-5.5 和 Claude Opus 4.7 緊張。

消費者可以期待它降價、提速、讓更多 AI 應用變得便宜。

也該記住,在需要真正聰明和可靠的地方,Grok 4.3 仍然只是備選項。

參考資料:

https://artificialanalysis.ai/models/grok-4-3

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
兩難!兒子月薪6000,兒媳無業,竟要父母拿30多萬養老錢還房貸

兩難!兒子月薪6000,兒媳無業,竟要父母拿30多萬養老錢還房貸

火山詩話
2026-04-30 15:03:29
臉都不要了!德國乒協炮轟國際乒聯!世乒賽這么干就是為了錢!

臉都不要了!德國乒協炮轟國際乒聯!世乒賽這么干就是為了錢!

最愛乒乓球
2026-05-02 13:55:34
特朗普威脅稱“美軍將從伊朗返回路上去接管古巴”

特朗普威脅稱“美軍將從伊朗返回路上去接管古巴”

每日經濟新聞
2026-05-02 15:05:34
斬殺中年男性的三件套:陽痿、失業和心梗!

斬殺中年男性的三件套:陽痿、失業和心梗!

燈錦年
2026-04-30 10:04:05
北京時間5月2日,乒乓球傳來王楚欽、張本智和、松島輝空等人消息

北京時間5月2日,乒乓球傳來王楚欽、張本智和、松島輝空等人消息

阿晞體育
2026-05-02 10:32:02
不要怪劉曉慶耍大牌,說實話,我覺得這一次,王婆有點不懂事了

不要怪劉曉慶耍大牌,說實話,我覺得這一次,王婆有點不懂事了

魔都姐姐雜談
2026-05-01 15:15:59
60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

60歲才發現:很多有兒子的家庭,只要兒子和兒媳另外買了房,沒跟父母住在一起,那兒子和父母之間,慢慢就變成了親戚

心理觀察局
2026-05-01 17:36:26
為啥有人感覺開車很耗精力?網友:我開長途會進入一種入定的狀態

為啥有人感覺開車很耗精力?網友:我開長途會進入一種入定的狀態

帶你感受人間冷暖
2026-05-02 14:36:51
“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

“窮人炫富,難掩心酸!”男大學生炫耀坐高鐵一等座,因長相被嘲

妍妍教育日記
2026-04-24 09:05:03
ESPN詳解火箭休賽期:阿門或簽頂薪 烏度卡帥位不穩伊森去留成疑

ESPN詳解火箭休賽期:阿門或簽頂薪 烏度卡帥位不穩伊森去留成疑

羅說NBA
2026-05-02 13:56:26
她陪主席走到最后,終身未婚,41年后同日離世,一生守密不言語

她陪主席走到最后,終身未婚,41年后同日離世,一生守密不言語

小莜讀史
2026-05-02 03:24:42
退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

退休人員速查!1992年前干過這4類工作 每月多領一筆錢 別白吃虧

混沌錄
2026-04-22 19:51:07
弗格森出馬!曼聯鎖定 5200 萬世界級新星,18 歲天才遠超托納利

弗格森出馬!曼聯鎖定 5200 萬世界級新星,18 歲天才遠超托納利

瀾歸序
2026-05-02 06:05:41
在中國有100萬存款,算什么水平?銀行員工“直言不諱”

在中國有100萬存款,算什么水平?銀行員工“直言不諱”

王二哥老搞笑
2026-04-26 13:59:23
女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

女子車禍截癱案開庭,截癱女子只求賠償活下去,肇事男友首度發聲

杜鱂手工制作
2026-04-09 10:54:29
近照嚴重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

近照嚴重韓化,47歲高齡拼二胎的湯唯,這次要為自己的選擇買單了

白面書誏
2026-05-01 18:02:02
落點+速度壓制!孫穎莎3-0迪亞克努,助女乒世乒賽1-0羅馬尼亞!

落點+速度壓制!孫穎莎3-0迪亞克努,助女乒世乒賽1-0羅馬尼亞!

籃球資訊達人
2026-05-02 17:38:14
這兩個電話一定要接!不接可能存款被盜,家里有老人務必看

這兩個電話一定要接!不接可能存款被盜,家里有老人務必看

小李子體育
2026-05-02 15:33:40
葉挺當年因為心軟,沒有立即槍決的副師長,20年后卻成為粟裕大敵

葉挺當年因為心軟,沒有立即槍決的副師長,20年后卻成為粟裕大敵

興趣知識
2026-05-02 16:47:38
海航推出6萬6“天價隨心飛”,網友:這是賣機票還是搞傳銷?

海航推出6萬6“天價隨心飛”,網友:這是賣機票還是搞傳銷?

天涯社區
2026-05-02 16:34:34
2026-05-02 19:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15116文章數 66829關注度
往期回顧 全部

科技要聞

AI熱潮耗盡庫存,Mac Mini起售調高200美元

頭條要聞

單親媽媽被無辜羈押821天申請國賠遭叫停 最新消息來了

頭條要聞

單親媽媽被無辜羈押821天申請國賠遭叫停 最新消息來了

體育要聞

休賽期總冠軍,輪到休斯頓火箭

娛樂要聞

白百何罕曬大兒子 18歲元寶越來越帥

財經要聞

雷軍很努力 小米還是跌破了30港元大關

汽車要聞

新紀錄!零跑汽車4月交付達71387臺

態度原創

家居
時尚
游戲
本地
房產

家居要聞

靈動實用 生活藝術場

流汗不流“湯”!五一假期底妝指南請收好~

魔獸世界:玩家包片,遭遇團長強買強賣,陌生老哥反手甩 G 救場

本地新聞

用青花瓷的方式,打開西溪濕地

房產要聞

所有戶型全賣爆!?赥OP級豪宅,景觀樣板間五一全線開放!

無障礙瀏覽 進入關懷版