網易首頁 > 網易號 > 正文 申請入駐

慘敗7-0!ChatGPT-5.5與Claude 4.7的真實實力對決

0
分享至



人工智能領域的兩大巨頭近日都迎來了重大升級,而且時機可謂恰到好處。OpenAI 發布了 ChatGPT-5.5,這款最新模型專注于更智能的推理、更強大的編碼能力,以及在更少人工干預的情況下處理現實世界的任務。與此同時,Anthropic 也推出了Claude Opus 4.7,這款模型以嚴謹的思考、長上下文性能和針對嚴肅任務的精雕細琢的輸出為核心構建。

兩者都承諾將成為各自平臺迄今為止功能最強大的版本,但它們似乎追求的是人工智能助手應有的不同愿景:一個注重速度、實用性和執行力,另一個注重深度、細微差別和深思熟慮的推理。

那么,經過實際測試,究竟哪個更勝一籌呢?為了找到答案,研究人員對比了 ChatGPT-5.5 和 Claude Opus 4.7(克勞德) 在七個難度較高的題目上的表現,這些題目涵蓋了邏輯、推理、領域知識和實際應用等方面。為了更好地設計一些難度最高的題目,研究人員還參考了Google Gemini 3.1 Pro。

有些題目有明確的對錯答案,可以直接評分;而另一些題目則旨在測試推理質量、假設以及每個模型如何處理更復雜的問題。其中一些題目對很多人來說也很有挑戰性,但這正是關鍵所在。研究人員想要看到的不僅是哪個模型回答得最快,而是哪個模型回答得最好。以下是結果。

1. 帶扭曲的多步概率



題目: “你有三枚硬幣:一枚均勻硬幣,一枚有偏硬幣(正面朝上的概率為 P(正面) = 0.7),以及一枚兩面都是正面朝上的硬幣。你隨機選擇一枚硬幣并拋擲三次,每次都是正面朝上。下一次拋擲正面朝上的概率是多少?請逐步展示你的解題過程?!?/p>

ChatGPT 的頁面布局非常簡潔清晰,結構嚴謹,易于閱讀,步驟清晰標注,且四舍五入方式一致。Claude(克勞德更進一步,在最后提供了精確的分數推導過程,進一步證實了結果的數學嚴謹性。

勝者:克勞德獲勝。盡管兩個模型都得出了約 0.8874 的正確概率,但克勞德勝出,因為它給出了下一次拋硬幣的簡化通用公式。這種內部驗證表明,克勞德對預測概率的快捷方式有著更深刻的“理解”,而 ChatGPT 只是進行了手動計算。

2. 物理估算



提示:“估算一下,如果地球上的每個人(假設有80億人,平均質量為60公斤)同時跳上一列以100公里/小時的速度向東繞赤道行駛的火車,地球的自轉周期會發生多大變化?請陳述你的假設,并明確地推導角動量守恒的過程?!?/p>

ChatGPT選擇了一個簡化的地球轉動慣量值,導致估計值略高,為 1.3 納秒。

Claude克勞德使用了更精確的實心球體公式,準確計算了地球的轉動慣量,從而得出了更為合理的估計值 1.03 納秒。

獲勝者:克勞德憑借其更勝一籌的技術精準性和更豐富的背景內涵再次獲勝。

3. 基于證明的數學



提示: “證明對于任意正整數 n,n? ? n 都能被 30 整除。然后確定 n? ? n 是否總是能被 42 整除,并給出證明或反例?!?/p>

ChatGPT提供了一個手動模運算檢查,這對于可能不熟悉費馬小定理的讀者來說可能很有幫助。

克勞德在兩個證明中都更有效地運用了費馬小定理,并正確地識別出了問題的潛在數學結構。

獲勝者:克勞德完成了帽子戲法,毫無疑問地贏得了比賽。雖然兩個模型在數學上都很精確,但克勞德最終給出了一個“優美的概括”。

4. 受限條件下的化學推理



提示: 你有一個 100 mL 的緩沖溶液,其中包含 0.1 M 的乙酸 (pKa = 4.76) 和 0.1 M 的乙酸鈉。你加入 5 mL 1 M 的鹽酸。計算新的 pH 值,然后定性地解釋,如果初始濃度為 0.01 M 的各組分,緩沖容量會發生什么變化,以及原因。ChatGPT

給出了非常直接的答案。明確計算稀溶液的“失效狀態”使得定性分析非常具體。

克勞德使用了更正式的摩爾數表格,這對化學專業的學生來說非常有用。它還提供了緩沖容量的正式數學定義,這增加了技術深度。

勝者:克勞德勝出。沒錯,兩個模型都正確識別出 0.01 M 的緩沖區會“不堪重負”,但克勞德的解釋更具學術嚴謹性。

5. 需要仔細案例分析的邏輯謎題



提示:五個人(A、B、C、D、E)排成一排坐著。A 不在隊伍的兩端。B 與 C 正好相隔兩個座位。D 坐在 E 的左邊。C 與 A 不相鄰。有多少種有效的排列方式?請列出所有有效的排列方式。

ChatGPT 的表現完全符合我的預期,它自信地臆造出了兩個違反題目限制的答案。這是典型的“推理崩潰”現象,凸顯了該模型優先給出答案而非驗證答案是否符合邏輯。唉,即使是 GPT-5-5,它仍然會犯這種錯誤,我真的很失望。

克勞德正確地指出,這個謎題不可能解開。

獲勝者:克勞德因誠實而獲勝。

6. 應用微積分

提示:一個圓柱形罐必須正好能裝500毫升液體。罐頂和罐底的材料每平方厘米的成本是罐身材料每平方厘米成本的兩倍。求使總材料成本最低的尺寸(半徑和高度)。然后,如果罐頂/罐底的成本比不是2而是k,確定最佳的高度與直徑之比會如何變化。

ChatGPT給出了一套全面的數值計算策略,并得出了近乎完美的教科書答案。關鍵詞“教科書”。

克勞德通過引入二階導數檢驗來驗證最小值,從而提供了更為嚴謹的數學處理方法,并給出了各維度的精確根式形式,最后還給出了深刻而直觀的總結。換句話說,克勞德不僅給出了正確答案,還展示了推導過程,使我能夠完全理解。

獲勝者:克勞德再次獲勝,但這次優勢較小。ChatGPT 的答案完美無瑕,但克勞德的“解讀”部分使其回答更加全面透徹,因為它解釋了答案背后的“原因”。

7. 科學推理陷阱

提示:一項研究發現,喝咖啡的人平均比不喝咖啡的人壽命長兩年(p < 0.001,n = 50,000)。一位記者據此得出結論:咖啡可以延長壽命。請指出該結論至少存在四個不同的方法論或推論問題,并設計一項研究以更可靠地證明因果關系。請具體說明每項研究設計控制了哪些變量。

ChatGPT指出了此類研究中研究人員最擔心的主要問題,例如是否存在其他因素影響結果,或者因果關系是否被混淆。它還建議進行隨機對照試驗,這通常是檢驗某種因素是否真正導致結果的更有效方法。

克勞德不僅給出了更好、更全面的回答,而且還將答案提升到了專業/研究水平。

獲勝者:Claude憑借其詳盡的回答再次贏得一輪比賽,再次突顯了它在處理多維推理方面比 ChatGPT 的線性方法更勝一籌。

總冠軍:Claude

這場對決的結果讓研究人員大吃一驚。不僅居然能跟上那些我大學畢業后就沒再碰過的高等數學——說真的,如果這些人工智能再聰明一點,研究人員可能真的得給以前的教授打個電話了——而且ChatGPT竟然一輪都沒贏。

賽前,研究人員以為會是一場勢均力敵的較量。結果,看到的是兩個模型朝著完全不同的方向發展。ChatGPT-5.5顯然是為“實用型”用戶設計的,它的速度很快,而且能夠遵循標準模板。但是,當真相至關重要時(真的,總是如此),比如面對那個不可能的邏輯謎題時,它卻選擇用幻覺來“取悅”,而不是承認失敗。

Claude Opus 4.7 的設計理念似乎是“三思而后行”。它在全部七輪比賽中橫掃對手,證明它不僅能給出正確答案,還能提供背后的推理過程。無論是為物理問題添加“合理性檢驗”,還是找出數學證明中的潛在定理,Claude 都展現出了 ChatGPT 無法企及的學術嚴謹性。

最顯而易見的結論不僅是 Claude 贏了,更是它贏得如此輕松。在高級推理領域,ChatGPT 還有很長的路要追趕。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
64歲俞敏洪獨居北京,妻兒定居加拿大原因曝光,原來他是身不由己

64歲俞敏洪獨居北京,妻兒定居加拿大原因曝光,原來他是身不由己

閱微札記
2026-04-24 14:49:10
六個孩子,一支毒煙,一頂官帽:誰在獎勵作惡的警察?

六個孩子,一支毒煙,一頂官帽:誰在獎勵作惡的警察?

土家鐵拳
2026-04-27 05:43:44
特朗普轉發“中印是人間地獄”,印度痛批低俗,中方態度耐人尋味

特朗普轉發“中印是人間地獄”,印度痛批低俗,中方態度耐人尋味

起喜電影
2026-04-26 07:05:10
日本大學生田徑錦標賽:中國選手鄧信銳百米10秒25奪冠

日本大學生田徑錦標賽:中國選手鄧信銳百米10秒25奪冠

懂球帝
2026-04-26 23:47:22
播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

播放量破5億,孫楊和張豆豆這一吵,讓芒果這檔新綜藝徹底封神了

糊咖娛樂
2026-04-24 11:47:38
隨著國際米蘭2-2,意甲最新積分榜出爐:國米最快下輪奪冠

隨著國際米蘭2-2,意甲最新積分榜出爐:國米最快下輪奪冠

側身凌空斬
2026-04-27 05:29:27
大眾途銳新車型露面,機械配置拉滿卻沒豪華標,消費者開始算賬了

大眾途銳新車型露面,機械配置拉滿卻沒豪華標,消費者開始算賬了

沙雕小琳琳
2026-04-27 00:48:15
有一種痛苦叫買了“一梯一戶”,以為高大上,結果入住就后悔

有一種痛苦叫買了“一梯一戶”,以為高大上,結果入住就后悔

裝修秀
2026-04-26 10:55:03
控煙也能引發互害……

控煙也能引發互害……

非典型佛教徒
2026-04-25 23:57:03
尷尬!美國迎接英國國王,卻掛了澳大利亞國旗!華盛頓官員:已經火速換下

尷尬!美國迎接英國國王,卻掛了澳大利亞國旗!華盛頓官員:已經火速換下

每日經濟新聞
2026-04-26 16:27:36
對中國制造愛不釋手!巴基斯坦總統:我們也要生產

對中國制造愛不釋手!巴基斯坦總統:我們也要生產

看看新聞Knews
2026-04-26 22:08:05
近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

近10年崩得最狠的專業:從年薪幾十萬到月薪兩千五!

燈錦年
2026-04-21 13:28:31
真話太扎心 岳云鵬:我希望丁俊暉稱霸世錦賽 但趙心童打墨菲更穩

真話太扎心 岳云鵬:我希望丁俊暉稱霸世錦賽 但趙心童打墨菲更穩

風過鄉
2026-04-26 21:08:18
油價大降超0.86元/升,由漲變跌后,5月8日汽柴油或“重新上漲”

油價大降超0.86元/升,由漲變跌后,5月8日汽柴油或“重新上漲”

油價早知道
2026-04-25 02:40:15
10部值得N刷的歐美諜戰劇:《國土安全》排第6《夜班經理》排第9

10部值得N刷的歐美諜戰?。骸秶涟踩放诺?《夜班經理》排第9

TVB的四小花
2026-04-26 15:22:10
光模塊只是“開胃菜”!光通信全鏈“七大天王”,真正黑馬全梳理

光模塊只是“開胃菜”!光通信全鏈“七大天王”,真正黑馬全梳理

林子說事
2026-04-27 00:32:19
慘!日本球隊連續3年倒在亞冠決賽 鈔票的力量:沙特巨頭主場衛冕

慘!日本球隊連續3年倒在亞冠決賽 鈔票的力量:沙特巨頭主場衛冕

風過鄉
2026-04-26 06:46:56
一頓午飯吃進ICU!14歲男孩狂吃6個雞腿+紅燒肉,上腹部劇痛送醫!醫生:急性重癥壞死性胰腺炎的典型表現

一頓午飯吃進ICU!14歲男孩狂吃6個雞腿+紅燒肉,上腹部劇痛送醫!醫生:急性重癥壞死性胰腺炎的典型表現

魯中晨報
2026-04-26 21:40:08
明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

明明只是戲子,卻把自己當大腕,論“耍大牌”,這5位明星夠丟人

青橘罐頭
2026-04-22 09:59:06
“崩老頭”現象:00后如何收割中年男性

“崩老頭”現象:00后如何收割中年男性

流蘇晚晴
2026-04-25 16:31:35
2026-04-27 07:07:00
侃故事的阿慶
侃故事的阿慶
幾分鐘看完一部影視劇,詼諧幽默的娓娓道來
564文章數 8294關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

時尚
教育
親子
本地
旅游

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

教育要聞

小學找規律,6,9,13,16,(),25,難住老師

親子要聞

爸爸買的餐椅太好了,早知道早買了#餐椅 #寶寶板凳 #寶寶吃飯 #寶媽推薦

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

旅游要聞

中國和西班牙雙向旅游不斷升溫

無障礙瀏覽 進入關懷版