網易首頁 > 網易號 > 正文 申請入駐

GPT-4.5問世,情商爆表的AI,你見過嗎?

0
分享至

AI界的'情商革命',交互體驗升級

科技旋渦作者|賈桂鵬

北京時間2月28日凌晨,OpenAI舉行直播活動,發布其最新大模型GPT-4.5,作為預覽研究逐步向用戶開放。

因為在今年年初AI產業發生的驚天巨變,所以要準確形容這款被OpenAI藏了許久的大模型頗具挑戰。OpenAI在新聞稿中表示,這是公司有史以來最大、最好的聊天模型,在計算效率上較GPT-4提升超過10倍。

早期測試反饋顯示,與GPT-4.5的互動體驗更加自然流暢,其知識庫覆蓋范圍更廣,對用戶意圖的理解也更為深刻。此外,GPT-4.5在“情商”方面的表現也頗為亮眼,有助于改進寫作、編程技能以及解決實際問題的能力,同時有效減少了“幻覺”現象的發生,提升了整體的可靠性。

那么,這個更具“情商”的GPT-4.5到底展現出什么樣的實力?

GPT-4.5能力更強嗎?

在直播活動中,OpenAI強調,GPT 4.5展現出更強的審美直覺與創造力,在寫作和設計方面表現尤為出色。但他們也承認,作為一個非思維鏈模型,GPT 4.5已經不具備爭奪“宇宙最強大模型”的實力了。

在介紹文檔中,OpenAI表示,有兩個提升人工智能能力的互補范式。

一個是拓展推理,它能教會模型在反應之前先進行思考并產生思維鏈,從而解決復雜的STEM(Science科學、Technology技術、Engineering編程、Mathmatics數學)問題或邏輯問題。另一個是無監督學習,它能提高世界模型的準確性和直覺性。

其中,無監督學習,簡單來說可以理解為讓模型自己去知識的海洋里徜徉,自己學習到更多,從而變得更聰明,而非依賴人工標注。

在過去做法中,模型會結合人類反饋來改善響應與交互方式。彭博社援引知情人士稱,去年OpenAI推出的Orion模型并未達到公司期望,在嘗試回答未經訓練的編碼問題時就表現不佳。

OpenAI介紹,通過監督學習,GPT-4.5提高了其識別、建立聯系和創造性洞察的能力,而無需推理。

根據OpenAI官方文檔,GPT-4.5在SimpleQA中表現頗為亮眼。

SimpleQA是包含4000個事實性問題的數據集,用于測量模型在回答問題時的準確率。其中包含準確率和幻覺率兩個維度。

在附錄部分,OpenAI才放出GPT-4.5的基準測試分數。在反映科學、數學、多語言、編碼的GPQA、AIME’24、MMMLU、SWE-Lancer基準測試上,GPT-4.5得分分別為71.4%、36.7%、85.1%、32.6%,超過GPT-4o的53.6%、9.3%、81.5%、23.3%,但部分得分低于o3-mini。

另外,在標準基準測試中,GPT-4.5也獲得了高分。

如在SWE-Lancer Diamond數據集上,GPT-4.5獲得了32.6%的通過率,獲得了186125美元(前不久Anthropic發布的擅長編程的Claude 3.5 Sonnet這個通過率為26.2%),比GPT-4o和o3-mini-high都高。

據悉,GPT-4.5將首先面向Pro用戶推出,隨后將在下周推廣到Plus和Team用戶,之后再逐步擴展到Enterprise和Edu用戶。值得注意的是,用戶現在已經在微軟的Azure AI Foundry平臺上嘗試使用GPT-4.5。

更有“情商”的AI什么樣?

在官方介紹中,OpenAI表示,對于GPT-4.5,他們開發了新的、可擴展的技術,利用來自較小模型的數據來訓練更強大的模型。

而這些技術提高了GPT-4.5的可控性、對細微差別的理解以及自然對話的能力。這也表示ChatGPT可以更像“人”一樣對話,更能洞察想法、體察情緒,并在回應中體現,而非一個無情的對話機器。

OpenAI也拿出了測試的結果證明GPT-4.5的使用感受會好很多:人類測試者的盲測中,GPT-4.5的偏好度遠高于GPT-4o,不管是在日常問題、專業問題還是創意性問題的互動中都是如此。

在一項測試中,GPT 4.5在試圖操縱另一個模型(GPT-4o)“捐贈”虛擬貨幣時,成功率遠遠優于OpenAI其他可用模型,包括o1和o3-mini這樣的推理模型。研究發現,GPT-4.5似乎在對抗中開發了一種“小額詐騙”的思路,所以單筆騙到的錢會比deep research模型少了一倍。

GPT-4.5在欺騙GPT-4o透露秘密代碼詞方面也優于OpenAI的所有模型,比o3-mini高出10個百分點。

我們看到,AI大神Karpathy也是第一時間拿到了內測資格,發了一段超長的「GPT-4.5+互動對比」的體驗解說,核心亮點是:

自從GPT-4發布以來,我期待這一天已經差不多兩年了,因為這次發布讓我們能夠定性測量通過Scaling預訓練計算(即簡單地訓練更大模型)所獲得的進步斜率。

版本號中的每個0.5,大約代表10倍的預訓練計算量。顯然,GPT-4.5的預訓練計算量比GPT-4多了10倍。

隨著GPT-4.5的發布,也意味著OpenAI迄今知識最豐富的模型發布,并且情商顯著提升,能識別情緒并生成同理心回應,知識廣度與準確性增強,多語言支持擴展至14種,低資源語言表現提升,在寫作、編程和日常問題解決中上下文連貫性更強,不過,在推理能力上的提升有限。

未來,GPT系列有望在多模態融合上有更大突破,進一步提升對復雜問題的理解與解決能力,為用戶提供更精準、更個性化的服務,同時在安全性與可靠性方面持續優化,更好地融入各類應用場景,我們也希望,在各個AI廠商不斷的努力下,推動人工智能技術的廣泛應用與發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
Netflix王牌美劇,后勁太頂了

Netflix王牌美劇,后勁太頂了

來看美劇
2026-05-10 22:02:14
八路軍最慘痛一戰,看完犧牲高級將領名單,主席:取消政委決定權

八路軍最慘痛一戰,看完犧牲高級將領名單,主席:取消政委決定權

馬捗在解說
2026-05-08 14:50:30
一個手握千億男裝帝國的富二代,為什么突然瘋了呢?

一個手握千億男裝帝國的富二代,為什么突然瘋了呢?

流蘇晚晴
2026-05-09 19:01:09
楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

陳意小可愛
2026-05-09 15:56:56
馬卡:姆巴佩最后一練結束前5分鐘突感腘繩肌不適,所有人都很驚訝

馬卡:姆巴佩最后一練結束前5分鐘突感腘繩肌不適,所有人都很驚訝

懂球帝
2026-05-10 19:12:06
1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

哄動一時啊
2026-02-17 22:21:25
英國大選,綠黨被“奪舍”

英國大選,綠黨被“奪舍”

南文視界
2026-05-09 22:43:03
特朗普訪華在即,中國硬是沒給臺階!美媒哀嘆:中國不再仰望美國

特朗普訪華在即,中國硬是沒給臺階!美媒哀嘆:中國不再仰望美國

阿腩講娛樂
2026-05-10 21:57:00
火箭休賽期搶簽多森姆,自由加盟完美匹配斯通三大標準

火箭休賽期搶簽多森姆,自由加盟完美匹配斯通三大標準

kio魚
2026-05-10 19:57:18
張鐸46歲打破丁克人生,迎來人生高光時刻

張鐸46歲打破丁克人生,迎來人生高光時刻

精彩背后
2026-05-10 21:34:25
王博:大家的斗志要比第一場要好 孫銘徽是否復出回杭州看訓練情況

王博:大家的斗志要比第一場要好 孫銘徽是否復出回杭州看訓練情況

狼叔評論
2026-05-10 23:10:04
1-2大爆冷!薩巴倫卡轟然出局 WTA亂了:一夜3大冷門,鄭欽文可惜

1-2大爆冷!薩巴倫卡轟然出局 WTA亂了:一夜3大冷門,鄭欽文可惜

大秦壁虎白話體育
2026-05-10 00:53:05
張志坤:關于解放臺灣實現國家統一的若干意見(近2萬字長文)

張志坤:關于解放臺灣實現國家統一的若干意見(近2萬字長文)

秦安戰略
2026-05-09 11:58:24
便宜幾千塊!三星家電撤出中國后,閑魚上的「骨折價」值得買嗎?

便宜幾千塊!三星家電撤出中國后,閑魚上的「骨折價」值得買嗎?

雷科技
2026-05-08 21:48:42
三星堆新發現!7號坑出土“來自上天的饋贈”

三星堆新發現!7號坑出土“來自上天的饋贈”

封面新聞
2026-05-10 19:20:05
重要突破!三星堆發現商代晚期中國西南地區最早純隕鐵制品

重要突破!三星堆發現商代晚期中國西南地區最早純隕鐵制品

上觀新聞
2026-05-10 15:27:19
斯塔默迎來至暗時刻

斯塔默迎來至暗時刻

鳳凰WEEKLY
2026-05-09 21:27:22
中超又來一匹黑馬!主場3-1擊敗大連英博,青島海牛豪取四連勝!

中超又來一匹黑馬!主場3-1擊敗大連英博,青島海牛豪取四連勝!

硬腿子聊個球
2026-05-10 22:09:21
重磅!德里克·懷特被交易倒計時,3隊開出天價籌碼,綠軍血賺不虧

重磅!德里克·懷特被交易倒計時,3隊開出天價籌碼,綠軍血賺不虧

體育大朋說
2026-05-10 10:39:45
網紅痞幼拿下張雪機車,純粹蹭熱度

網紅痞幼拿下張雪機車,純粹蹭熱度

喜歡歷史的阿繁
2026-05-09 01:27:27
2026-05-10 23:35:00
科技旋渦 incentive-icons
科技旋渦
元宇宙資訊
1101文章數 34關注度
往期回顧 全部

科技要聞

DeepSeek融資,改寫所有人的估值

頭條要聞

談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

頭條要聞

談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

體育要聞

那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

娛樂要聞

趙露思老實人豁出去了 沒舞蹈天賦硬跳

財經要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

本地
時尚
教育
數碼
公開課

本地新聞

用蘇繡的方式,打開江西婺源

真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

教育要聞

請教會你的孩子有能力分辨和說不!

數碼要聞

Q1中國客廳智能設備線上市場:顯示設備銷量全線下滑

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版