天選“牛馬”,OpenAI悟了?
4月24日凌晨,OpenAI正式發布GPT-5.5及更高規格的GPT-5.5 Pro。OpenAI總裁格雷格·布羅克曼稱該模型“能在更少指導下做更多事,審視不明確問題并自己弄清楚下一步該做什么”。
GPT-5.5在智能體編程、計算機使用、知識型工作等領域的基準測試中全面超越前代GPT-5.4。在考核復雜命令行任務的Terminal-Bench 2.0測試中得分為82.7%,比GPT-5.4的75.1%提升近8個百分點。在評估跨44種職業知識工作能力的GDPval測試中得分為84.9%。在考核計算機自主操作能力的OSWorld-Verified測試中達78.7%。在考核復雜客服流程的Tau2-bench Telecom測試中達98.0%。
MagicPath CEO彼得羅·斯基拉諾的測試顯示,GPT-5.5用約20分鐘將一個包含數百個前端改動和重構變更的分支與主分支完成合并,一次性解決所有沖突。Every創始人丹·希珀稱其為“第一個真正具備概念清晰度的編碼模型”。AI工程師彼得·戈斯特夫測試確認,GPT-5.5可穩定自主運行近10小時。
科研場景中,GPT-5.5在FrontierMath最難數學題測試中得分為35.4%,Claude Opus 4.7為22.9%。OpenAI報告稱,一個搭配定制工具的GPT-5.5內部版本協助發現了關于拉姆齊數的新數學證明,已在形式化證明工具Lean中得到驗證。
第三方機構Artificial Analysis的智能指數顯示,GPT-5.5在五項核心評估中的三項位居榜首,綜合表現排名第一。Artificial Analysis在評測報告中寫道:“GPT-5.5以競爭對手前沿編碼模型一半的成本,提供了最先進的智能。”
OpenAI同步將GPT-5.5的生物和網絡安全能力評定為“高”風險等級,部署了更嚴格的安全分類器,并推出“網絡可信訪問計劃”供安全研究人員申請受限訪問權限。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.