无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

美團開源通用推理基準,26款模型僅2款及格

0
分享至

“離洗車店只有50米,我是開車去還是走路去?”你把這個問題丟給一款剛在奧數競賽里拿滿分的大模型,它不會提醒你“走上兩步就到了”,反而會認認真真規劃一條駕車路線。這種能解IMO難題、卻搞不定生活邏輯的荒誕反差,恰好捅破了當前大模型評測的一層窗戶紙:學科推理的高分,很可能只是模型背下了海量題庫的“肌肉記憶”,而不是真正學會了思考。

為了解決這一尷尬,美團旗下LongCat團隊干脆自己造了一把更貼近真實世界的“尺子”——General 365(通用推理基準),并一口氣拉來26款主流模型做了場摸底考試。結果有些出人意料:只有兩款模型達到60分的及格線,目前公認的頂尖選手Gemini 3 Pro也僅以62.8%的成績險勝。它首次把評測焦點從“會不會做題”轉向“會不會思考”,讓我們第一次清晰地看到大模型在通用推理上的真實能力邊界。


過去兩年,推理評測高度集中在數學、物理、編程這些依賴專業知識的科目上,頭部模型在各類題庫上幾乎逼近滿分。但會刷題不等于會推理,高分涌來的同時,現有通用推理基準(如BBH、BBEH)也逐漸暴露出兩個老問題:任務模板化帶來的邏輯雷同,以及性能飽和導致的區分度驟降。換句話說,模型已經學會了“背題型”,而舊考卷已經很難考出它們的真正差距。

General 365的設計目標很明確:把背景知識牢牢鎖在K-12級別,把推理能力從專業知識中剝離出來,系統評估模型在日常場景下的通用推理水平。為此,團隊搭建了一套包含五項核心特征的評估體系:高多樣性——365道原創種子題目及其1095個擴展變體,覆蓋八種挑戰類型,極力避免重復與死記硬背;高挑戰性——SOTA模型也只能勉強及格;聚焦推理——嚴格限定知識范圍,只衡量邏輯推演而非知識檢索;嚴格人工質檢——所有題目、推理軌跡和最終答案都經由人工審核;精準評分——混合規則與模型打分,人工抽樣驗證的準確率達到99.6%。

通用推理的“考綱”被細分為八大維度,每道題至少命其中之一:復雜約束(多條件交織下的全局一致性)、分支與枚舉(解空間的系統遍歷與邊界覆蓋)、時空推理(空間關系與時間序列的動態推演)、遞歸與回溯(假設-驗證-推翻的迭代糾錯)、語義干擾(跨越認知陷阱,嚴格遵循題設規則)、隱式信息(從碎片線索推斷底層邏輯)、最優策略(多路徑方案中的效用權衡與規劃)、概率與不確定性(不完全信息下的概率推斷)。其中“復雜約束類”題目占比最大,“概率與不確定性類”也超過20道,確保了每個維度都有充足的樣本。更關鍵的是,近70%的題目同時擁有兩個或以上的類別標簽,這種復合型的推理任務設計更貼近真實世界的邏輯復雜度,遠非單點測試可比。

題目質量的可靠性是評測基準的根基。General 365的種子題目全部由人工原創,隨后經過難度過濾、多樣性擴充、數據后處理、模型擴題與人工審核,最終形成1460道高質量題目。為驗證多樣性,團隊從語義分布和邏輯獨立性兩個維度下手:t-SNE可視化顯示,General 365的題目嵌入分布均勻分散,相比之下BBH和BBEH均出現明顯的聚集現象,暴露出潛在的邏輯冗余;由Gemini 3 Pro對語義相近的題目對進行推理路徑相似度評分(0-5分),General 365平均僅得2.16分,遠低于前兩者。這意味著模型再想靠“背模板”蒙混過關,在這套新卷子面前基本行不通。

手握校準好的標尺,LongCat團隊對26款主流大模型展開全面實測。整體來看,Gemini 3 Pro以62.8%的成績艱難奪冠,其余絕大部分模型深陷50%-60%區間未能觸及及格線。盡管非推理模型的整體表現稍遜,但Qwen 3 Max Instruct等個別模型還是展現了亮眼表現。將成績按八大維度拆解后,問題更加清晰:“語義干擾”與“最優策略”成為兩大性能洼地,模型在這兩項上的得分普遍比整體準確率低了約10個百分點。這說明大模型極易被題干中的干擾信息帶偏,在需要多步全局規劃的題目上更顯乏力。雷達圖進一步顯示,不同系列模型在“隱式信息”等任務上已經出現明顯的能力分化,暴露出架構與訓練策略帶來的根本差異。

除了看“答得對不對”,團隊的關注點還延伸到了“花了多少算力答對”。結果顯示,Gemini 3 Pro僅用約14k tokens就拿下最高分,而那些準確率與之相近的模型,其輸出長度普遍暴漲至25k-30k tokens。這種巨大的效率差,讓人看到一個更真實的維度:最高分的模型不僅更準,還更省。跨基準的橫向對比則進一步證實了General 365的難度含金量。各大模型在General 365上的準確率較BBH/BBEH普遍大幅下滑,比如GPT-5-Thinking在BBH上還能拿到92.0%的高分,到了General 365上驟降至58.6%。更有意思的是,模型在General 365上雖然準確率明顯偏低,平均輸出長度卻顯著增加——這說明難度的提升來自更深的邏輯鏈條,而非無意義的字數堆砌。

General 365把推理評測從專業知識的依賴中解放出來,讓我們直觀地看到大模型在日常場景下通用推理的短板。它的初衷不是在榜單上再添一個99%的高分,而是找到那條讓模型從“做題機器”走向“人類智慧”的必經之路。畢竟,一個能解IMO難題卻回答不了“走路洗車”的模型,還遠不能被稱為真正的智能。項目已經全面開源,團隊期待更多開發者和研究者一同加入,共同探尋大模型邏輯進

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

特斯拉和比亞迪電池差距有多大?老司機:一個真技術,一個只吹牛

混沌錄
2026-06-12 22:43:35
南京印度游客灑紅節鬧劇:狂歡無邊界,包容絕非無底線!

南京印度游客灑紅節鬧劇:狂歡無邊界,包容絕非無底線!

行者聊官
2026-06-13 21:45:48
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-06-14 22:31:05
兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

兩性關系:瘦女人和胖女人的區別,聽聽男人的真實想法

i書與房
2026-06-07 21:27:32
就在今天!庫里保持了9年的NBA紀錄被打破了

就在今天!庫里保持了9年的NBA紀錄被打破了

籃球大視野
2026-06-14 15:14:01
普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

普京信任度暴跌?俄軍精銳被迫大撤離,3萬億養老金慘遭強制劃走

峰攀登者
2026-06-13 23:12:14
萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

萬萬沒想到!電詐集團被中國全面剿殺后,居然跨海轉移到這里?

完善法
2026-06-14 16:19:42
高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

高考剛結束就往醫院跑?大廳走廊擠滿女生,家長無奈:根本攔不住

奇思妙想草葉君
2026-06-11 21:08:40
廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

廣西一農貿市場222臺電子秤被檢定0臺合格,南寧市監局:截圖屬實,但不是缺斤少兩,不存在超差誤差問題

先鋒新聞
2026-06-14 13:40:53
21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

21歲男籃新星含淚官宣離隊!親曝與主帥矛盾:太讓人心疼

李絙在北漂
2026-06-14 05:20:35
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

路醫生健康科普
2026-06-03 16:36:08
拉杜卡努女王杯賽場怒懟教練

拉杜卡努女王杯賽場怒懟教練

體壇周報
2026-06-14 22:09:52
世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

世界杯亮劍后,利物浦切爾西盯上23歲韓國鐵衛

晚風知我意21
2026-06-14 01:26:51
“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

“明日三不空,不富也添安”,明日五月初一,分別指哪3不空?

小談食刻美食
2026-06-14 10:50:40
相隔一日,副院長54歲病逝,教研室主任47歲病逝

相隔一日,副院長54歲病逝,教研室主任47歲病逝

必記本
2026-06-14 08:45:31
婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

婆婆退休宴全家沒請我,我關機消失11天,回家后老公哭著說出事了

曉艾故事匯
2026-06-14 16:40:42
蘋果三款重磅新品即將發布!已經提前泄露

蘋果三款重磅新品即將發布!已經提前泄露

XCiOS俱樂部
2026-06-12 14:44:53
韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

韋東奕作答2026高考數學,能否拿下滿分?真實答案顛覆大眾認知

起喜電影
2026-06-13 13:29:44
被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

被劣跡富豪害慘的上海名嘴,54歲頭發花白,為兩個兒子辛苦打拼

可樂談情感
2026-06-15 02:36:28
鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

鄢姣,金融監管總局辦公廳副主任,皮膚白皙,顏值不輸當紅女明星

李昕言溫度空間
2026-06-14 08:27:32
2026-06-15 04:12:49
野生運營
野生運營
懂點產品,懂點AI,正在努力給平淡日子搞點新花樣。
291文章數 48關注度
往期回顧 全部

汽車要聞

狂歡置換價7.99萬 第三代豪越L歡樂PLUS大7座版上市

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

頭條要聞

德國7-1大勝庫拉索 庫拉索打入隊史世界杯首球

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

態度原創

健康
手機
數碼
教育
藝術

老人、小孩、孕婦,吃粽子有啥風險

手機要聞

小米618火熱進行中 多品類學生認證至高再減200元

數碼要聞

iOS 27與macOS 27暗示折疊屏iPhone與觸控版MacBook臨近登場

教育要聞

2026廣東高考開始閱卷,現場圖曝光!如何查分?祝愿考生接高分!

藝術要聞

218米!建行最大的獨棟辦公樓,和農行長得一模一樣!

無障礙瀏覽 進入關懷版