无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

10萬token自然語言推理,讓30B-A3B模型站上奧賽金牌線

0
分享至



奧賽級科學推理,一定要從更大的通用模型開始嗎?

最近上海人工智能實驗室一份技術報告給出了一個不同答案:不調用外部工具、不執行代碼、不接入專用符號求解器,一個 30B-A3B 規模的推理模型,也可以通過統一后訓練和推理時擴展,在 IMO、USAMO、IPhO 等高難數學與物理奧賽評測中達到強勁水平。

研究團隊選擇從已有 30B-A3B 推理主干出發,先用約 33.8 萬條高質量軌跡進行反向困惑度課程監督微調,再通過 200 步兩階段強化學習提升解題能力與完整證明質量,最后在推理階段采用多輪「生成 - 驗證 - 修正」循環。模型不調用外部工具、不執行代碼、不依賴專用符號求解器,卻能夠在困難奧賽題上持續開展 10 萬詞元以上的自然語言推理。

在比賽式評測中,模型經過推理階段擴展后,在 IMO 2025 和 USAMO 2026 中均取得 35 分,達到對應金牌級水平;在 IPhO 2024/2025 等物理奧賽任務上也達到金牌水平。在 USAMO 2026 第三題(人類選手平均分僅 0.01 分,無人過 5 分)上更是取得滿分。

更重要的是,這并非來自參數驚人的「巨無霸」模型,而是一個小而精的 30B-A3B 選手。

報告還顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約為 10.6 萬 token,自我修正階段中位長度約為 8.3 萬 token。

這表明,奧賽級科學推理的關鍵不只是模型規模本身,而在于能否讓模型把更長的推理預算穩定轉化為證明搜索、自我驗證和論證修復能力。



  • 論文鏈接:https://arxiv.org/abs/2605.13301
  • 開源鏈接:https://github.com/Simplified-Reasoning/SU-01

一般尺寸模型,也能做奧賽級證明?

奧林匹克競賽題一直是檢驗模型長程推理能力的硬場景。這類題目和常規數學問答不同, 一個正確結論遠遠不夠,模型還必須在很長的解題鏈路中持續管理假設、中間結論和邊界情形,最終給出能夠經受嚴格評分的完整證明或推導。隱藏的論證缺口、未覆蓋的分類討論、未經證明的關鍵引理,都可能讓整題失分。

因此,在過去相當長一段時間里,人們很自然地把奧賽級推理和一個條件綁定在一起:更大的通用模型底座。這份報告想回答的正是這一問題:

奧賽級推理任務,是否必須依賴更大、更強的通用模型?

研究團隊的選擇相當克制:不引入外部工具,不執行代碼,不依賴符號求解器。模型從構思、證明、檢查到修正,全部在自然語言中完成。

這樣一來,結果更直接地指向模型自身的能力:一個 30B-A3B 規模的模型,僅靠自然語言推理,能否承擔奧賽級證明?

先教會模型嚴謹推理,再讓它學會自我修正

團隊提出的簡潔統一方案可以概括為三個環節:監督微調塑造行為,強化學習提升解題能力,推理階段擴展放大證明搜索。



圖 1:方法框架,整體流程以 30B-A3B 推理主干為基礎,通過監督微調、兩階段強化學習和推理階段擴展,將模型塑造成能夠進行證明搜索、自我驗證和多輪修正的自然語言推理系統。

第一步是反向困惑度課程監督微調。研究團隊從數學、科學、代碼和指令跟隨等來源構建長鏈路推理數據,并加入自驗證、自修正樣本,使模型學習如何組織證明、檢查假設、定位漏洞并修復論證。訓練過程中,樣本按照初始模型困惑度從高到低排序:模型先接觸與當前策略差異更大的證明軌跡,再逐步鞏固更熟悉的樣本。

換言之,SFT 階段的目標并不是依靠海量數據直接堆高模型能力,而是更穩定地重塑模型的推理行為,使其形成嚴謹、可檢查、可修正的長程推理模式。

第二步是兩階段強化學習。第一階段使用可驗證題目和可靠的結果獎勵,高效提升模型的直接求解能力;第二階段則進一步從「答案是否正確」轉向「證明是否完整可靠」,引入證明質量獎勵模型、自修正任務和經驗回放機制。

其中,自修正任務讓模型在看到自身不完整或存在漏洞的解答后,學習如何重新檢查推理鏈條并生成更完整和嚴謹的修正版證明;經驗回放機制則用于保留訓練過程中少量但高價值的成功證明軌跡,避免這些在高難問題上偶然發現的有效解法被很快遺忘。

第三步在推理階段擴展。面對奧賽難題,模型并不只生成一次答案,而是進入「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的循環。這里擴展的不是外部工具鏈,而是模型自身的自然語言驗證與修正計算。

10 萬 token 級奧賽推理,不只是把答案寫長



圖 2:IMO-Bench 所含 ProofBench 結果。 SU-01 在直接生成時取得 57.6%,經推理階段擴展提升至 70.2%,顯著超越同尺寸模型,并 Gemini 3.1 Pro Thinking 等強閉源模型。

報告結果顯示,SU-01 在證明級評測中已經展現出強長程推理能力。在 IMO-ProofBench 上,SU-01 直接生成取得 57.6%,已是同尺寸模型中的最強結果;經推理階段擴展后,整體得分進一步提升至 70.2%,顯著超越同尺寸模型,并接近 Gemini 3.1 Pro Thinking 的 72.6%。

這說明,一般尺寸模型不僅可以追求最終答案正確,也可以通過統一訓練與推理組織提升完整證明質量。

報告還進一步指出,SU-01 的能力并不局限于競賽題。在更接近科研問題形態的 FrontierScience-Research 評測中,SU-01 取得同尺寸模型中的最佳成績,說明這套訓練方案不僅適用于奧賽基準,也具備向研究型科學問題泛化的潛力。



圖 2:USAMO 2026 推理階段擴展流程中不同動作的生成長度分布。

推理階段擴展進一步放大了模型的證明搜索和自我修正能力。通過「生成候選解答 - 檢查完整證明 - 定位問題 - 修正解答」的多輪循環,模型能夠把不完整或不穩定的嘗試轉化為嚴謹連貫的完整解答。

報告中的推理擴展分析顯示,在 USAMO 2026 的推理擴展軌跡中,初始解答生成的中位長度約 10.6 萬詞元,修正階段的中位長度約 8.3 萬詞元。

換言之,模型在 30B-A3B 規模下仍能持續開展 10 萬詞元量級的有效推理,并將長程計算用于證明構造、漏洞定位和論證修復。

數學與物理奧賽金牌水平推理

在奧林匹克官方競賽題上,SU-01 在數學奧賽和物理奧賽任務上均展現出金牌水平推理能力。

數學奧賽方面,模型在單次直接生成時已經具備較強解題能力:IMO 2025 取得 21 分,在 P2 獲得滿分,在 P4、P5 上接近滿分;USAMO 2026 取得 15 分,在 P1、P4 獲得滿分。經推理階段擴展后,模型在 IMO 2025 和 USAMO 2026 均取得 35 分,達到對應金牌級水平。



表 1:數學奧林匹克競賽評測結果。評測涵蓋 IMO 2025 和 USAMO 2026 兩項賽事;其中,IMO 2025 的金 / 銀 / 銅牌線為 35/28/19 分,USAMO 2026 的金 / 銀 / 銅牌線為 25/18/11 分。

尤其在最近的美國數學奧林匹克 USAMO 2026 上,SU-01 取得 35 分,遠超該賽事 25 分的金牌線,并達到人類選手最高分水平。

根據 340 名人類選手的得分統計,USAMO 2026 平均分為 8.59 分,中位數僅為 6 分,Top 12 分數線為 26 分、Top 24 分數線為 23 分,整場最高分為 35 分;從分題統計看,P2、P3、P6 難度尤其突出,其中 P3 平均分僅 0.01 分、無人達到 5 分以上,而 SU-01 在該題取得滿分成績。



圖 4 :USAMO 2026 人類選手得分統計與分題難度分布。該賽事共有 340 名選手參賽,平均分為 8.59 分,中位數為 6 分,Top 12 和 Top 24 分數線分別為 26 分和 23 分,最高分為 35 分。分題統計顯示,P2、P3、P6 難度突出,其中 P3 平均分僅 0.01 分,且無人達到 5 分以上。(來源https://web.evanchen.cc/exams/posted-usamo-statistics.pdf)


這說明 SU-01 的 35 分并非主要來自常規題的得分,而是在高難證明題上取得關鍵突破,整體表現達到了頂尖人類選手水平。

一個特別突出的例子是 USAMO 2026 P3:模型沒有沿用標準的綜合幾何路線,而是優雅地使用復數方法,將單位圓、等邊三角形旋轉、弦關系和切線條件統一到同一個代數框架中。這將一個奧賽選手通常會通過角追蹤和輔助構造處理的幾何配置,轉化為一種結構化的解析表述。

IMO 2025 P2 則展示了另一種互補能力,模型將一個涉及兩相交圓、垂心和切線判定的幾何問題,化約為坐標與距離計算。

其他有趣的案例還包括 USAMO P4 中的進位狀態動態規劃,以及 USAMO P6 中結合歐拉函數、同余、Vieta jumping 和 Fibonacci 結構的數論證明。

物理奧賽方面,模型在 IPhO 2024/2025 直接生成已超過金牌線,推理階段擴展后進一步提升。



表 2:物理奧林匹克競賽評測結果。評測涵蓋 IPhO 2024 和 IPhO 2025 兩項賽事;其中,IPhO 2024 金牌線為 20.8 分,IPhO 2025 金牌線為 19.7 分。表中 x /y 分別表示模型在直接生成和推理階段擴展設置下的得分。

更高效的科學推理系統路線

這項工作的價值不止于奧賽分數,而在于驗證了一條更高效的科學推理系統路線:以已有推理模型為起點,通過嚴謹推理行為塑造、證明級獎勵設計和推理時「生成 - 驗證 - 修正」閉環,將有限規模模型的計算預算轉化為可評分、可驗證的證明能力。

面向未來,這一路線有望從數學與物理奧賽擴展到更廣泛的科學問題求解,成為構建高效、可靠、可驗證科學智能系統的通用方法。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
菲總統稱不希望卷入任何與臺灣有關的戰爭,外交部回應

菲總統稱不希望卷入任何與臺灣有關的戰爭,外交部回應

澎湃新聞
2026-05-19 15:36:29
蓮花“Focus 2030”解讀:純電不是唯一答案,駕駛者才是

蓮花“Focus 2030”解讀:純電不是唯一答案,駕駛者才是

買車大師
2026-05-19 10:05:32
Here we go!羅馬諾:馬雷斯卡將執教曼城,接任瓜迪奧拉

Here we go!羅馬諾:馬雷斯卡將執教曼城,接任瓜迪奧拉

懂球帝
2026-05-19 15:30:24
后續!新娘換裝46分鐘賓客散場:賓客現身評論區爆料實錘 網友炸鍋

后續!新娘換裝46分鐘賓客散場:賓客現身評論區爆料實錘 網友炸鍋

小鋭有話說
2026-05-19 08:24:16
中國第一巨人鮑喜順:不聽醫生勸告非要生子,現在兒子長到多高

中國第一巨人鮑喜順:不聽醫生勸告非要生子,現在兒子長到多高

王鶔吃吃喝喝
2026-05-18 19:18:58
忽然有點心疼上海交大的樊同學

忽然有點心疼上海交大的樊同學

老張侃詩詞
2026-05-19 12:38:37
百度拋出 AI 時代的新度量衡

百度拋出 AI 時代的新度量衡

晚點LatePost
2026-05-14 20:10:13
今日最慘股!連續4個20cm跌停后,今又閃崩大跌51%,有人6天虧81%

今日最慘股!連續4個20cm跌停后,今又閃崩大跌51%,有人6天虧81%

丁丁鯉史紀
2026-05-19 14:53:55
《監獄來的媽媽》得獎,對共產主義的背叛!

《監獄來的媽媽》得獎,對共產主義的背叛!

紅色少女主播
2026-05-18 22:32:03
涉嫌嚴重違紀違法,花卉被查

涉嫌嚴重違紀違法,花卉被查

揚子晚報
2026-05-19 17:57:34
侵犯公民人身自由國家賠償金,最新標準公布

侵犯公民人身自由國家賠償金,最新標準公布

南方都市報
2026-05-19 14:45:00
李想扔掉了舊世界的地圖,劃出具身智能上下半場

李想扔掉了舊世界的地圖,劃出具身智能上下半場

電動汽車觀察家
2026-05-19 11:30:20
交大樊某被曝更多惡行!撒謊拉老師下水,中高考全保送,大有來頭

交大樊某被曝更多惡行!撒謊拉老師下水,中高考全保送,大有來頭

小鋭有話說
2026-05-19 17:23:10
下一輪中國智造,不只拼技術,更要拼場景

下一輪中國智造,不只拼技術,更要拼場景

智谷趨勢
2026-05-19 09:11:53
上海已婚男子突然消失,妻子走投無路對外稱“丈夫死了”,戶口注銷,結果尷尬

上海已婚男子突然消失,妻子走投無路對外稱“丈夫死了”,戶口注銷,結果尷尬

上觀新聞
2026-05-19 11:51:26
某些人的良心徹底爛了!

某些人的良心徹底爛了!

胖胖說他不胖
2026-05-19 11:50:06
中央督察組通報后,遼寧省委書記許昆林赴現場督導整改

中央督察組通報后,遼寧省委書記許昆林赴現場督導整改

新京報政事兒
2026-05-19 18:28:07
馬斯克沒坐空軍一號回去,發布了與母親的合影,他的母親定居上海

馬斯克沒坐空軍一號回去,發布了與母親的合影,他的母親定居上海

世界圈
2026-05-17 14:28:13
騰訊這個公司:AI時代掉隊是必然!

騰訊這個公司:AI時代掉隊是必然!

舜口說
2026-05-19 11:13:51
羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

爆角追蹤
2026-05-19 12:38:40
2026-05-19 18:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13036文章數 142651關注度
往期回顧 全部

科技要聞

馬斯克敗訴,法院判他起訴OpenAI太晚了

頭條要聞

菲總統稱不希望卷入任何與臺灣有關的戰爭 外交部回應

頭條要聞

菲總統稱不希望卷入任何與臺灣有關的戰爭 外交部回應

體育要聞

文班亞馬:沒拿到MVP,就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒,為什么她還能蹦噠

財經要聞

從賣流量到賣Token,運營商算力生意破局

汽車要聞

配置全家桶 全新海獅05這次升級全在點上

態度原創

本地
數碼
房產
親子
公開課

本地新聞

別搜晉江小說了,去看真的晉江

數碼要聞

50天12.6萬次價格抓取:所有顯卡都在跌 唯獨RTX 5090逆漲3%

房產要聞

7516元/㎡,161套一次全甩!海口住宅最低價出現了!

親子要聞

小兒抽動癥 并不是絕癥 家長們不要慌

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版