網易首頁 > 網易號 > 正文申請入駐

卡內基梅隆大學:物理模擬器訓練實現大模型國際物理奧賽成績刷新

2026-04-21 22:00:06　來源: 科技行者

天津舉報

分享至

這項由卡內基梅隆大學與Lambda公司聯合完成的研究，以預印本形式發布于2026年4月，論文編號為arXiv:2604.11805，有興趣深入了解的讀者可以通過這個編號查詢完整論文。

**研究概要**

物理題一直是讓大多數人頭疼的"攔路虎"。當我們還在為高考物理苦苦掙扎時，國際物理奧林匹克競賽（IPhO）的題目已經難到了連許多大學教授都要認真思考的程度。那么，如果讓一臺AI去做這些題，結果會怎樣？

更有意思的問題在于：這臺AI是怎么"學會"解物理題的？靠課本？靠題庫？不——這支來自卡內基梅隆大學的團隊選擇了一條完全不同的路：讓AI在一個虛擬的物理世界里反復"玩耍"，通過觀察物體怎么運動、怎么碰撞、怎么擺動，自己悟出物理規律。

這個方法有個正式的名字，叫做Sim2Reason（從模擬到推理）。它的核心思路是：先用電腦程序搭建各種物理場景，比如滑輪系統、彈簧碰撞、行星軌道等，讓這些虛擬場景自動"運轉"并記錄數據，然后從這些數據中提煉出大量物理問答題，最后用這些題來強化訓練AI。

結果令人意外。訓練之后，AI在國際物理奧林匹克競賽的力學題目上，成績提升了5到10個百分點，而且完全沒有看過任何真實的物理競賽題目。這項研究的意義遠不止于讓AI多做對幾道題——它證明了一件事：虛擬世界可以是現實世界最好的老師。

**一、數據的饑荒：為什么AI學物理這么難**

回到2016年前后，AlphaGo橫空出世，擊敗圍棋世界冠軍的消息震驚了全球。那時候，人們開始相信AI能學會一切。然而，圍棋有一個特別之處：它的棋譜數量是天文數字，而且每一步棋的勝負可以被精確驗證。

大型語言模型的崛起，遵循了類似的邏輯。DeepSeek、GPT等模型之所以能在數學推理上表現出色，是因為互聯網上堆積著海量的數學題目和解題過程——從小學算術到競賽數學，各種難度的題目應有盡有，而且每道題都有明確的對錯之分，可以自動檢驗。

物理學就沒有這么幸運了。互聯網上確實有物理題，但數量遠遠比不上數學題。更要命的是，物理題往往需要結合圖表、實驗裝置，很難直接用純文字來描述和驗證。研究團隊發現，DeepSeek-R1訓練用的80萬道題目里，涉及理工科（STEM）內容的比例連1%都不到。這就像一個想成為廚師的人，卻幾乎只讀了菜譜評論，從沒有真正下過廚房。

物理學家們知道，真正理解物理不只是背公式，而是要"感受"力學系統的運動規律。當你反復觀察一個彈簧-質量系統的振動，你會在腦子里形成一種直覺：彈簧越硬，振動越快；質量越大，振動越慢。這種直覺很難從文字描述中獲得，但在反復觀察真實（或虛擬）的物理場景之后，自然而然就會建立起來。

正是這種洞察，促使研究團隊轉向了物理模擬器。

**二、物理引擎：那個忠實執行牛頓定律的虛擬世界**

物理引擎是一種能在電腦里忠實模擬物理規律的程序。游戲玩家對它并不陌生——你在游戲里扔出一顆手雷，它會按照拋物線飛行；汽車碰撞時，車身會依照力學原理變形。背后驅動這些效果的，就是物理引擎。

研究團隊選用的是MuJoCo，這是一個在機器人研究領域廣泛使用的物理模擬引擎。MuJoCo的強大之處在于，它不只是"看起來像"物理現實，而是通過數值積分嚴格求解運動方程，每一時刻的速度、加速度、能量、動量都可以精確計算。

然而，直接把物理引擎的輸出結果喂給AI，并不能讓AI學會解物理題。這里有一個根本矛盾：物理引擎輸出的是連續的時間序列數據——比如某個質量塊在0.001秒、0.002秒、0.003秒……時的坐標——而解物理題需要的是離散的符號推理，比如"設x為初速度，根據牛頓第二定律，加速度a等于..."。這兩種"語言"之間，存在著一道鴻溝。

更早之前，有研究者嘗試過讓AI直接寫代碼來調用物理引擎，用模擬結果來輔助解題。但研究團隊在早期實驗中發現，這條路走不通：AI經常寫出無法運行的代碼，或者對物理場景的建模存在根本性錯誤。而且，這種方法需要大量人工設計，很難自動擴展。

Sim2Reason的思路與此截然不同。它不是讓AI去"使用"物理引擎，而是讓物理引擎充當一個自動出題員和批改員，源源不斷地生產有價值的物理訓練題。

**三、自動出題機：一套精心設計的"問題工廠"**

Sim2Reason的數據生產流水線分成四個環節，整體上就像一條組裝流水線：先搭場景、再運行模擬、然后提煉題目、最后質檢篩選。

搭場景這一步，是整個系統最精妙的設計之一。研究團隊發明了一套專門的"場景描述語言"（Domain-Specific Language，簡稱DSL），有點像樂高積木的說明書。這套語言定義了一系列基本"零件"，比如質量塊、滑輪、彈簧、斜面、繩子，以及它們之間合法的連接方式。然后，程序隨機地把這些零件組合成各種各樣的物理系統。

舉個例子，系統可能會生成這樣一個場景：一個30度斜面上放著一個2千克的滑塊，通過繩子繞過滑輪，連接著一個懸掛在空中的1千克重物，重物旁邊還有一根彈簧連著墻壁。這個場景完全是隨機拼出來的，但它在物理上是合理的，可以被正確地模擬。

DSL的關鍵設計理念是：只在"物理上有意義"的維度上隨機化。比如，改變滑塊的質量會顯著影響整個系統的運動，這是有意義的隨機化。而改變繩子的顏色或者斜面的紋理，對物理行為沒有任何影響，因此不在隨機化范圍之內。這樣，每一個隨機生成的場景都蘊含著真實的物理內容，而不是徒有其表的花樣翻新。

場景搭好之后，MuJoCo引擎接管，運行模擬并記錄每一時刻所有物體的位置、速度、加速度、動量、能量、繩子張力等幾十種物理量。接下來，系統從這些數據中自動生成三種類型的問題。

第一類是"數值問題"：給定場景描述，詢問某個具體時刻的某個物理量，比如"5.44秒后第二個質量塊的速度是多少？"答案直接從模擬數據中讀取，百分之百準確。第二類是"反推問題"：把場景中的某個參數隱去，根據已知結果反推，比如"如果3秒后速度為5米每秒，那么質量塊的質量是多少？"這類問題考察的是逆向推理能力。第三類是"符號問題"：把所有具體數字替換成字母，要求給出解析式，比如"質量塊A在時間t后的速度是多少（用m、k、t等字母表示）？"這類問題考察的是符號代數推導能力。

場景和問題的自然語言描述，由預先設計好的模板字符串自動拼接生成，整個過程不需要任何人工介入。

**四、質檢關卡：去掉那些"走捷徑"就能解出的題目**

有了大量自動生成的題目，還不夠。研究團隊發現，有相當一部分題目存在一個隱患：答題者可以忽略掉場景中的某些部分，把復雜的多體系統簡化成一個簡單的單體系統，得到的答案卻跟完整分析完全一致。

打個比方，假設有一道題描述了一個由兩個滑塊和一個彈簧組成的系統，問整個系統的加速度。如果兩個滑塊始終以相同加速度運動（比如它們被剛性連接），那么你可以把它們看成一個整體，完全忽略彈簧和內部結構，同樣算出正確答案。這類題目對于訓練AI來說沒什么價值——AI可能因為走了捷徑而獲得獎勵，但并沒有真正理解多體相互作用。

為了篩掉這類題目，研究團隊設計了一套"消融實驗"。對于每一道生成的題目，系統會自動構造多個"刪減版"場景：刪掉場景中的某一個實體，或者把某個關節替換成剛性連接，重新運行模擬。如果刪減版場景得出的答案和原版一模一樣，那這道題就被判定為"走捷徑可解"，直接扔掉。

這個質檢環節大約淘汰了15%的題目。雖然比例不高，但研究結果顯示，這個步驟對最終訓練效果至關重要——去掉質檢的版本，AI在真實競賽題上的提升幅度幾乎只有完整版的一半。

**五、強化學習：不教答案，只給分數，逼AI自己想**

有了經過質檢的題目庫，接下來是訓練AI的環節。研究團隊選擇的方法是強化學習（Reinforcement Learning），而不是更傳統的監督學習（給模型看正確的解題過程，讓它模仿）。

這兩種方法的區別，可以用教孩子走迷宮來類比。監督學習的方式是：給孩子看一份完整的路線圖，讓他記住并復現。強化學習的方式是：把孩子扔進迷宮，每次他走出來就給塊糖，走錯了就不給。孩子在反復嘗試中，自己摸索出了走迷宮的規律，甚至可能發現了路線圖上沒有標注的捷徑。

在Sim2Reason的訓練中，AI每次面對一道題，會生成一組候選答案。只有當最終數值答案落在模擬器正確答案的5%誤差范圍之內，才會獲得正向獎勵；否則獎勵為零。這個5%的容差是有意設計的，因為物理模擬器本身有數值近似誤差，嚴格要求精確匹配會產生噪音。

研究團隊還采用了一種叫做"動態采樣"的技巧。如果某道題對AI來說太簡單（每次都答對）或者太難（每次都答錯），那它對訓練幾乎沒有幫助——就像讓一個數學博士做一加一，或者讓小學生做微積分，都是在浪費時間。動態采樣機制會自動過濾掉這兩類極端情況，只保留AI"有時能做對、有時做錯"的題目，把訓練資源集中在最有價值的難度區間。

研究團隊用這個方法分別訓練了參數量從30億到320億的多個Qwen模型（阿里巴巴開發的開源大語言模型系列）。整個訓練過程只跑了200步，每步處理32道題，總共不到6400道獨特題目——這個規模，比互聯網上普通的數學題庫小了好幾個數量級。

**六、實驗結果：合成數據的訓練，真實競賽的提升**

訓練完成后，研究團隊用多個真實的物理和數學考試來檢驗模型。

在國際物理奧林匹克競賽（IPhO）的力學題上，不同規模的模型均取得了實質性提升。其中，30億參數的Qwen2.5-3B模型提升幅度最為顯眼，從原來的5.68%跳升至13.15%，漲幅超過7個百分點；320億參數的Qwen2.5-32B從19.8%升至25.2%，提升5.4個百分點；300億參數的Qwen3-30B從35.6%升至40.0%，提升4.4個百分點。這些數字看起來也許不算驚天動地，但別忘了，這只是用合成模擬數據訓練出來的結果，AI完全沒有見過任何真實的競賽題目。

在另一個專門考察力學知識的JEEBench（印度工程聯合入學考試）題目上，32B模型的提升幅度更加驚人：從34.38%飆升至52.28%，凈增17.9個百分點。這個成績之所以提升如此之大，是因為JEEBench的力學題目類型與模擬器能生成的場景高度吻合，訓練數據的"命中率"格外高。

此外，模型在純數學基準測試上同樣有所提升——AIME 2025（美國數學邀請賽）提升1.67個百分點，MATH 500提升4.4個百分點。這個發現頗為有趣：訓練物理推理能力，順帶強化了數學計算能力。研究團隊認為，這是因為物理推理本身包含大量數學運算，物理訓練讓模型的多步驟定量推理能力全面提升。

**七、與真實數據的比較：合成數據贏了**

一個自然而然的問題是：這些合成的模擬器數據，比得上從真實競賽題目或教科書中整理的數據嗎？

研究團隊找來了幾個代表性的對比基準。Prime P1是一個在物理推理上很有競爭力的開源模型，它在訓練時使用了超過5000道精心整理的真實物理競賽題目和教科書例題。與此相比，Sim2Reason只用了合成模擬數據。結果，Sim2Reason（基于Qwen3-30B）在IPhO上達到了40.0%，超過了Prime P1 30B的38.6%。

另一個對比是DAPO-17K，這是一個包含1.7萬道數學題的高質量強化學習訓練集，專門為培養數學推理能力而設計。研究團隊用同樣的3B模型，分別在只用DAPO-17K、只用合成模擬數據、以及混合使用兩者三種情況下進行訓練。結果顯示，單用合成模擬數據（13.15%）顯著優于單用DAPO-17K（9.98%），而混合使用的效果（10.35%）介于兩者之間，說明兩類數據有一定互補性，但物理專項的模擬數據才是提升IPhO成績的主要驅動力。

**八、監督學習 vs 強化學習：為什么"模仿答案"不如"自己摸索"**

研究團隊還對比了兩種截然不同的訓練策略。

第一種是監督學習（SFT）：用GPT-4、o3、o4-mini等強大的AI生成20萬道題的解題過程，然后讓待訓練的模型去模仿這些解題步驟。第二種是強化學習：只告訴模型最終答案對不對，讓它自己探索解題策略。

結果出人意料。監督學習在訓練集上有所提升，但在IPhO等真實測試集上卻下降了3.9個百分點。研究團隊認為，這是一種"災難性遺忘"現象：模型為了模仿特定的解題風格，改變了原有的推理模式，損失了更廣泛的推理能力。強化學習則恰恰相反，它讓模型在保持原有能力的基礎上，額外獲得了物理推理技能，在訓練集和真實測試集上都取得了穩定提升。

**九、舉一反三：AI學到的不只是課本上的題型**

Sim2Reason系統當前的模擬器覆蓋了經典力學的大部分內容，但顯然無法涵蓋所有物理題類型。一個關鍵問題是：AI學到的究竟是針對特定模擬場景的"記憶"，還是更深層的物理推理能力？

研究團隊用一道真實的JEE Advanced 2017題目來檢驗這一點。這道題涉及一枚火箭在太陽-地球雙引力系統中的逃逸速度，需要同時處理來自太陽和地球的引力勢能，并將兩者用"能量疊加"而非"速度疊加"的方式合并。這個場景在研究團隊的模擬器中并沒有直接對應的實體。

訓練前的基礎模型犯了一個典型錯誤：它試圖把太陽和地球的逃逸速度直接相加，得到一個錯誤答案。訓練后的模型則正確地認識到，引力勢能才是應該相加的量，兩個逃逸速度應以"平方和開根"的方式合并，最終得出了正確答案42千米每秒。

研究團隊對多個類似案例的分析顯示，訓練后的模型在以下幾個維度均有明顯改善：數學計算的準確性（比如不再犯數量級錯誤）、物理概念的正確映射（比如能正確區分速度的矢量疊加和標量疊加）以及解題策略的合理性（比如主動進行單位轉換，用更簡便的方式代入數值）。這些改善跨越了訓練集的具體場景類型，具有一定的通用性。

**十、模擬器作為考場：自動化的物理能力測評**

Sim2Reason的另一個意外收獲，是它可以充當評估AI物理能力的自動化考場。

評估AI在物理競賽題上的表現，通常面臨一個困境：真實競賽題的數量有限，題目本身還會隨著時間積累而被各種模型"記住"，導致評估結果失真。Sim2Reason可以隨時生成全新的、從未出現過的物理題，天然避免了這個問題。

更重要的是，研究團隊發現，模型在合成模擬題上的得分，與它在真實IPhO競賽題上的得分之間，存在顯著的正相關關系（斯皮爾曼相關系數達到0.79）。換句話說，如果一個模型在模擬題上表現優秀，它在真實競賽題上的表現也會更好。這意味著，可以用模擬題的得分作為一個快速、低成本的代理指標，來預測模型在真實物理題上的能力。

**十一、拓展性：能不能用同樣的方法處理更多場景？**

研究團隊還考察了這套流水線的可擴展性。當前系統的DSL覆蓋了大約15種物理實體類型（滑輪、斜面、彈簧系統、碰撞、旋轉體、火箭、電磁場中的帶電粒子等），但真實的物理競賽題遠不止這些類型。

為了測試能否低成本地擴展DSL，研究團隊選取了三道當前系統無法直接模擬的競賽題目，分別來自F=MA、USAPhO和JEE Advanced，然后讓AI（大語言模型）嘗試為這些題目設計新的DSL實體。實驗結果顯示，當AI直接嘗試生成MuJoCo的底層XML代碼時，三道題中只有一道成功（成功率33%）；但當AI在DSL框架內設計新實體（本質上是設計更高層次的"積木塊"）時，三道題全部成功（成功率100%）。

這說明DSL的抽象層次起到了關鍵作用：它把"如何在模擬器中正確配置關節、約束和接觸"這類繁瑣的底層工程問題，轉化為"這個實體有哪些物理參數、可以如何與其他實體連接"這類更符合物理直覺的高層描述。AI理解后者遠比前者容易，因此擴展成功率大幅提高。

此外，研究團隊還測試了DSL的跨模擬器可移植性：他們讓AI把部分MuJoCo實體"翻譯"到NVIDIA Omniverse（另一個物理引擎），結果所有測試的實體均成功遷移。這意味著，未來即便要切換底層模擬引擎，也不需要從頭重建整個數據生產體系。

說到底，Sim2Reason這項研究講的是一個"無中生有"的故事。研究團隊沒有收集物理題庫，沒有雇傭物理專家標注數據，沒有從競賽官網爬取歷年真題——他們只是在一個虛擬世界里，讓物理規律自己"說話"，然后把這些"話"轉化成AI的學習材料。

這背后隱含著一個更深遠的洞見：知識不一定來自人類寫下的文字，有些知識本來就編碼在自然規律之中，只需要合適的工具去提取和轉化。物理模擬器就是這樣一種工具，它把連續的自然規律壓縮成了離散的、可驗證的訓練信號。

當然，這個方法目前還有明顯局限。它的覆蓋范圍主要集中在經典力學，電磁學、熱力學、量子力學等領域的支持還相當有限。模擬器本身有數值精度問題，某些復雜接觸和摩擦行為的模擬并不完全可靠。此外，一些需要高度定性推理或圖表分析的物理題，目前的框架也難以直接處理。

但這個方向本身的潛力，遠不止于物理學。化學分子動力學、流體力學、生物力學……凡是能被精確建模的物理過程，都可能成為AI推理訓練的數據來源。你可能會想，如果有一天，AI可以通過在虛擬化學實驗室里做實驗來學習化學，通過在虛擬城市里模擬交通來學習經濟學，這將打開怎樣的可能性？

有興趣深入了解這項研究的讀者，可以通過論文編號arXiv:2604.11805查詢完整論文，項目代碼和演示視頻也可通過sim2reason.github.io獲取。

Q&A

Q1：Sim2Reason用物理模擬器訓練AI，這和傳統的用題庫訓練有什么本質區別？

A：傳統方法依賴人類寫下的題目和答案，數量有限，而且物理題尤其稀缺。Sim2Reason直接從物理引擎里"自動生產"題目——程序隨機搭建虛擬物理場景，引擎模擬運行后自動記錄答案，全程不需要人工介入。本質區別在于，數據來源從"人類曾經寫下的知識"擴展到了"物理規律本身"，理論上可以無限量生成。

Q2：IPhO國際物理奧林匹克競賽那么難，AI用模擬器訓練真的有用嗎？

A：有用，但提升幅度有限。研究顯示，用Sim2Reason訓練后，不同規模的模型在IPhO力學題上提升了4到7個百分點。考慮到訓練數據完全來自合成場景，沒有見過任何真實競賽題，這個提升說明AI確實學到了可遷移的物理推理能力，而不是單純記憶題型。

Q3：強化學習訓練AI解物理題，為什么比讓AI模仿正確解題步驟效果更好？

A：模仿正確解題步驟（監督學習）會讓AI過度調整自身的推理風格，導致在其他類型題目上的表現反而下降，這叫做"災難性遺忘"。強化學習只告訴AI答案對不對，讓它自己摸索解法，這樣AI在學會物理推理的同時，不會破壞原有的通用推理能力，實驗數據證實了這一點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.