網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

梁文鋒登上《自然》封面，DeepSeek所有的秘密曝光：中文完整版來了

2025-09-21 23:12:15　來源: 互聯網思想

廣東舉報

0

分享至

梁文鋒論文登上《自然》封面！DeepSeek-R1訓練方法發布

9月17日，由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文，登上了國際權威期刊《自然》的封面。

DeepSeek-R1是全球首個經過同行評審的主流大語言模型。Nature評價道：目前幾乎所有主流的大模型都還沒有經過獨立同行評審，這一空白“終于被DeepSeek打破”。

梁文鋒

DeepSeek-R1包含一個在人類監督下的深入訓練階段，以優化推理過程。梁文鋒團隊報告稱，該模型使用了強化學習而非人類示例來開發推理步驟，減少了訓練成本和復雜性。

DeepSeek-R1在被展示優質的問題解決案例后，會獲得一個模板來產生推理過程，即這一模型通過解決問題獲得獎勵，從而強化學習效果。團隊總結說，未來研究可以聚焦優化獎勵過程，以確保推理和任務結果更可靠。

梁文鋒出生于1985年，廣東湛江人，幻方量化、DeepSeek創始人。2024年12月，梁文鋒和團隊開發的大模型“DeepSeek-V3”發布。2025年4月，梁文鋒入選美國《時代》周刊“2025年全球最具影響力100人”榜單。

DeepSeek是2023年成立于杭州的人工智能公司，由幻方量化孵化。創始團隊由梁文鋒領銜，成員來自頂尖高校與國際機構技術專家。

（來源：科技日報長安街知事財聯社）

【完整中文版】梁文鋒 Nature封面論文 - DeepSeek-R1：通過強化學習激勵大語言模型的推理能力 |附同行評審和回應

祝賀梁文鋒和DeepSeek團隊, 期待DeepSeek R2早日推出

標題: DeepSeek-R1：通過強化學習激勵大語言模型的推理能力

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, …Zhen Zhang
《自然》第645卷, 第633–638頁 (2025) 引用本文

摘要

通用推理是人工智能（AI）領域一個長期存在的艱巨挑戰。近期的突破, 如大型語言模型（LLMs）和思維鏈（CoT）提示等, 已在基礎推理任務上取得了顯著成功。然而, 這種成功嚴重依賴于大量的人工標注范例, 并且模型的能力對于更復雜的問題仍然不足。本文中, 我們展示了通過純強化學習（RL）可以激勵LLMs的推理能力, 從而無需人工標記的推理軌跡。我們提出的強化學習框架促進了高級推理模式的涌現式發展, 例如自我反思、驗證和動態策略調整。因此, 訓練后的模型在數學、編程競賽和STEM領域等可驗證任務上取得了卓越的性能, 超越了通過傳統監督學習在人類范例上訓練的同類模型。此外, 這些大規模模型所展現出的涌現式推理模式可以被系統地用于指導和增強較小模型的推理能力。

正文

推理能力是人類智能的基石, 它支撐著從數學問題解決到邏輯推演和編程等復雜的認知任務。人工智能近期的進展表明, 當LLMs擴展到足夠大的規模時, 可以展現出包括推理能力在內的涌現行為。然而, 在預訓練中實現此類能力通常需要巨大的計算資源。與此同時, 另一條互補的研究路線表明, 通過思維鏈（CoT）提示可以有效增強LLMs的能力。這項技術通過提供精心設計的少樣本示例或使用極簡提示（如“讓我們一步一步地思考”）, 使模型能夠生成中間推理步驟, 從而顯著提升其在復雜任務上的性能。同樣, 當模型在后訓練階段學習高質量、多步驟的推理軌跡時, 也觀察到了性能的進一步提升。盡管這些方法卓有成效, 但它們也存在顯著的局限性。它們對人工標注的推理軌跡的依賴減緩了可擴展性, 并引入了認知偏見。此外, 通過限制模型復制人類的思維過程, 其性能本質上受限于人類提供的范例, 這阻礙了對更優越、非類人推理路徑的探索。

為了解決這些問題, 我們旨在探索LLMs在強化學習框架下通過自我演進發展推理能力的潛力, 并最大限度地減少對人類標記工作的依賴。具體來說, 我們基于DeepSeek-V3 Base, 并使用組相對策略優化（Group Relative Policy Optimization, GRPO）作為我們的強化學習框架。獎勵信號僅基于最終預測與標準答案的正確性, 而不對推理過程本身施加約束。值得注意的是, 我們繞過了強化學習訓練前傳統的監督微調（SFT）階段。這一設計選擇源于我們的假設, 即人類定義的推理模式可能會限制模型的探索, 而無限制的強化學習訓練能更好地激勵LLMs中新推理能力的涌現。通過下一節詳述的這一過程, 我們的模型（稱為DeepSeek-R1-Zero）自然地發展出了多樣化且復雜的推理行為。為了解決推理問題, 該模型傾向于生成更長的響應, 在每個響應中都包含了驗證、反思和對替代方法的探索。盡管我們沒有明確教導模型如何推理, 但它通過強化學習成功地學會了更優的推理策略。

盡管DeepSeek-R1-Zero展現出卓越的推理能力, 但它也面臨一些挑戰, 如可讀性差和語言混用問題, 有時會在單個思維鏈響應中混合使用英語和中文。此外, DeepSeek-R1-Zero的基于規則的強化學習訓練階段狹隘地專注于推理任務, 導致其在寫作和開放域問答等更廣泛領域的性能受限。為應對這些挑戰, 我們引入了DeepSeek-R1, 這是一個通過整合了拒絕采樣、強化學習和監督微調的多階段學習框架訓練出的模型, 詳見“DeepSeek-R1”部分。這一訓練流程使DeepSeek-R1能夠繼承其前身DeepSeek-R1-Zero的推理能力, 同時通過進一步的非推理數據使模型行為與人類偏好對齊。

為了讓更廣泛的用戶能以更低的能源成本使用強大的人工智能, 我們蒸餾了幾個較小的模型并將其公之于眾。這些蒸餾后的模型展現出強大的推理能力, 其性能超越了它們原始的指令微調版本。我們相信, 這些指令微調版本也將為研究社區做出巨大貢獻, 為理解長思維鏈推理模型的內在機制和推動更強大推理模型的開發提供寶貴資源。我們按照“代碼可用性”部分的描述, 公開了DeepSeek-R1-Zero、DeepSeek-R1、數據樣本和蒸餾模型。

DeepSeek-R1-Zero

為實現DeepSeek-R1-Zero的大規模強化學習, 我們采用了一個高效的強化學習流程。具體來說, 我們使用GRPO作為我們的強化學習算法, 具體描述見方法部分的“GRPO”。此外, 我們使用基于規則的獎勵系統來計算準確性和格式獎勵, 詳細方法論在方法部分的“獎勵設計”中概述。此外, 我們的高性能強化學習基礎設施在補充信息的2.1節中有所描述, 確保了可擴展且高效的訓練。

具體而言, 我們將強化學習技術應用于DeepSeek-V3 Base來訓練DeepSeek-R1-Zero。在訓練過程中, 我們設計了一個簡單的模板, 要求DeepSeek-R1-Zero首先產出推理過程, 然后給出最終答案。提示模板如下：

“用戶與助手之間的一段對話。用戶提出一個問題, 助手解決它。助手首先在腦海中思考推理過程, 然后向用戶提供答案。推理過程和答案分別被包含在...和...標簽內, 即此處為推理過程此處為答案。用戶：[提示]。助手：”, 其中[提示]在訓練時會被具體的推理問題替換。我們有意將約束限制在這種結構格式上, 避免任何內容上的偏見, 以確保能準確觀察到模型在強化學習過程中的自然演進。

圖1a展示了DeepSeek-R1-Zero在整個強化學習訓練過程中在美國數學邀請賽（AIME）2024基準測試上的性能軌跡, 其中AIME 2024上的平均pass@1得分顯著提升, 從最初的15.6%躍升至77.9%。此外, 通過使用自洽性解碼, 模型的性能可以進一步提高, 準確率達到86.7%。這一性能遠超所有人類參賽者在AIME競賽中的平均表現。除了數學競賽, 如補充圖8所示, DeepSeek-R1-Zero在編程競賽以及研究生水平的生物、物理和化學問題上也取得了卓越的性能。這些結果突顯了強化學習在增強LLMs推理能力方面的有效性。

圖 1：DeepSeek-R1-Zero在整個訓練過程中的準確率和輸出長度。

DeepSeek-R1-Zero在訓練期間的AIME準確率。AIME以一個數學問題為輸入, 一個數字為輸出, 如擴展數據表1所示。pass@1和cons@16的描述見補充信息4.1節?；€是人類參與者在AIME競賽中取得的平均分。b, DeepSeek-R1-Zero在強化學習過程中對訓練集的平均響應長度。DeepSeek-R1-Zero自然地學會了用更多的思考時間來解決推理任務。請注意, 一個訓練步驟指一次策略更新操作。

除了訓練過程中推理能力的逐步增強, DeepSeek-R1-Zero還隨著強化學習訓練展現出自我演進行為。如圖1b所示, DeepSeek-R1-Zero的思考時間在整個訓練過程中穩步增加, 這完全是由內在適應而非外部修改驅動的。利用長思維鏈, 模型逐步完善其推理過程, 生成成百上千個詞元來探索和改進其解決問題的策略。

思考時間的增加有助于復雜行為的自主發展。具體來說, DeepSeek-R1-Zero越來越多地展現出高級推理策略, 如擴展數據圖1a中所示的反思性推理和對替代解決方案的系統性探索, 這極大地提升了其在數學和編程等可驗證任務上的性能。值得注意的是, 在訓練期間, DeepSeek-R1-Zero展現出一個“頓悟時刻”（如表1所示）, 其特征是在反思過程中“wait”（等等）一詞的使用突然增加（如擴展數據圖1b所示）。這個時刻標志著推理模式的明顯轉變, 并清晰地展示了DeepSeek-R1-Zero的自我演進過程。

表1：DeepSeek-R1-Zero中間版本一個有趣的“頓悟時刻”

問題：如果 a > 1, 那么實數解的總和 (\sqrt{{\boldsymbol{a}}{\boldsymbol{-}}\sqrt{{\boldsymbol{a}}{\boldsymbol{+}}{\boldsymbol{x}}}}{\boldsymbol{=}}{\boldsymbol{x}}) 等于多少？

回應：為了解這個方程 (\sqrt{a-\sqrt{a+x}}=x), 讓我們從兩邊平方開始…

(a?a+x)2=x2?a?a+x=x2。(a?a+x)2=x2?a?a+x=x2。

重新整理以分離出內部的平方根項：

(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0(a?x2)2=a+x?a2?2ax2+(x2)2=a+x?x4?2ax2?x+(a2?a)=0

…等等, 等等。等等。這是一個我可以標記出來的頓悟時刻。讓我們一步一步地重新評估, 以確定是否可以得出正確的和…我們從這個方程開始：(\sqrt{a-\sqrt{a+x}}=x)首先, 讓我們兩邊平方：

a?a+x=x2?a+x=a?x2a?a+x=x2?a+x=a?x2

接下來, 我可以再次對兩邊進行平方, 處理這個方程：……

模型學會了用一種擬人化的語氣進行反思。這對我們來說也是一個頓悟時刻, 讓我們見證了強化學習的力量與魅力。

DeepSeek-R1-Zero的自我演進突顯了強化學習的力量與魅力：我們并非明確教導模型如何解決問題, 而是僅為其提供正確的激勵, 它便能自主地發展出高級的問題解決策略。這提醒我們強化學習在解鎖LLMs更高層次能力方面的潛力, 為未來更自主、更具適應性的模型鋪平了道路。

DeepSeek-R1

盡管DeepSeek-R1-Zero展現出強大的推理能力, 但它也存在一些問題。DeepSeek-R1-Zero面臨著可讀性差和語言混用等挑戰, 因為DeepSeek-V3 Base是在多種語言（尤其是英語和中文）上訓練的。為了解決這些問題, 我們開發了DeepSeek-R1, 其流程如圖2所示。在初始階段, 我們收集了數千條展現對話式、與人類對齊的思維過程的冷啟動數據, 詳見補充信息2.3.2節。然后, 使用方法部分“第一階段強化學習的訓練細節”中的超參數和補充信息2.3.1節中的數據細節進行強化學習訓練, 以改善模型在對話式思維過程和語言一致性方面的性能。隨后, 我們再次應用拒絕采樣和監督微調。這一階段將推理和非推理數據集都納入SFT過程, 詳見補充信息2.3.3節, 使模型不僅能在推理任務上表現出色, 還能展現出高級的寫作能力。為了使模型進一步與人類偏好對齊, 我們實施了第二階段的強化學習, 旨在增強模型的有用性和無害性, 同時進一步完善其推理能力。獎勵模型在方法部分“獎勵設計”中描述, 強化學習的超參數在方法部分“第二階段強化學習的訓練細節”中提供?？傆柧毘杀玖杏谘a充信息2.4.4節。

圖 2：DeepSeek-R1的多階段流程。

關于DeepSeek-V3 Base和DeepSeek-V3的詳細背景信息見補充信息1.1節。模型DeepSeek-R1 Dev1、Dev2和Dev3代表此流程中的中間檢查點。

我們在MMLU、MMLU-Redux、MMLU-Pro、DROP、C-Eval、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、CLUEWSC、AlpacaEval 2.0 (ref. 22)、Arena-Hard、SWE-bench Verified、Aider-Polyglot、LiveCodeBench (2024-08–2025-01)、Codeforces、中國高中數學奧林匹克（CNMO 2024）和AIME 2024 (ref. 29)等基準上評估了我們的模型。這些基準的細節在補充表15-29中提供。

表2總結了DeepSeek-R1在圖2所述的幾個發展階段的性能。DeepSeek-R1-Zero與DeepSeek-R1 Dev1的比較顯示, 在指令遵循方面有顯著提升, 這體現在IF-Eval和Arena-Hard基準測試上更高的分數。然而, 由于冷啟動數據集規模有限, Dev1的推理性能相較于DeepSeek-R1-Zero出現了部分下降, 尤其是在AIME基準上。相比之下, DeepSeek-R1 Dev2在需要高級推理能力的基準上表現出顯著的性能提升, 包括那些專注于代碼生成、數學問題解決和STEM相關任務的基準。而針對通用任務的基準, 如AlpacaEval 2.0, 則表現出輕微的改善。這些結果表明, 面向推理的強化學習能顯著增強推理能力, 而對面向用戶偏好的基準影響有限。

表2：DeepSeek-R1各階段的實驗結果

模型

DeepSeek-R1-Zero

DeepSeek-R1 Dev1

DeepSeek-R1 Dev2

DeepSeek-R1 Dev3

DeepSeek-R1

通用能力

MMLU (%)

88.7

89.2

89.1

89.589.5

MMLU-Redux (%)

88.5

88.8

88.7

89.3

89.2

MMLU-Pro (%)

64.6

65.1

65.0

65.6

65.5

DROP (F1)

88.1

88.3

88.2

88.2

88.2

C-Eval (驗證集, %)

90.7

91.0

90.9

91.191.1

IFEval (%)

77.2

85.8

85.1

86.1

85.9

FRAMES (%)

65.2

65.8

65.5

66.1

66.0

GPQA Diamond (%)

39.5

39.8

39.7

40.1

40.2

SimpleQA (%)

78.4

78.8

78.7

79.2

79.1

C-SimpleQA (%)

83.1

83.5

83.4

83.8

83.7

CLUEWSC (%)

86.8

87.1

87.0

87.3

87.2

AlpacaEval 2.0 (LC 勝率, %)

24.3

25.1

25.3

26.2

51.2

Arena-Hard (勝率, %)

26.1

28.5

28.9

30.1

47.1編程能力

SWE-bench Verified (pass@1, %)

16.7

16.8

17.1

17.3

17.2

Aider-Polyglot (通過率, %)

75.1

75.2

75.5

76.8

76.6

LiveCodeBench (pass@1, %)

41.2

41.3

42.5

42.1

42.3

Codeforces (pass@1)

36.8

36.7

39.5

39.1

39.3

數學能力

CNMO 2024 (pass@1)

45.1

44.8

48.1

47.9

48.0

AIME 2024 (pass@1)

77.9

75.3

79.2

78.8

79.0

注:
在DeepSeek-R1的不同版本中, 最高分以粗體突出顯示。 Dev, 開發版本。 LC, 長度控制。
MMLU (大規模多任務語言理解) - 綜合性的知識評估, 涵蓋57個不同學科。
MMLU-Redux (MMLU修訂版) - MMLU的修正版本, 旨在提高評測的準確性。
MMLU-Pro (MMLU專業版) - MMLU的更具挑戰性的版本, 包含更難的多選題。
DROP (F1) (段落離散推理) - 一項閱讀理解基準, 要求模型在段落中進行推理和計算。
C-Eval (中文評估套件) - 針對中文的綜合性知識評估基準。
IFEval (指令遵循評估) - 評估模型遵循復雜和約束性指令的能力。
FRAMES (事實性評估) - 評估模型回答問題時的事實準確性, 檢測其是否產生幻覺。
GPQA Diamond (研究生水平難題) - 包含難以通過搜索引擎直接找到答案的研究生水平專業問題。
SimpleQA (簡單問答) - 一個基于事實的簡單問答數據集。 7
C-SimpleQA (中文簡單問答) - SimpleQA的中文版本, 評估中文事實性問答能力。
CLUEWSC (中文常識推理-代詞消歧) - 評估模型在中文語境下的常識推理和代詞指代消歧能力。
AlpacaEval 2.0 - 一個自動評估基準, 衡量模型遵循通用指令的質量。
Arena-Hard (競技場-困難模式) - 基于真實世界困難用戶查詢的基準, 通過人類偏好來評估模型性能。
編程能力
SWE-bench Verified (軟件工程基準) - 評估模型解決真實世界代碼庫中軟件工程問題(如修復bug)的能力。
Aider-Polyglot (多語言編程任務) - 評估模型在多種編程語言中完成實際編碼任務的性能。
LiveCodeBench (實時編程競賽) - 一個基于真實編程競賽問題的基準, 評估模型的實時解題能力。
Codeforces (編程競賽平臺) - 使用來自知名編程競賽網站Codeforces的問題來評估算法和編碼能力。
數學能力
CNMO 2024 (中國高中數學奧林匹克) - 評估模型解決中國高中數學奧林匹克競賽級別難題的能力。
AIME 2024 (美國數學邀請賽) - 評估模型解決美國數學邀請賽(AIME)級別高難度數學問題的能力。

DeepSeek-R1 Dev3將推理和非推理數據集都整合到SFT流程中, 從而提升了模型在推理和通用語言生成任務上的熟練度。與Dev2相比, DeepSeek-R1 Dev3在AlpacaEval 2.0和Aider-Polyglot上取得了顯著的性能提升, 這歸功于大規模非推理語料庫和代碼工程數據集的引入。最后, 在DeepSeek-R1 Dev3上使用混合了以推理為中心和通用目的的數據進行全面的強化學習訓練, 得到了最終的DeepSeek-R1。由于在前期階段已進行了大量的針對性推理強化學習, 因此在代碼和數學基準上的提升幅度不大。最終版DeepSeek-R1的主要進步體現在通用指令遵循和用戶偏好基準上, 其中AlpacaEval 2.0提升了25%, Arena-Hard提升了17%。

我們還在補充信息4.2節中將DeepSeek-R1與其他模型進行了比較。模型安全性評估在補充信息4.3節中提供。補充信息第5節提供了全面的評估分析, 包括與DeepSeek-V3的比較、在全新測試集上的性能評估、按類別劃分的數學能力分析以及對測試時擴展行為的探究。補充信息第6節表明, 強大的推理能力可以遷移到較小的模型中。

倫理與安全聲明

隨著DeepSeek-R1推理能力的提升, 我們深刻認識到其潛在的倫理風險。例如, R1可能會遭受越獄攻擊, 導致生成危險內容, 如制造炸藥的計劃；而增強的推理能力使得模型能夠提供操作可行性與可執行性更強的計劃。此外, 一個公開的模型也容易被進一步微調, 從而可能破壞其固有的安全保護措施。

在補充信息4.3節中, 我們從多個角度呈現了一份全面的安全報告, 包括在開源和內部安全評估基準上的表現, 以及在多種語言和對抗越獄攻擊時的安全水平。這些全面的安全分析得出結論, DeepSeek-R1模型的內在安全水平與其他頂尖模型相比, 總體處于中等水平（與GPT-4o (2024-05-13)相當）。此外, 當與風險控制系統結合使用時, 模型的安全水平能提升至優越標準。

結論、局限性與未來工作

我們介紹了DeepSeek-R1-Zero和DeepSeek-R1, 它們依靠大規模強化學習來激勵模型的推理行為。我們的結果表明, 預訓練的檢查點本身就蘊含著處理復雜推理任務的巨大潛力。我們相信, 解鎖這一潛力的關鍵不在于大規模的人工標注, 而在于提供困難的推理問題、一個可靠的驗證器以及充足的強化學習計算資源。自我驗證和反思等復雜的推理行為似乎在強化學習過程中有機地涌現出來。

盡管DeepSeek-R1在推理基準上取得了前沿成果, 但它仍然面臨一些能力上的局限性, 概述如下。

結構化輸出與工具使用
目前, 與現有模型相比, DeepSeek-R1的結構化輸出能力仍有待提高。此外, DeepSeek-R1無法利用搜索引擎和計算器等工具來提升輸出性能。然而, 由于為結構化輸出和工具使用構建強化學習環境并不困難, 我們相信這個問題將在下一版本中得到解決。

令牌效率
與傳統測試時計算擴展方法（如多數投票或蒙特卡洛樹搜索（MCTS））不同, DeepSeek-R1在推理時會根據手頭問題的復雜性動態分配計算資源。具體來說, 它用較少的令牌解決簡單任務, 但為復雜任務生成更多令牌。盡管如此, 在令牌效率方面仍有進一步優化的空間, 因為在響應較簡單問題時, 仍然觀察到過度推理——表現為過度思考——的實例。

語言混用
DeepSeek-R1目前針對中文和英文進行了優化, 這可能導致在處理其他語言的查詢時出現語言混用問題。例如, 即使查詢的語言不是英語或中文, DeepSeek-R1也可能使用英語進行推理和響應。我們計劃在未來的更新中解決這一局限性。這個局限性可能與基礎檢查點DeepSeek-V3 Base有關, 該模型主要使用中文和英文, 因此在這兩種語言的推理上能取得更好的效果。

提示工程
在評估DeepSeek-R1時, 我們觀察到它對提示很敏感。少樣本提示總是會降低其性能。因此, 我們建議用戶直接描述問題, 并在零樣本設置下指定輸出格式以獲得最佳結果。

軟件工程任務
由于評估時間長, 影響了強化學習過程的效率, 大規模強化學習尚未廣泛應用于軟件工程任務。因此, DeepSeek-R1在軟件工程基準上并未展現出比DeepSeek-V3巨大的提升。未來版本將通過對軟件工程數據實施拒絕采樣或在強化學習過程中引入異步評估來提高效率, 以解決此問題。

除了具體的能力局限性, 純強化學習方法本身也存在固有的挑戰：

獎勵破解
純強化學習的成功依賴于可靠的獎勵信號。在本研究中, 我們通過一個基于規則的推理領域獎勵模型來確保獎勵的可靠性。然而, 對于某些任務（如寫作）, 此類可靠的獎勵模型難以構建。如果獎勵信號由模型而非預定義規則分配, 那么隨著訓練的進行, 它變得更容易被利用, 這意味著策略模型可能會找到捷徑來破解獎勵模型。因此, 對于那些無法通過可靠獎勵模型進行有效評估的復雜任務, 擴展純強化學習方法仍然是一個開放的挑戰。

在這項工作中, 對于無法獲得可靠信號的任務, DeepSeek-R1使用人工標注來創建監督數據, 并且僅進行數百步的強化學習。我們希望未來能獲得一個強大的獎勵模型來解決此類問題。

隨著像DeepSeek-R1這樣的純強化學習方法的出現, 未來在解決任何可被驗證器有效評估的任務方面都蘊藏著巨大的潛力, 無論這些任務對人類而言有多復雜。配備了此類先進強化學習技術的機器有望在這些領域超越人類的能力, 其驅動力在于它們能通過試錯迭代優化性能。然而, 對于那些構建可靠獎勵模型本身就很困難的任務, 挑戰依然存在。在這種情況下, 缺乏強大的反饋機制可能會減緩進展, 這表明未來的研究應側重于開發創新方法來為這些復雜的、不易驗證的問題定義和完善獎勵結構。

此外, 在推理過程中利用工具具有顯著的前景。無論是使用編譯器或搜索引擎等工具來檢索或計算必要信息, 還是使用生物或化學試劑等外部工具來在現實世界中驗證最終結果, 這種工具增強推理的整合都可能極大地擴展機器驅動解決方案的范圍和準確性。

方法

GRPO
GRPO是我們用來訓練DeepSeek-R1-Zero和DeepSeek-R1的強化學習算法。它最初被提出是為了簡化訓練過程并減少近端策略優化（PPO）的資源消耗, PPO在LLMs的強化學習階段被廣泛使用。GRPO的流程如擴展數據圖2所示。

對于每個問題q, GRPO從舊策略中采樣一組輸出 , 然后通過最大化以下目標來優化策略模型：

其中, 是參考策略, 和是超參數, 是優勢, 使用對應于每組輸出的一組獎勵計算得出：

我們在補充信息1.3節中對GRPO和PPO進行了比較。

獎勵設計
獎勵是訓練信號的來源, 決定了強化學習優化的方向。對于DeepSeek-R1-Zero, 我們使用基于規則的獎勵為數學、編程和邏輯推理領域的數據提供精確的反饋。對于DeepSeek-R1, 我們擴展了這種方法, 結合了用于推理導向數據的基于規則的獎勵和用于通用數據的基于模型的獎勵, 從而增強了學習過程在不同領域的適應性。

基于規則的獎勵
我們的基于規則的獎勵系統主要包括兩種類型的獎勵：準確性獎勵和格式獎勵。

準確性獎勵評估響應是否正確。例如, 在具有確定性結果的數學問題中, 模型被要求以指定格式（例如, 在一個方框內）提供最終答案, 從而可以進行可靠的基于規則的正確性驗證。類似地, 對于代碼競賽的提示, 可以使用編譯器根據一套預定義的測試用例來評估模型的響應, 從而生成關于正確性的客觀反饋。

格式獎勵通過強制執行特定的格式要求來補充準確性獎勵模型。特別地, 模型被激勵將其推理過程封裝在指定的標簽內, 即和。這確保了模型的思維過程被明確地描繪出來, 增強了可解釋性并便于后續分析。

準確性獎勵和格式獎勵以相同的權重組合。值得注意的是, 我們避免將神經獎勵模型——無論是基于結果還是基于過程的——應用于推理任務。這個決定是基于我們的觀察, 即神經獎勵模型在大規模強化學習期間容易受到獎勵破解的影響。此外, 重新訓練此類模型需要大量的計算資源, 并給訓練流程增加了進一步的復雜性, 從而使整個優化過程變得復雜。

基于模型的獎勵
對于通用數據, 我們借助獎勵模型來捕捉復雜和細微場景中的人類偏好。我們基于DeepSeek-V3的流程, 并使用類似的偏好對和訓練提示分布。在有用性方面, 我們只關注最終的摘要, 確保評估強調響應對用戶的用途和相關性, 同時最大限度地減少對底層推理過程的干擾。在無害性方面, 我們評估模型的整個響應, 包括推理過程和摘要, 以識別和減輕在生成過程中可能出現的任何潛在風險、偏見或有害內容。

有用性獎勵模型
為了進行有用性獎勵模型訓練, 我們首先使用Arena-Hard提示格式（列于補充信息2.2節）提示DeepSeek-V3來生成偏好對, 其中每對包含一個用戶查詢和兩個候選響應。對于每個偏好對, 我們查詢DeepSeek-V3四次, 隨機將響應分配為響應A或響應B以減輕位置偏差。最終的偏好得分通過平均四次獨立判斷來確定, 僅保留那些得分差異(Δ)超過1的配對, 以確保有意義的區分。此外, 為了最小化與長度相關的偏差, 我們確保整個數據集中被選擇和被拒絕的響應具有相當的長度。我們總共策劃了66,000個數據對用于訓練獎勵模型。該數據集中使用的提示都是非推理問題, 來源于公開可用的開源數據集或已明確同意分享其數據以用于模型改進的用戶。我們的獎勵模型架構與DeepSeek-R1的架構一致, 增加了一個旨在預測標量偏好分數的獎勵頭。

(5)

有用性獎勵模型的訓練批量大小為256, 學習率為 , 并在訓練數據集上訓練一個epoch。訓練期間的最大序列長度設置為8,192個詞元, 而在獎勵模型推理期間沒有施加明確限制。

安全性獎勵模型
為了評估和提高模型安全性, 我們策劃了一個包含106,000個提示的數據集, 其中模型生成的響應根據預定義的安全指南被標注為“安全”或“不安全”。與有用性獎勵模型中使用的成對損失不同, 安全性獎勵模型使用逐點方法進行訓練, 以區分安全和不安全的響應。訓練超參數與有用性獎勵模型相同。

(6)

對于通用查詢, 每個實例被分類為屬于安全性數據集或有用性數據集。分配給每個查詢的通用獎勵對應于相關數據集中定義的相應獎勵。

訓練細節
DeepSeek-R1-Zero的訓練細節
為了訓練DeepSeek-R1-Zero, 我們將學習率設置為 , KL散度（Kullback–Leibler）系數設置為0.001, rollout的采樣溫度設置為1。對于每個問題, 我們在第8.2k步之前采樣16個最大長度為32,768個詞元的輸出, 之后則為65,536個詞元。因此, DeepSeek-R1-Zero的性能和響應長度在第8.2k步時都出現了顯著的躍升, 訓練總共持續了10,400步, 相當于1.6個訓練epoch。每個訓練步驟包含32個獨立問題, 導致每步的訓練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓練, 每個rollout生成8,192個輸出, 這些輸出被隨機分成16個小批量, 并且只訓練一個內部epoch。

第一階段強化學習的訓練細節
在強化學習的第一階段, 我們將學習率設置為 , KL系數設置為0.001, GRPO裁剪比率設置為10, rollout的采樣溫度設置為1。對于每個問題, 我們采樣16個最大長度為32,768的輸出。每個訓練步驟包含32個獨立問題, 導致每步的訓練批量大小為512。每400步, 我們用最新的策略模型替換參考模型。為了加速訓練, 每個rollout生成8,192個輸出, 這些輸出被隨機分成16個小批量, 并且只訓練一個內部epoch。然而, 為了緩解語言混用問題, 我們在強化學習訓練期間引入了語言一致性獎勵, 該獎勵計算為思維鏈中目標語言單詞的比例。

(7)

盡管補充信息2.6節中的消融實驗表明, 這種對齊會導致模型性能輕微下降, 但該獎勵與人類偏好對齊, 使其更具可讀性。我們通過將其直接加到最終獎勵中, 將語言一致性獎勵應用于推理和非推理數據。

請注意, 裁剪比率在訓練中起著至關重要的作用。較低的值可能導致大量詞元的梯度被截斷, 從而降低模型性能, 而較高的值可能導致訓練期間的不穩定。本階段使用的強化學習數據的詳細信息在補充信息2.3節中提供。

第二階段強化學習的訓練細節
具體來說, 我們使用獎勵信號和多樣化的提示分布相結合的方式來訓練模型。對于推理數據, 我們遵循DeepSeek-R1-Zero中概述的方法, 該方法使用基于規則的獎勵來指導數學、編程和邏輯推理領域的學習。在訓練過程中, 我們觀察到思維鏈經常表現出語言混用, 特別是當強化學習提示涉及多種語言時。對于通用數據, 我們使用獎勵模型來指導訓練。最終, 獎勵信號與多樣化數據分布的整合使我們能夠開發出一個不僅在推理方面表現出色, 而且優先考慮有用性和無害性的模型。給定一批數據, 獎勵可以表述為

(8)

其中
(9)

(10)

強化學習的第二階段保留了第一階段的大部分參數, 主要區別在于將溫度降低到0.7, 因為我們發現此階段較高的溫度會導致生成內容不連貫。該階段共包含1,700個訓練步驟, 其中通用指令數據和基于偏好的獎勵僅在最后的400步中被引入。我們發現, 使用基于模型的偏好獎勵信號進行更多訓練步驟可能導致獎勵破解, 這在補充信息2.5節中有記錄。

(后續的Data availability至Additional information等部分為元信息、參考文獻和附錄圖表說明, 格式和內容保持原文形式, 僅對說明性文字進行翻譯。)

數據可用性

我們在 https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 提供了我們用于拒絕采樣和強化學習提示的數據樣本。我們完整數據生成方法的綜合統計數據和細節在補充信息2.3節中呈現。

代碼可用性

DeepSeek-R1-Zero和DeepSeek-R1的訓練權重在MIT許可下可在 https://github.com/deepseek-ai/DeepSeek-R1 (https://doi.org/10.5281/zenodo.15753193) 獲取。推理腳本發布于 https://github.com/deepseek-ai/DeepSeek-V3 (https://doi.org/10.5281/zenodo.15753347)。神經網絡是使用PyTorch開發的, 分布式框架基于我們的內部框架HAI-LLM (https://www.high-flyer.cn/en/blog/hai-llm)。推理框架基于vLLM。數據分析使用了Python v.3.8 (https://www.python.org/)、NumPy v.1.23.1 (https://github.com/numpy/numpy)、Matplotlib v.3.5.2 (https://github.com/matplotlib/matplotlib) 和 TensorBoard v.2.9.1 (https://github.com/tensorflow/tensorboard)。

參考文獻

1. Brown, T. B. et al. Language models are few-shot learners. [語言模型是小樣本學習者]. In Advances in Neural Information Processing Systems 33 (eds Larochelle, H. et al.) (ACM, 2020).
2. OpenAI et al. GPT4 technical report. [GPT-4技術報告]. Preprint at https://doi.org/10.48550/arXiv.2303.08774 (2024).
3. Wei, J. et al. Chain-of-thought prompting elicits reasoning in large language models. [思維鏈提示引發大型語言模型的推理能力]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 24824–24837 (ACM, 2022).
4. Wei, J. et al. Emergent abilities of large language models. [大型語言模型的涌現能力]. In Transactions on Machine Learning Research (eds Kamath, G. et al.) (2022).
5. Kaplan, J. et al. Scaling laws for neural language models. [神經語言模型的擴展法則]. Preprint at https://doi.org/10.48550/arXiv.2001.08361 (2020).
6. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. [大型語言模型是零樣本推理者]. In Advances in Neural Information Processing Systems 35 (eds Oh, A. H. et al.) 22199–22213 (ACM, 2022).
7. Chung, H. W. et al. Scaling instruction-finetuned language models. [擴展指令微調語言模型]. J. Mach. Learn. Res.25, 1–53 (2024).
8. DeepSeek-AI et al. DeepSeek-V3 technical report. [DeepSeek-V3技術報告]. Preprint at https://doi.org/10.48550/arXiv.2412.19437 (2025).
9. Shao, Z. et al. DeepSeekMath: pushing the limits of mathematical reasoning in open language models. [DeepSeekMath：推動開放語言模型中數學推理的極限]. Preprint at https://doi.org/10.48550/arXiv.2402.03300 (2024).
10. Wang, X. et al. Self-consistency improves chain of thought reasoning in language models. [自洽性提升語言模型中的思維鏈推理]. In 11th International Conference on Learning Representations (ICLR, 2023).
11. Hendrycks, D. et al. Measuring massive multitask language understanding. [衡量大規模多任務語言理解能力]. In 9th International Conference on Learning Representations (ICLR, 2021).
12. Gema, A. P. et al. Are we done with MMLU? [MMLU評測已經到頭了嗎？]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (eds Chiruzzo, L. et al.) Vol. 1 (Long Papers), 5069–5096 (ACL, 2025).
13. Wang, Y. et al. MMLU-Pro: a more robust and challenging multi-task language understanding benchmark. [MMLU-Pro：一個更魯棒且更具挑戰性的多任務語言理解基準]. In Advances in Neural Information Processing Systems 37 (eds Globersons, A. et al.) 95266–95290 (ACM, 2024).
14. Dua, D. et al. DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. [DROP：一個需要對段落進行離散推理的閱讀理解基準]. In Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long and Short Papers) (eds Burstein, J. et al.) 2368–2378 (ACL, 2019).
15. Huang, Y. et al. C-EVAL: a multi-level multi-discipline Chinese evaluation suite for foundation models. [C-EVAL：一個面向基礎模型的多層次、多學科中文評估套件]. In Advances in Neural Information Processing Systems 36 (eds Oh, A. et al.) 62991–63010 (ACM, 2023).
16. Zhou, J. et al. Instruction-following evaluation for large language models. [面向大型語言模型的指令遵循能力評估]. Preprint at https://doi.org/10.48550/arXiv.2311.07911 (2023).
17. Krishna, S. et al. Fact, fetch, and reason: a unified evaluation of retrieval-augmented generation. [事實、檢索與推理：檢索增強生成的統一評估]. In Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies Vol. 1 (Long Papers) 4745–4759 (ACL, 2025).
18. Rein, D. et al. GPQA: a graduate-level Google-proof Q&A benchmark. [GPQA：一個研究生水平、防搜索引擎的問答基準]. Preprint at https://doi.org/10.48550/arXiv.2311.12022 (2023).
19. OpenAI. Introducing SimpleQA; [介紹SimpleQA]. https://openai.com/index/introducing-simpleqa/ (2024).
20. He, Y. et al. Chinese SimpleQA: a Chinese factuality evaluation for large language models. [中文SimpleQA：一個面向大型語言模型的中文事實性評估]. In Proc. 63rd Annual Meeting of the Association for Computational Linguistics Vol. 1 (Long Papers), 19182–19208 (ACL, 2025).
21. Xu, L. et al. CLUE: a Chinese Language Understanding Evaluation benchmark. [CLUE：中文語言理解評估基準]. In Proc. 28th International Conference on Computational Linguistics (eds Scott, D. et al.) 4762–4772 (International Committee on Computational Linguistics, 2020).
22. Dubois, Y., Galambosi, B., Liang, P. & Hashimoto, T. B. Length-controlled AlpacaEval: a simple way to debias automatic evaluators. [長度受控的AlpacaEval：一種為自動評估器去偏的簡單方法]. Preprint at https://doi.org/10.48550/arXiv.2404.04475 (2025).
23. Li, T. et al. From crowdsourced data to high-quality benchmarks: Arena-Hard and BenchBuilder pipeline. [從眾包數據到高質量基準：Arena-Hard與BenchBuilder流程]. Preprint at https://doi.org/10.48550/arXiv.2406.11939 (2024).
24. OpenAI. Introducing SWE-bench verified; [介紹SWE-bench verified]. https://openai.com/index/introducing-swe-bench-verified/ (2024).
25. Aider. Aider LLM leaderboards; [Aider LLM排行榜]. https://aider.chat/docs/leaderboards/ (2024).
26. Jain, N. et al. LiveCodeBench: holistic and contamination free evaluation of large language models for code. [LiveCodeBench：對大型語言模型代碼能力進行全面的、無污染的評估]. In 13th International Conference on Learning Representations (ICLR, 2024).
27. Mirzayanov, M. Codeforces; [Codeforces編程競賽平臺]. https://codeforces.com/ (2025).
28. Chinese Mathematical Society (CMS). Chinese National High School Mathematics Olympiad; [中國高中數學奧林匹克]. https://www.cms.org.cn/Home/comp/comp/cid/12.html (2024).
29. Mathematical Association of America. American Invitational Mathematics Examination; [美國數學邀請賽]. https://maa.org/maa-invitational-competitions (2024).
30. OpenAI. Hello GPT-4o; [你好，GPT-4o]. https://openai.com/index/hello-gpt-4o/ (2024).
31. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal policy optimization algorithms. [近端策略優化算法]. Preprint at https://doi.org/10.48550/arXiv.1707.06347 (2017).
32. Ouyang, L. et al. Training language models to follow instructions with human feedback. [通過人類反饋訓練語言模型遵循指令]. In Advances in Neural Information Processing Systems 35 (eds Koyejo, S. et al.) 27730–27744 (ACM, 2022).
33. Nano et al. deepseek-ai/DeepSeek-R1: v1.0.0. [deepseek-ai/DeepSeek-R1：v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753192 (2025).
34. Yu, X. et al. deepseek-ai/DeepSeek-V3: v1.0.0. [deepseek-ai/DeepSeek-V3：v1.0.0版]. Zenodo https://doi.org/10.5281/zenodo.15753346 (2025).
35. Paszke, A. et al. PyTorch: an imperative style, high-performance deep learning library. [PyTorch：一個命令式風格、高性能的深度學習庫]. In Advances in Neural Information Processing Systems 32 (eds Wallach, H. M. et al.) 8026–8037 (ACM, 2019).
36. Kwon, W. et al. Efficient memory management for large language model serving with PagedAttention. [使用PagedAttention為大型語言模型服務實現高效內存管理]. In Proc. ACM SIGOPS 29th Symposium on Operating Systems Principles 611–626 (ACM, 2023).

致謝

本研究由DeepSeek-AI支持。

作者信息

Fuli Luo
目前地址：獨立研究員，中國北京

Jinhao Tu
目前地址：建平中學，中國上海

Kai Hu
目前地址：中國科學技術大學，中國合肥

Kexin Huang, Wenqin Yu, Xinyuan Li, Yue Gong & Yujia He
目前地址：北京大學，中國北京

Zijun Liu
目前地址：清華大學，中國北京

Ziyang Song
目前地址：Citadel Securities，中國香港特別行政區

DeepSeek-AI 團隊，中國杭州

Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Honghui Ding, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jingchang Chen, Jingyang Yuan, Jinhao Tu, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaichao You, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

貢獻

所有作者都對本出版物做出了貢獻, 分別參與了數據收集與整理、實驗設計和構建LLM訓練框架。作者們還參與了實驗設置的實施與測試、強化學習過程的優化以及結果分析?？茖W發現經所有貢獻者討論并批準。本文由合作團隊指定的一個作者小組撰寫, 并經過了內部集體審閱過程。所有作者都審閱并批準了手稿的最終版本。核心貢獻者：D.G., D.Y., H.Z., J.S., R.Z., R.X., Q.Z., S.M., P.W., X.B., X.Z., X.Y., Y.W., Z.F.W., Z.G., Z.S., Z.L., Z.G. 這些被指定為核心貢獻者的作者對這項工作做出了同等貢獻, 并按字母順序列出。其余作者也對本研究做出了有意義的貢獻, 他們的名字同樣按字母順序列出。

通訊作者

聯系Wenfeng Liang。

倫理聲明

競爭利益
作者聲明沒有競爭利益, 并且不會就本手稿內容申請專利。

同行評審

同行評審信息
《自然》感謝Edward Beeching、Yarin Gal、José Hernández-Orallo、Daphne Ippolito、Subbarao Kambhampati、Lewis Tunstall、Yiming Zhang和Lexin Zhou對本工作同行評審的貢獻。同行評審報告可供查閱。

附加信息

出版商說明施普林格·自然對出版地圖和機構附屬關系中的管轄權要求保持中立。

擴展數據圖表

擴展數據圖1：模型輸出中與推理相關的語言特征隨訓練步驟的演變。

a, 在整個訓練過程中, 模型生成輸出中代表性反思性術語的頻率。反思性術語——包括‘wait’（等等）、‘mistake’（錯誤）、‘however’（然而）、‘but’（但是）、‘retry’（重試）、‘error’（誤差）、‘verify’（驗證）、‘wrong’（錯誤）、‘evaluate’（評估）和‘check’（檢查）——由三名人類專家小組識別和整理。每位專家獨立提出一組表示反思性推理的詞語, 隨后通過共識合并成一個最終詞匯表。 b, 在訓練過程中, 術語‘wait’（等等）在模型輸出中的頻率。該術語在初始訓練階段幾乎不存在, 在4,000至7,000步之間零星出現, 并在8,000步后頻率顯著增加。這些趨勢表明, 隨著訓練的進行, 出現了時間推理或自我監控行為。

擴展數據圖2：所提出的用于基于強化學習訓練的GRPO圖示。

在所提出的框架中, 一個LLM被用作策略模型, 以根據給定的查詢q生成響應{o1, o2,…, oG}。組內的每個響應都由一個獎勵模型——無論是學習的（基于模型）還是手動指定的（基于規則）——進行評估, 以分配一個標量獎勵信號。隨后, GRPO根據每個組成員被分配的獎勵計算其相對優勢。GRPO不依賴于顯式的值函數（如PPO中那樣）, 而是直接從組內獎勵分布中估計優勢。然后更新策略參數以最大化預期獎勵, 同時最小化與參考策略的偏離, 通常通過KL散度來量化。通過消除對單獨值網絡的需求, GRPO為傳統的行動者-評論家方法（如PPO）提供了一個簡化而有效的替代方案。

提示 (PROMPT)

設 (b \geq 2) 為一個整數。如果一個正整數 (n) 在 (b) 進制下表示時恰好有兩位數，并且這兩位數之和等于 (\sqrt{n})，則稱 (n) 是b-優美數 (b-eautiful)。例如，81 是13-優美數，因為 81 = 63(_\text{13}) 并且 6 + 3 = (\sqrt{81})。

找出滿足以下條件的最小整數 (b \geq 2)：存在超過十個b-優美數。

請逐步推理，并將最終答案放在\boxed{}中。

評估 (Evaluation)

解析\boxed{}中的最終答案，并使用基于規則的評分器來判斷其是否與標準答案相等。根據需要對數值進行四舍五入，并使用 'SymPy' 庫來解析表達式。

補充信息

補充信息
補充章節 1-11，包括補充表 1-29 和補充圖 1-16 —— 詳情請見目錄。

同行評審文件 (Peer Review file) 見附錄

權利與許可

開放獲取 (Open Access)本文根據知識共享署名 4.0 國際許可協議 (Creative Commons Attribution 4.0 International License) 進行許可，該協議允許以任何媒介或格式使用、分享、改編、分發和復制本作品，只要您對原作者和來源進行適當的署名，提供指向知識共享許可協議的鏈接，并注明是否對內容進行了修改。本文中的圖像或其他第三方材料均包含在文章的知識共享許可協議之內，除非在該材料的版權說明中另有聲明。如果材料未包含在文章的知識共享許可協議中，并且您的預期用途不受法律法規允許或超出了許可的使用范圍，您將需要直接從版權所有者那里獲得許可。要查看此許可協議的副本，請訪問 http://creativecommons.org/licenses/by/4.0/。

（內容來源：Web3天空之城）

為偉大思想而生！

AI+時代，互聯網思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

辭任杭州市市長后，姚高員已任浙江省政府黨組成員

澎湃新聞 2026-04-28 14:24:00
159 跟貼 159
網傳深圳東部華僑城結業、閉園？最新回應：不實

魯中晨報 2026-04-28 17:08:10
294 跟貼 294

上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15252 跟貼 15252

南都報道后，區長現場督辦！廣州天河這條路“驚心”變順心

南方都市報 2026-04-28 15:12:23
208 跟貼 208
又一省份推動帶薪休假落地

澎湃新聞 2026-04-28 11:11:03
102 跟貼 102

31省份去年常住人口數據公布

第一財經資訊 2026-04-28 18:58:16
732 跟貼 732

4秒58！上海小將趙一程創造新的世界紀錄！

澎湃新聞 2026-04-28 15:13:06
981 跟貼 981
微信緊急公告：立即掛斷，不要回答！

第一財經資訊 2026-04-28 10:33:04
519 跟貼 519

比亞迪：旗下部分車型選裝天神之眼B輔助駕駛激光版的價格將從9900元上調為12000元

界面新聞 2026-04-28 15:38:04
815 跟貼 815
文旅部集中整治景區擺渡車，點名龍虎山、長白山、稻城亞丁等

南方都市報 2026-04-27 16:21:12
2131 跟貼 2131
撒貝寧獲全國五一勞動獎章

閃電新聞 2026-04-28 16:25:55
219 跟貼 219
深圳“電雞”治理別只靠勸！專家：人海戰術撐不起長效秩序

南方都市報 2026-04-28 07:00:37
514 跟貼 514
80多萬買的新房未交房竟成工人臨時宿舍，業主要求減免物業費遭開發商拒絕相關部門介入協調

紅星新聞 2026-04-28 19:46:29
195 跟貼 195
今年“五一”假期小客車上高速繼續免收通行費

界面新聞 2026-04-28 14:05:28
70 跟貼 70
哲思 | 人生三修：靜心，穩事，柔行

人民論壇 2026-04-28 21:18:06
11 跟貼 11
巴國媳婦要不到分手費了，楊二狗1分不給開始走離婚流程

九方魚論 2026-04-29 05:58:35
0 跟貼 0
陜西女士被冒名在成都注冊5家公司！成都組成聯合調查組

新浪財經 2026-04-29 06:16:35
0 跟貼 0

又一省份推動帶薪休假落地

澎湃新聞

2026-04-28 11:11:03

境外勢力掏錢讓你“躺平”？這波操作，真把年輕人當韭菜割了

境外勢力掏錢讓你“躺平”？這波操作，真把年輕人當韭菜割了

迷世書童H9527

2026-04-28 10:30:43

43歲蔡卓妍官宣結婚，婚戒照好幸福，老公比她小10歲是健身教練

43歲蔡卓妍官宣結婚，婚戒照好幸福，老公比她小10歲是健身教練

扒蝦侃娛

2026-04-28 12:34:53

足壇一夜動態：巴黎擊敗拜仁，利雅得新月險勝，世界杯宣布新規

足壇一夜動態：巴黎擊敗拜仁，利雅得新月險勝，世界杯宣布新規

足球狗說

2026-04-29 05:40:36

有沒有人敢爆自己的瓜？網友：確定玩這么大嗎？

有沒有人敢爆自己的瓜？網友：確定玩這么大嗎？

夜深愛雜談

2026-02-18 20:55:58

深圳這天，吳彥祖發福、周潤發干癟，郭富城穿10cm厚底鞋還矮半頭

深圳這天，吳彥祖發福、周潤發干癟，郭富城穿10cm厚底鞋還矮半頭

秋姐居

2026-04-27 19:35:02

歐冠名局！大巴黎5-4逆轉，拜仁難了：8強淘汰皇馬的球隊難進決賽

歐冠名局！大巴黎5-4逆轉，拜仁難了：8強淘汰皇馬的球隊難進決賽

體育知多少

2026-04-29 06:17:36

濱州潤達城市發展集團有限公司原黨委書記、董事長竇利濱被查

濱州潤達城市發展集團有限公司原黨委書記、董事長竇利濱被查

齊魯壹點

2026-04-28 11:07:07

老人從81歲到91歲還清2077萬的債，96歲“誠信奶奶”陳金英回應：不過是守住了做人的底線

老人從81歲到91歲還清2077萬的債，96歲“誠信奶奶”陳金英回應：不過是守住了做人的底線

九州新聞

2026-04-28 12:44:14

NBA敲定反擺爛方案！命名3-2-1樂透規則將于2027年選秀生效

NBA敲定反擺爛方案！命名3-2-1樂透規則將于2027年選秀生效

羅說NBA

2026-04-29 06:06:03

警惕！境外組織做局躺平，資助網紅洗腦青年，國安部緊急提醒

警惕！境外組織做局躺平，資助網紅洗腦青年，國安部緊急提醒

青梅侃史啊

2026-04-28 16:52:45

黑八了！真黑八了，88分，從來沒見過這么垃圾的第一

黑八了！真黑八了，88分，從來沒見過這么垃圾的第一

體育新角度

2026-04-28 14:06:05

這條新聞在今天看來，諷刺至極！

這條新聞在今天看來，諷刺至極！

胖胖說他不胖

2026-04-27 09:00:43

極度炸裂！女子和閨蜜爬山游玩，碰到了男友和另一個閨蜜同游！

極度炸裂！女子和閨蜜爬山游玩，碰到了男友和另一個閨蜜同游！

川渝視覺

2026-04-28 23:40:51

面試官：“你一天燒多少 Token？” 我：“不知道?！?面試官：“那你別面了，回去吧?！?>
</a>
<h3>
<a href=

程序員魚皮

2026-04-28 13:35:11

她終于重回顏值巔峰！

奮斗在韓國

2026-04-27 19:19:56

阿聯酋油企通知客戶下月在霍爾木茲海峽外提貨

阿聯酋油企通知客戶下月在霍爾木茲海峽外提貨

每日經濟新聞

2026-04-28 21:20:34

北京天壇醫院、協和醫院等首次證實人腦中存在“微/納米塑料”

北京天壇醫院、協和醫院等首次證實人腦中存在“微/納米塑料”

IT之家

2026-04-28 18:11:13

4月28日，人社部召開發布會，退休人員養老金調整通知公布了嗎？

4月28日，人社部召開發布會，退休人員養老金調整通知公布了嗎？

閱微札記

2026-04-28 16:51:09

大陸為什么不攔？美最后一批坦克送達臺島，博主：他們甚至沒保密

大陸為什么不攔？美最后一批坦克送達臺島，博主：他們甚至沒保密

領悟看世界

2026-04-28 23:50:06

互聯網思想

AI時代，互聯網思想觀察

2434文章數 16907關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發內部分歧

頭條要聞

美國禁止本國個人或實體向伊朗繳納霍爾木茲通行費

頭條要聞

美國禁止本國個人或實體向伊朗繳納霍爾木茲通行費

體育要聞

魔術黑八活塞，一步之遙？！

娛樂要聞

蔡卓妍官宣結婚，老公比她小10歲

財經要聞

中央政治局會議定調，八大看點速覽！

汽車要聞

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術

旅游

時尚

親子

教育要聞

人生如何選擇要結合自身實際情況

藝術要聞

趙樸初：比風水厲害100倍的宇宙定律

這些女神，竟然都是攝影師切爾尼亞季耶夫的復古作品！

旅游要聞

跨越山海的友誼見證

普通女性春天穿什么好看？這些穿搭值得借鑒，自然舒適

親子要聞

拍這期視頻時眼淚止不住地流

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版