![]()
近日,Anthropic 發布了一篇引發廣泛關注的文章《When AI builds itself》。文中披露了極其驚人的內部數據:截至 2026 年 5 月,Anthropic 超過 80% 的合并代碼已由 Claude 編寫,工程師的日常代碼產出飆升了 8 倍;更令人矚目的是,AI 智能體已經可以自主提出假設、執行長達數百小時的強化安全實驗。
這說明 AI 已開始展現自主參與下一代模型設計與訓練的潛力,而這種自我提升能力(Self-Improvement),正在成為下一代 AI 發展的關鍵驅動力。
![]()
圖 1:大語言模型自我提升 (LLM Self-improvement) 的構想:人類只需啟動系統,模型便能夠持續改進自身能力。
過去,探討大語言模型(LLMs)的下一步發展時,焦點往往局限于更大的參數規模、海量的數據喂養和極限的算力堆疊。
然而,傳統依賴人類監督的訓練范式正逐漸面臨瓶頸:高質量人工標注極其昂貴,專家反饋難以規模化;更致命的是,隨著模型能力的指數級攀升,在高等數學、復雜代碼生成和前沿科研推理等任務中,人類的認知邊界,反而成了限制模型進化的天花板。與此同時,隨著智能體技術的成熟,模型已展現出自主生成數據、調用工具和執行代碼的強大自動化能力。
這表明,當前的大語言模型已具備主動參與自身迭代的能力,無需再完全依賴人類的監督。這一趨勢標志著一種深刻的范式轉移:大語言模型的發展正從被動接受人類微調與修正轉向自主探索與持續進化。
為了解構大語言模型自我提升的底層邏輯,填補系統性研究的空白,來自紐約州立大學石溪分校 Zesearch NLP Lab 的 Haoyan Yang、Jiawei Zhou 等人經過將近一年的努力,最近發布了一篇 113 頁、涵蓋 500 余篇前沿文獻的關于大模型自我提升的全景綜述:
![]()
- 論文鏈接: https://arxiv.org/pdf/2603.25681
- GitHub Repo: https://github.com/Zesearch/self-improvement-llm
- 項目網站: https://zesearch.github.io/self-improvement-llm-website/
![]()
圖 2:LLM 自我提升系統 (LLM Self-improvement system) 的閉環框架:數據獲取、數據篩選、模型優化、推理細化與貫穿全程的自動評估。
論文提出了「LLM 自我提升系統」(LLM Self-Improvement System)這一概念。
相比已有關于自我演化智能體 (Self-Evovling Agents) 的研究,這篇論文更加從模型自身能力出發,關注模型如何憑借內在能力驅動系統持續演化,并將過去分散在數據、訓練、推理和評估中的方法,整合為一個由模型能力驅動的系統級閉環生命周期。
在這個框架中,自我提升不再是單一算法,而是一套可持續運轉的智能系統。論文圍繞一個核心問題展開:如何在不同階段利用模型自身能力,推動持續且自主的改進?
論文將自我提升系統概括為四個核心環節:數據獲取(Data Acquisition)→ 數據篩選(Data Selection)→ 模型優化(Model Optimization)→ 推理細化(Inference Refinement),并由自動評估(Autonomous Evaluation)作為貫穿全程的控制層。每個環節都以模型的自動化能力為核心,使模型能夠主動獲取數據、篩選樣本、優化自身,并在推理中反思改進。
數據獲取(Data Acquisition)
![]()
圖 3:數據獲取 (Data Acquisition) 的三種主要路徑:靜態篩選、環境交互與合成生成。
自我提升首先需要源源不斷的學習數據。論文將數據獲取分為三類:靜態篩選 (Static Curation)、環境交互(Environment Interaction)和合成生成(Synthetic Generation)。
靜態篩選是從已有語料中挖掘可學習樣本;環境交互讓模型通過與外部環境交互來主動獲取數據;合成生成則進一步讓模型自己構造新的訓練數據。隨著這三類方式遞進,模型從使用已有數據走向主動探索甚至是自主創造數據。
數據篩選(Data Selection)
![]()
圖 4:數據篩選(Data Selection)的兩類核心機制:模型引導評分與自適應選擇。
在數據獲取之后,問題轉向數據篩選:重點變成當已經獲取到足夠的數據后,判斷哪些數據真正有價值。 低質量、重復或錯誤的數據可能放大偏差,甚至導致模型坍塌。因此,系統需要篩選出更有效的數據,進入下一步訓練。
論文將數據篩選方法分為兩類:第一類是模型引導評分(Model-Guided Scoring),即利用模型產生的信號對數據進行打分和過濾,例如置信度、困惑度、梯度或損失函數;第二類是自適應選擇(Adaptive Selection),即把數據篩選變成一個可學習的策略,根據模型能力和反饋動態更新,選擇當前最有價值的數據。
模型優化(Model Optimization)
![]()
圖 5:模型優化 (Model Optimization) 的 GRO 框架,通過生成、獎勵與優化循環推動模型能力持續提升。
在數據經過獲取和篩選之后,模型優化階段負責將這些數據真正轉化為模型能力。
作者將這一過程總結為GRO 框架,即生成 — 獎勵 — 優化(Generation–Reward–Optimization):模型首先基于已有數據生成反映當前能力的輸出,再利用獎勵信號判斷其質量,并通過訓練更新自身參數,使模型在循環迭代中持續提升能力。
在這個 GRO 循環中,生成(Generation)是起點:模型基于當前能力產生答案、推理鏈等。論文將生成方式分為三類:自我探索(Self-Exploratory Generation)讓模型嘗試生成多種可能解;精煉生成(Refined Generation)讓模型在初始輸出上反思和修改;交互式生成(Interactive Generation)則通過工具、環境或外部反饋不斷調整生成過程。
隨后是獎勵(Reward) 階段:系統對生成結果進行自動評估,判斷哪些輸出值得學習。獎勵信號主要包括三類:啟發式獎勵(Heuristic Reward) 依賴規則或簡單指標,模型獎勵(Model-based Reward) 由模型或獎勵模型進行打分,可驗證獎勵(Verifiable Reward) 則通過代碼執行、答案匹配或形式化檢查等方式提供更可靠的反饋。
最后是優化(Optimization) 階段:模型利用這些反饋更新自身參數。優化方法可以分為三類:監督微調(Supervised Fine-Tuning, SFT) 把高質量輸出作為訓練數據,強化學習(Reinforcement Learning, RL) 根據獎勵信號直接優化模型行為,混合優化(Hybrid Optimization) 則結合 SFT 和 RL:先用高質量數據進行監督學習,再通過獎勵信號進一步強化模型表現。
此外,作者還總結了三種常見的模型優化范式,它們可以看作 GRO 框架在具體方法中的不同實例:迭代拒絕采樣(Iterative Rejection Sampling)、自我驗證與精煉(Self-Verification and Self-Refinement),以及自我對弈(Self-Play)。
在迭代拒絕采樣中,模型先生成多個候選答案,再通過規則或模型打分篩選高質量樣本,最后將這些樣本用于監督微調。自我驗證與精煉則先生成初始答案,再進行自我檢查與修改,最后利用改進后的答案進行監督微調,或將修改前后的答案構造成偏好對進行偏好優化,從而提升模型能力。自我對弈通過模型自身或多個模型之間的競爭與協作生成更具挑戰性的樣本,并借助勝負、偏好或驗證信號更新模型。
推理細化(Inference Refinement)
![]()
圖 6:推理細化 (Inference Refinement) 的四類方法:解碼策略、推理式增強、智能體系統增強與測試時訓練。
在模型優化之后,自我提升系統還需要考慮另一個問題:模型能力如何在實際推理過程中被進一步提升。
模型優化關注的是通過訓練更新參數,而推理細化(Inference Refinement)關注的是:在參數不一定永久改變的情況下,如何讓模型在回答問題時更好地搜索、反思、調用工具并修正自身輸出。
論文將推理細化歸納為四類方法。第一類是解碼策略(Decoding Strategies),通過采樣、樹搜索、logit 調整和效率優化等方式,引導模型生成更可靠的答案。第二類是推理式增強(Reasoning-based Improvement),讓模型在生成過程中加入執行、反饋、反思和協作推理,從而不斷修正中間步驟。第三類是智能體系統增強(Agentic System-based Improvement),通過提示詞、工具、記憶模塊和工作流,把模型放入更完整的任務系統中提升表現。第四類是測試時訓練(Test-Time Training),即模型在面對具體問題時,利用當前任務產生的反饋進行臨時更新,再生成最終答案。
這部分的核心意義在于,它把自我提升擴展到推理過程,使系統不僅依賴訓練后的參數更新,也能在具體任務中實現動態改進。這也是當前「自我演化智能體」研究最關注的方向之一:智能體如何在運行時通過規劃、反思、工具調用和環境交互,不斷調整自身行為并提升任務完成能力。
自動評估(Autonomous Evaluation)
![]()
圖 7:自動評估(Autonomous Evaluation)通過動態基準和交互環境評估,持續監控自我提升系統的真實進步。
除了上述四個環節,自我提升系統還需要一個貫穿全程的控制層:自動評估(Autonomous Evaluation)。如果缺少評估,系統就無法判斷自身改進是否真實有效。作者認為,評估過程不應只依賴人工檢查或固定測試集,而應能夠隨著模型迭代自動更新并提供反饋。
為此,論文強調兩類方法:動態基準(Dynamic Benchmarking)可以持續生成或更新測試任務,避免靜態基準失效;交互環境評估(Interactive Environment Evaluation)則讓模型在真實或模擬環境中完成任務,并根據環境反饋自動判斷表現。
通過這種方式,評估不再是閉環末端的一次性打分,而是持續指導系統改進的反饋機制。
風險、應用與未來(Application, Challenge and Future Outlook)
![]()
圖 8:自我提升系統的六大挑戰:數據自噬、反饋信號缺陷、優化驅動失敗、無效自我精煉、評估瓶頸和監督瓶頸。
自我提升系統具有巨大潛力,但也面臨一系列挑戰。作者一共總結了六個關鍵問題:模型反復學習自身生成的數據,可能帶來數據自噬(Data Autophagy);錯誤或有偏的反饋會造成反饋信號缺陷(Flawed Feedback Signals);訓練和優化過程可能出現優化驅動失敗(Optimization-Driven Failures);推理階段的自我精煉有時只是表面修改,形成無效自我精煉(Ineffective Self-Refinement);此外,評估瓶頸(Evaluation Bottlenecks)和監督瓶頸(Supervision Bottlenecks)也會限制系統的可靠發展。
![]()
圖 9:自我提升系統的六大應用場景:代碼、數學、醫療、金融、算法發現和科學研究。
與此同時,作者總結了自我提升系統的六大應用場景,包括代碼(Code)、數學(Math)、醫療(Medicine)、金融(Finance)、算法發現(Algorithm)和科學研究(Science)。這些領域中已經出現了不少自我提升的應用案例,展現著這一方向的實際價值。
面向未來,作者提出了自我提升研究的四大方向:
- 第一,從模型級優化走向端到端自我提升系統(End-to-End Self-Improving Systems);
- 第二,發展面向應用的專用自我提升模型(Application-Centric Self-Improved Models);
- 第三,建立統一基準與自主評估(Unified Benchmarks and Autonomous Evaluation),衡量模型是否真的在持續進步;
- 第四,在自動化與人類監督之間取得平衡(Balancing Automation and Human Oversight),確保系統既能自主進化,又保持安全和可控。
總體來看,這篇論文把自我提升從一組分散的技術方法,提升為一個以模型為主體的系統級閉環框架,通過數據、訓練、推理和評估等環節的協同,使大模型從一次性訓練的產物,逐步走向能夠持續成長的閉環智能系統。
當人類不再總能繼續教模型時,誰來推動模型進步?答案或許是模型自己。
作者介紹
第一作者: Haoyan Yang,紐約州立大學石溪分校計算機科學博士生。
個人主頁:https://joyyang158.github.io/haoyan-yang/
其他作者:Mario Xerri、Solha Park、Huajian Zhang、Yiyang Feng、Sai Akhil Kogilathota,來自紐約州立大學石溪分校計算機科學系以及數據科學項目
通訊作者: Jiawei Zhou,紐約州立大學石溪分校計算機科學系、數據科學項目、應用數學與統計系助理教授。
個人主頁:https://joezhouai.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.