網易首頁 > 網易號 > 正文申請入駐

大語言模型的自改進機制：技術綜述與未來展望

2026-04-19 15:41:22　來源: 人工智能學家

北京舉報

分享至

來源：專知

隨著大語言模型（LLMs）的持續演進，僅依靠人類監督來提升模型性能的成本日益高昂，且在可擴展性方面存在局限。當模型在特定領域接近人類水平時，人類反饋可能無法再為進一步的提升提供足夠的信息增益。與此同時，模型自主決策和執行復雜任務能力的增強，使得模型開發流程中各個組件的逐步自動化成為可能。在挑戰與機遇的共同驅動下，“自我改進”（Self-improvement）引起了學術界日益增長的關注，即模型自主生成數據、評估輸出并迭代優化自身能力。

本文從系統級視角審視了具備自我改進能力的語言模型，并提出了一套整合現有技術的統一框架。我們將自我改進系統概念化為一個閉環生命周期，由四個緊密耦合的過程組成：數據獲取、數據篩選、模型優化和推理細化，并輔以一個自主評估層。在該框架中，模型自身在驅動各個階段中發揮著核心作用：收集或生成數據、篩選信息信號、更新參數以及細化輸出；同時，自主評估層持續監控進展并引導跨階段的改進循環。基于這一生命周期視角，我們從技術角度系統地評述并分析了各組件的代表性方法。此外，我們進一步討論了當前的局限性，并對通往完全自我改進 LLM 的未來研究方向進行了展望。

1 引言 (Introduction)

通過擴展模型規模、訓練數據和計算量，大語言模型（LLMs）已實現快速且持續的性能增益（Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024）。支撐這一進展的普遍假設是：更大規模、更高質量的數據集，特別是專家標注的人類監督，是催生更強模型的關鍵。在實踐中，諸如 RLHF（Ouyang et al., 2022）等方法高度依賴精心策劃的高質量監督信號，以對預訓練模型進行對齊和細化。

然而，隨著模型的不斷演進，主要依靠人類監督來改進模型的范式暴露出了幾項結構性局限：

人類數據的稀缺性日益凸顯：高質量的專家標注數據成本高昂且難以規模化（Gilardi et al., 2023; Villalobos et al., 2024）。構建大型監督數據集的邊際成本迅速增長，而專家勞動力資源卻始終有限。
更深層的局限在于人類認知的邊界：如果模型監督始終受限于人類智能，模型是否能真正超越人類水平？當模型在某些領域接近或超過人類水平時，人類反饋可能不再能提供足夠的信息梯度（Informative Gradients）以支持進一步提升（Bowman, 2023; Burns et al., 2023）。這提出了一個根本性問題：當模型與其監督者（人類）水平持平時，如何持續進化？

上述局限共同促使學術界探索**模型自我改進（Model Self-improvement）**這一極具前景的方向。模型不再完全依賴外部的人類信號，而是利用自身能力來生成數據、評估輸出并迭代優化其策略。

從自動化的角度來看，這一方向不僅是理想的，而且是必然的。隨著 LLMs 的進階，它們展現出了解決復雜工程任務和參與高層決策的能力。鑒于 LLMs 的開發過程（包括數據獲取、篩選和模型訓練）本身就是一項高度復雜的工程任務，將這些職責委派給模型自身是一個自然的演進過程。通過將 LLMs 作為智能體（Agents）來編排自身的開發生命周期，一個“系統側”的自我改進閉環得以建立。如圖 1 所示，我們的愿景是從人類驅動的模型開發轉向自主自我改進系統范式，使 LLM 通過自主導向的迭代和反饋不斷增強其能力。

我們將 LLM 的自我改進定義為：**一種在沒有持續人工干預（Human-in-the-loop）的情況下，模型迭代增強自身能力的學習范式。**該范式具有兩個核心屬性：

自主性（Autonomy）：改進過程無需持續的人工標注或手動校正。“自我”并不排斥外部組件；系統仍可使用教師模型、驗證器（Verifiers）、評論家（Critics）、獎勵模型或自動評估器等輔助模塊。關鍵要求是：學習環節一旦部署，必須是完全自動化的。
持續性（Continuity）：自我改進并非一次性的細化，而是一個迭代的、自我強化的過程。前期階段的輸出或經驗被重新利用，為后續更新產生更強的監督信號。每一輪改進都依賴并放大先前的成果，從而實現隨時間推移的累積式進展。

在此定義下，自我改進不僅僅是提升任務指標的技術，更是一種實現持續、自主增長的結構性能力。從 AI 長期發展的視角看，這種能力被廣泛認為是構建能夠超越初始訓練范疇、實現持續學習與適應的系統的核心。

受此愿景啟發，如圖 2 所示，我們提出了一個由五個互連組件組成的生命周期自我改進系統。其中四個組件——數據獲取、數據篩選、模型優化和推理細化——共同解決了一個核心問題：為了構建端到端的自我改進系統，如何在不同階段利用模型自身來驅動持續且自主的貢獻？具體而言：

數據獲取（Data Acquisition）：模型自主收集或生成訓練數據。
數據篩選（Data Selection）：模型獨立評估并過濾出質量更高、更適合自身學習的數據點。
模型優化（Model Optimization）：模型自主學習，有效地將數據轉化為其參數內部的增強能力。
推理細化（Inference Refinement）：模型在推理過程中提升性能，而無需更改底層參數。

除了這四個階段，系統還需要一種長期衡量與引導機制，以確保自我改進的穩定性和可持續性。為此，我們引入了第五個組件：自主評估（Autonomous Evaluation）。它為模型表現提供持續反饋，并引導其未來的發展方向。由于靜態基準測試（Benchmarks）會迅速過時，且人工評估無法隨系統規模同步增長，這種機制至關重要。通過自主評估，模型可以保持及時、自適應的反饋，支撐長期的持續改進。

這五個組件共同將模型置于自動化迭代閉環的核心地位。該統一系統確保了改進信號能夠被一致地生成、篩選、應用、細化和評估，為實現更廣泛的系統級 LLM 自我改進鋪平了道路。

近期已有一些綜述從不同角度探討了自我改進。例如，Tao et al. (2024) 關注通過自我訓練和強化學習實現的策略級自我演化；Dong et al. (2024) 評述了提示詞（Prompting）和解碼細化等推理側改進技術；Fang et al. (2025a) 和 Gao et al. (2026) 則強調智能體系統，突出記憶、反思和工具增強交互。盡管如此，現有研究大多集中在特定階段（如訓練或推理）的局部機制。相比之下，我們采用了系統級視角，將自我改進概念化為一個統一的、閉環的生命周期，將模型開發的所有階段整合進一個連貫的、用于可擴展自主演化的端到端框架中。

本文余下部分分為兩個主要部分。首先，從技術角度系統研究自我改進系統中的每個組件（§2 至 §6），并將其分類（如圖 3 所示）。其次，我們將討論更宏觀的自我改進系統（§7 至 §9），涵蓋挑戰、局限、應用及未來展望（結構如圖 9 所示）。此外，盡管本文以模型為中心，但也納入了關于**自我演化智能體（Self-evolving agents）**的研究。我們認為，從單一階段向統一自我改進系統的轉變，與從獨立模型向智能體系統的轉變相呼應，反映了向更自主、交互式學習系統范式發展的共同趨勢。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.