![]()
這篇由獨立研究者完成的綜述論文發表于2026年4月,arXiv編號為2604.09459(v2版本于2026年4月13日更新),是目前學術界首篇系統性聚焦于大型語言模型強化學習中"功勞認定"問題的專題綜述。感興趣的讀者可通過該編號在arXiv平臺檢索全文。
當你雇了一個團隊幫你裝修房子,最后裝修效果很差,你會怎么追責?是罵負責設計的人、還是罵負責施工的人、還是罵負責采購材料的人?如果整個團隊分工明確、每人只做了一部分,而你只知道最終結果很糟糕,那要怎么判斷究竟是哪個環節出了問題、下次應該換掉誰?
這個看似日常的困境,正是當前人工智能領域最核心的技術難題之一。一個大型語言模型(也就是類似ChatGPT這樣的AI)在被訓練成"會做事的助手"時,會經歷成千上萬次嘗試。每次嘗試,它可能做了幾十步、幾百步才得到一個結果,但訓練系統只告訴它"這次成功了"或"這次失敗了"——根本不知道是哪一步起了關鍵作用。這就是所謂的"功勞認定"問題(Credit Assignment),也是本文的核心議題。
這篇綜述梳理了2024年到2026年初之間發表的47篇相關論文,把這些解決方案分門別類地整理成一套完整的知識體系。它不只是一本目錄,還附帶了一套幫助研究者和工程師選方法的決策樹、一份給未來研究者的寫作規范清單,以及一個基準測試的協議規范。對于任何想在這一方向上開展研究或實際應用的人來說,這篇綜述是一份難得的導航地圖。
一、從"寫作業"到"干活":AI能力進化帶來的新麻煩
要理解這個問題有多棘手,先得了解AI是如何一步步"進化"的。
早期的AI訓練方式,有點像雇人寫一篇作文然后請老師打分。系統生成一段話,人類或者評分程序打一個總分,AI據此調整自己。這個過程中,整篇作文只拿到一個分數,每個句子、每個詞都獲得了同等的"獎懲"。這就是所謂的"結果級別獎勵"。在任務比較簡單、回答比較短的情況下,這種方式勉強夠用。
后來,隨著DeepSeek-R1和OpenAI的o1這類模型的出現,AI開始被訓練去解數學題和寫代碼,而且要展示完整的推理過程。這時候,一段回答可能長達一兩萬個詞,里面包含幾十個推理步驟。這就是所謂的"推理型強化學習"階段。光靠最后一個"答對了"或"答錯了"來訓練,效率太低了——就像老師批改數學作業只寫"錯"但不指出哪一步算錯了,學生根本不知道該從哪里改。
再往后發展,AI被賦予了真正"干活"的能力:它可以上網搜索、執行代碼、調用工具、發送消息、與其他AI協作。一個任務可能要來回操作幾十次甚至上百次,耗費的文字量可能高達幾十萬到上百萬個詞。這就是"智能體型強化學習"階段,也是目前技術前沿所在。在這種情況下,"功勞認定"問題達到了前所未有的復雜程度。
綜述提供了一組非常直觀的數字對比來說明這個落差。在解簡單數學題時,AI大約只需要兩三百到八百個詞,做出三到十個關鍵決策。在解競賽數學題時,可能需要一兩萬個詞、幾十到一百個關鍵步驟。而在處理像SWE-bench這樣的軟件工程任務時,AI可能需要來回操作二三十次到一百多次,總共用掉十萬到五十萬個詞,做出幾十到上百個關鍵決策。當一個AI在第三步做了一個糟糕的選擇,但之后的九十七步都還算正常,最終任務失敗——訓練系統如何知道是第三步的鍋?這就是問題的本質。
二、"所有人平分獎金"為什么行不通
現在最流行的大模型訓練方法叫做GRPO(群體相對策略優化),它的核心邏輯是:讓AI對同一個任務做出多次嘗試,然后根據每次嘗試的結果好壞來給那次嘗試的所有步驟打同樣的分。換句話說,如果這次嘗試成功了,那么這次嘗試中的每一個詞、每一步操作都獲得同等的"功勞";如果失敗了,每一步都背同等的"黑鍋"。
這就像一家公司的績效考核制度是這樣的:如果這個月業績好,所有員工無論貢獻多少都拿同樣的獎金;如果業績差,所有人無論犯沒犯錯都被扣同等的工資。這種制度在員工很少、每個人的工作都清晰可見的小團隊中或許還能接受,但在一個有一百個部門、每個部門又有幾十個人的大公司里,就完全失效了。
綜述用了一個嚴格的數學分析來說明這個問題。在單純的統計學上,當你對一百個不同的決策都用同一個信號來判斷好壞時,平均到每個決策上的"信息量"只有單決策情況的百分之一。這不只是效率低的問題,而是會導致模型學到錯誤的東西。研究者們發現,在這種訓練方式下,AI會逐漸傾向于做那些"安全但毫無意義"的重復動作——因為做任何新奇的嘗試風險太高,不如一直重復已知的動作,反正獎懲信號那么模糊,誰也說不清楚。這個現象被研究者稱為"回聲陷阱"。
正因如此,四十七篇論文的核心目標只有一個:找到更好的方式,把那個模糊的最終結果獎勵,精準地分配到真正值得獎勵或懲罰的那一步上。
三、分類整理:解決問題的四十七種思路
這篇綜述把四十七種方法整理成了一張二維地圖。橫軸是"方法論"——用什么技術來計算功勞;縱軸是"粒度"——把功勞分配到哪個層級。
從粒度來說,最細的是詞語級別(每個詞都分開算),往上是段落級別(把一段推理當一個單元),再往上是步驟或回合級別(每一次AI說話或做操作算一個單元),最頂層是多AI級別(多個AI協作時,每個AI各算各的)。不同任務適合不同粒度——就像餐廳績效考核可以精細到每道菜(詞語級),也可以粗略到每個班次(回合級),更可以整體評價前廳還是后廚團隊(多智能體級)。
從方法論來說,主要有五大家族。第一類叫"蒙特卡洛法",思路是:從中間某步開始,讓AI從那里繼續把任務做完,做很多次,用這多次的平均結果來估計這步的重要性。第二類叫"時序差分法",思路是:訓練一個專門負責打分的輔助模型,這個模型負責預測"從當前狀態繼續下去大概能得多少分",用這個預測值來分配功勞。第三類叫"AI自評法",思路是:直接問AI自己"你覺得這一步重要嗎",用AI自己的語言理解能力來做裁判。第四類叫"博弈論法",主要是Shapley值——這是個來自經濟學的方法,核心是問"如果去掉這一步,結果會差多少",通過所有可能的組合排列來公平地分配貢獻。第五類叫"信息論法",思路是衡量"這一步提供了多少關于任務成功的新信息"。
在這張地圖上,從左上角到右下角有一條進化路徑:推理型任務的方法主要集中在詞語級和段落級,用蒙特卡洛或時序差分;而智能體型任務的方法主要集中在回合級和多AI級,用事后分析、反事實推理和信息論。這條路徑本身就是一個重要發現。
四、推理AI的功勞分配:已有成熟方案
在推理型任務領域,方法已經相對成熟,這里重點介紹幾個有代表性的。
VinePPO這個方法的核心比喻是"在棋局中途換人接著下"。它的做法是:在AI正在生成回答的某個詞的位置上,讓AI從那里繼續往下寫,寫很多個不同的版本,統計這些版本最終有多少比例能得到正確答案。這個比例就是那個詞的"預期價值",而實際的功勞就是"真實結果"減去"預期價值"。好處是完全沒有偏差,不依賴任何輔助模型;壞處是計算量很大,每個詞都要生成額外的很多個版本。實驗證明,這個方法在數學推理上比傳統PPO效果顯著更好,說明功勞分配質量本身就是訓練的瓶頸,而不是優化算法的問題。
SPO走了一條更實用的路:不在每個詞上分配功勞,而是找到推理鏈條中的"分叉點"——那些推理從一個子問題跳躍到另一個子問題的地方,以這些有意義的段落作為單位。每個段落的功勞用比較"共享同一前綴的不同軌跡的結果"來估算。這樣既保留了比詞語級更細的信息,又避免了計算量爆炸。
SCAR走的是博弈論路線:把整段推理鏈條看作一個團隊協作,每個段落是一個"隊員",用Shapley值來公平分配"誰的功勞最大"。Shapley值有一個很好的性質,它滿足效率(所有人的功勞加起來等于總收益)、對稱性(貢獻相同則獎勵相同)和零貢獻性(對結果沒影響的步驟得零分)。缺點是計算復雜,因為要考慮所有可能的組合順序,但研究者用了抽樣近似來解決。
PURE提出了一個有趣的理論洞察。傳統的過程獎勵模型(簡單理解為"步驟打分器")用的是"這步之后預期總得分"來衡量步驟質量,PURE認為這樣會被模型鉆空子——模型可能學會制造一些看起來分數不低但實際上沒用的中間步驟。PURE改用"這步之后所有未來步驟中最低分"來衡量,強迫模型確保每一步都不拖后腿,而不是靠后面某些高分步驟來平攤。
HICRA發現了一個有趣的學習規律:AI在強化學習訓練的過程中,先學會的是"程序性技能"(也就是固定套路和計算步驟),后學會的是"戰略規劃"(也就是高層次的問題分解方式)。基于此,HICRA建議把更多功勞集中在那些具有戰略意義的詞語和步驟上,而不是均勻分配。這個發現對智能體任務同樣有重要啟發價值。
五、智能體AI的功勞分配:全新挑戰,全新方案
從推理型到智能體型,不只是任務變復雜了那么簡單,而是有六個本質性的結構變化,這六個變化共同構成了"為什么推理型方法不能直接搬過來用"的完整解釋。
第一個變化是"環境變得不可控"。當AI只是在生成文字時,環境完全可預測——下一步的狀態就是已有文字加上剛生成的詞。但當AI開始調用工具、執行代碼、搜索網頁時,同樣的操作可能因為網絡狀態、數據庫變化、執行時序而得到完全不同的結果。這讓"從中間狀態出發多次模擬"變得要么成本極高,要么根本不可能。
第二個變化是"只能看到部分信息"。推理型任務是全透明的,AI看到的就是完整狀態。但在智能體任務中,AI只能看到它執行查詢后得到的返回結果,看不到數據庫的全貌;只能看到文件系統中它選擇查看的文件,看不到整個代碼庫的結構。這意味著即便某一步看起來是個"壞"決策,也可能是因為信息不足,而非真的決策失誤。
第三個變化是"時間跨度爆炸"。從做幾十步推理變成了做幾十到上百次來回操作,計算信號質量急劇下降。統計上,信噪比大約下降了一百倍。
第四個變化是"操作類型千差萬別"。推理鏈條里的每一步都是"想清楚下一個論證",相對同質。但智能體的操作中,有制定高層計劃的戰略性決策,有選擇用哪個工具的技術性決策,有具體填寫參數的執行性操作,有格式化輸出的收尾性操作。這些操作的"重要程度"天差地別,但如果用統一的功勞分配方式,就會一視同仁。
第五個變化是"中間過程難以驗證"。數學推理的每一步在邏輯上是可以檢驗的——這個代數變形對不對、這個推導步驟合不合法。但在智能體任務中,"選擇搜索哪個關鍵詞是個好選擇嗎"只有等看到搜索結果再說,"這段代碼寫得好不好"只有執行之后才知道。
第六個變化是"分叉點稀少但致命"。在智能體任務中,大多數操作都是常規動作,真正改變命運走向的"關鍵決策點"其實非常少,但一旦在這個節點上做錯,就可能導致整個任務走入死胡同。這些點事先根本不知道是哪里,只有事后回頭看才能認出來。
基于這六個挑戰,研究者們發展出了一批專門針對智能體任務的新方法。
AgentPRM是把推理型的"步驟打分器"概念移植到智能體任務上,但把計算方式從"蒙特卡洛多次模擬"改成了"時序差分學習"——訓練一個輔助模型,讓它不斷預測"從當前步驟繼續下去,大概能得多少分",通過迭代更新來學會這個預測。這樣就不需要重啟環境去模擬,但引入了預測誤差。實驗顯示樣本效率提升了八倍。
SWEET-RL提出了一個非常聰明的思路。訓練的時候,人們可以掌握AI在推理時看不到的信息——比如正確答案是什么、整個任務最終是否成功。這叫做"特權信息"。SWEET-RL用這些特權信息訓練一個專門的"裁判"模型,讓它在訓練期間給每一步打出高質量的功勞分;而參與實際任務的AI在執行任務時并不依賴這個裁判——它只用自己能看到的信息來做決策。這種"訓練時用特權,運行時不用特權"的不對稱設計,既提升了信號質量,又不影響AI在真實環境中的獨立性。
CARL(關鍵行動強化學習)提出了一個大膽的簡化思路:與其給所有操作都分配精細的功勞,不如只管那些真正關鍵的操作。怎么判斷哪步關鍵?用"熵"——在某個狀態下,如果AI面臨很多種可能的操作選擇且各有可能,說明這是個真正需要做決策的關鍵時刻,熵值高;如果AI幾乎必然會做某個操作,說明這只是常規步驟,熵值低。CARL只對高熵操作步驟進行梯度更新,跳過其他所有步驟。結果令人意外:減少了72%的梯度更新量,但性能幾乎不下降。這說明智能體軌跡中絕大多數操作根本不值得優化,只有少數關鍵決策真的重要。
GiGPO提出了一種"組中組"的巧妙設計。在GRPO原本的基礎上,它增加了一層:不只是在多次完整嘗試之間做比較,而是在同一次嘗試中,找出那些"從相同出發點繼續"的步驟,把它們相互比較,用組內相對表現來分配步驟級別的功勞。這樣既不需要額外的輔助模型,也不需要重啟環境,在計算效率和信號質量之間找到了一個不錯的平衡點。實驗中在網頁購物和家居任務兩個基準測試上分別超越GRPO達12%和9%。
最引人關注的是2026年3月同一周內冒出的三篇獨立論文,它們都走向了同一個方向:事后反事實分析。
HCAPO的核心思路是"事后諸葛亮":等整個任務做完之后,再回過頭來評估每一步的貢獻。它用AI來扮演裁判,讓裁判用完整的事后信息去問"如果這步換成另一個操作,結果會不同嗎"。這種方法的關鍵洞察是:事后的功勞評估天然比事前更準確,因為你已經知道結果了,可以真正區分"這步是真的好"和"這步只是恰好運氣不錯"。
C3(上下文反事實功勞分配)用的是"留一法"——把某一步的操作替換成一個"默認操作",用AI來估計在這種反事實情況下任務最終會怎么發展,然后比較真實結果和反事實結果的差值作為那步的功勞。不需要重跑環境,反事實估算完全在AI的"想象中"完成。
CCPO提供了更嚴格的理論框架:把整個任務軌跡看作一個因果結構,每步操作是一個"干預變量",任務結果是被影響的"效果"。每步的功勞就是這個"干預"的平均處理效應。這個框架在一定假設條件下有嚴格的理論保證。
三篇論文獨立得出相同結論,本身就是一個強烈信號:對于智能體任務,"事后回溯式"的功勞認定思路正在成為主流范式。
六、多AI協作:最新的功勞認定前沿
當任務不是由一個AI獨立完成,而是由多個AI分工協作時,問題又多了一個維度:這個成果里,有多少是你的功勞,有多少是隊友的功勞?
這個問題在現實中并不陌生。電影上映后,演員、導演、攝影師、劇本作者各自貢獻了多少,誰應該拿最多的獎勵,一直是討論不完的話題。多AI場景面臨的是完全類似的挑戰,而且還更復雜:不同AI的能力和角色完全不同(一個專門負責搜索,一個專門寫代碼,一個專門做總結),共同完成了一個無法單獨拆開評估的整體任務。
SHARP把Shapley值從推理任務的"步驟層面"搬到了多AI任務的"智能體層面":把整個AI團隊看作一個合作游戲,每個AI的功勞是它在所有可能的團隊組合中的"平均邊際貢獻"。實驗顯示,平均比單一AI高出23.7%,比沒有Shapley功勞分配的多AI系統高出14.1%。
MAPPA走了另一條路:不等任務結束才算總賬,而是在每個AI的每一步操作完成后,就用另一個AI來評判這一步的即時價值。這樣每次訓練時可以從每個軌跡里提取出更多的學習信號。實驗中,在數學競賽任務上提升幅度高達5到17個百分點,是目前多AI方向上報告的最大增益之一。
Dr. MAS發現了一個具體的失效模式:當用GRPO來訓練多AI系統時,如果用全局統一的基準線來計算各AI的優勢分,會出問題——因為不同AI的任務難度和獎勵分布完全不同,一個統一的基準線對某些AI來說太高,對另一些來說太低。解決方案是給每個AI各自維護獨立的統計基準,分別歸一化。這個改動看起來簡單,但卻把原本發散的訓練過程穩定下來,并帶來了5.6%的性能提升。
七、做選擇時的實用指南
這篇綜述不只是盤點方法,還給出了一套決策框架,幫助實際工作者根據自己的情況選擇合適的方法。
核心邏輯是一棵決策樹。首先問的是任務性質:是推理型(AI生成一段文字)、智能體型(AI與環境交互多個回合),還是多AI協作?在推理型任務中,再問推理鏈條多長。如果短(五千詞以內),用GRPO家族就夠,加上PURE或SPRO來強化步驟級別信號;如果長(超過五千詞),且計算資源有限,用HICRA或CAPO;如果計算資源充裕,用VinePPO或SCAR來追求更高質量的功勞分配。
在智能體型任務中,先問軌跡有多長。如果不超過三十個回合,再問有沒有輔助模型資源:沒有的話用GiGPO、CARL或iStar;有的話用AgentPRM或SWEET-RL。如果超過三十個回合,再問計算資源是否充裕:資源有限就用CARL或HCAPO或ArCHer的簡化版;資源充裕就用C3/CCPO或HCAPO的完整版或IGPO。多AI協作場景則推薦M-GRPO、SHARP或MAPPA。
綜述還整理了幾個關鍵取舍。粒度越細的方法(詞語級)提供越精確的信號,但計算成本越高;事后分析(HCAPO、C3)信息質量高但引入延遲;不需要輔助模型的方法(CARL、GiGPO、iStar)更容易部署;專門為推理型設計的方法在智能體任務上往往失效,反之則不然。
八、這個領域還缺什么
綜述誠實地指出了幾個尚未解決的重要問題。
在實踐層面,目前評測各種功勞分配方法的基準測試嚴重不統一。每篇論文用的任務、基礎模型、訓練配置各不相同,導致無法真正比較哪個方法更好,還是說哪個方法只是恰好在某個任務上更有優勢。這讓整個領域的進展變得模糊。研究者呼吁建立一套共享的基準測試協議,包括已知正確功勞分配的推理任務、有控制分叉點的智能體任務,以及有設計好功勞結構的多AI任務。
在理論層面,絕大多數方法只有經驗驗證而沒有理論保證。只有極少數方法(如VinePPO的無偏性證明、CCPO的因果假設下的保證)提供了形式化分析。在部分可觀測環境下,功勞分配如何收斂、樣本復雜度是多少,這些基本問題幾乎沒有答案。
在新興應用層面,當AI任務跨度極長(比如持續幾天的科研實驗)、獎勵信號本身不確定(比如"用戶是否滿意"這種主觀評價),或者AI的操作影響到了AI自己的"記憶"(比如把某些信息存入外部數據庫以備后用),功勞應該如何分配,現有方法幾乎無從應對。
還有一個被忽略的機會:功勞認定和探索策略本來可以互相增益。在功勞認定最不確定的狀態上,恰恰是AI最應該去探索的地方——因為那里信息最缺乏。但目前沒有任何方法把這兩件事真正結合在一起。
歸根結底,這個領域正在經歷一個快速成熟的階段。推理型任務上的功勞分配問題,大致已有可用的工程答案;智能體任務上的功勞分配問題,思路已經清晰但工具還不完備;多AI協作的功勞分配問題,才剛剛開始被認真對待。
三年前,幾乎沒有人把"功勞分配"當作一個獨立的研究方向來看待,它只是深藏在各種算法細節里的小問題。但隨著AI從"會回答問題"進化到"會干活",這個問題已經從背景噪音變成了舞臺中央最響亮的那個聲音。下一波突破,很可能就藏在"怎么讓AI明白自己真正做對了什么"這個問題的答案里。
有興趣深入了解的讀者可以通過arXiv編號2604.09459檢索這篇論文,或直接訪問作者在GitHub上維護的相關論文列表(xxzcc/Awesome-Credit-Assignment-in-LLM-RL)以獲取持續更新的研究動態。
Q&A
Q1:大模型強化學習中的功勞認定問題具體是什么?
A:功勞認定問題是指當AI完成一項多步驟任務后,訓練系統只知道最終結果的好壞,但不知道是哪一步操作真正起了決定性作用。就像一場球賽贏了,但說不清楚是誰的功勞。在AI做復雜任務時,可能經歷幾十步到上百步,如果只靠最終獎勵來訓練,效率極低,甚至會讓AI學到錯誤的行為模式。
Q2:GRPO方法在智能體任務上為什么會出現"回聲陷阱"?
A:GRPO對整個任務軌跡中的每一步都給同樣的獎懲信號,當任務變得復雜、步驟達到幾十甚至上百步時,這個信號對每一步來說變得極其微弱且充滿噪聲。AI因為無法分清哪步真正有用,為了降低風險就開始不斷重復已知的安全動作,變得越來越保守和重復,完全失去了探索新方法的動力,這就是所謂的"回聲陷阱"。
Q3:CARL方法中用來判斷關鍵決策點的"熵"是什么意思?
A:在CARL方法里,"熵"衡量的是AI在某個狀態下面對多少種可能選擇、且這些選擇的可能性有多均勻。如果AI幾乎肯定會做某一個操作,熵值低,說明這只是常規步驟不需要特別訓練;如果AI面臨很多種同樣可能的選擇,熵值高,說明這是真正需要做判斷的關鍵時刻,才值得投入梯度更新資源。實驗發現跳過低熵步驟可以減少72%的計算量但性能幾乎不變。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.