![]()
近年來,隨著大模型從簡單問答,走向深度研究、醫療咨詢、多模態生成和長程 Agent 任務,一個基礎問題變得越來越難回答:我們到底應該怎樣判斷模型輸出的質量?
在許多真實且復雜的場景中,我們可能沒有標準答案也沒有可驗證答案正確性的信號來評估模型輸出的正確性。
以 Deep Research 報告評估為例,傳統方法可能只是對比生成報告和參考報告的文本差異,或者讓大模型給一個總體分數。但一篇好報告并不一定要和參考報告寫得一樣,也很難用一個籠統分數概括。它需要同時滿足多個要求,例如是否回答了用戶問題、覆蓋了關鍵信息、引用了可靠證據、論證是否清晰、結論是否有用等等。
Rubrics 的作用,就是把這些模糊的「好報告」標準拆解成明確的評價項,讓評審者或 judge model 逐項檢查和打分。這樣不僅能判斷報告總體好不好,還能指出具體問題,并進一步把這些細粒度反饋轉化為訓練信號,幫助模型針對覆蓋不足、證據不充分或邏輯不清等問題進行優化。
這意味著,大模型的訓練與評測正在從單一正確性信號,轉向多維度、可解釋的質量標準。Rubrics,正在成為連接人類期望、任務要求和模型行為的重要接口。
近日,來自中國人民大學高瓴人工智能學院的研究團隊發布綜述論文《The Rules of the Game: A Survey of Rubrics for Large Language Models》。論文共 40 頁,系統梳理了 Rubrics 在大模型中的定義、構造方法、訓練應用、評測場景與開放挑戰。論文同時維護了持續更新的 GitHub 項目,方便社區跟蹤這一快速發展的方向。
![]()
- 論文標題:The Rules of the Game: A Survey of Rubrics for Large Language Models
- 論文鏈接1:https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
- 論文鏈接2:http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
- GitHub 閱讀列表:https://github.com/RUC-NLPIR/Rubrics_Survey
為什么現在需要 Rubrics?
早期大模型的任務往往具有相對清晰的輸入輸出形式,而且答案的正確性是容易評估的。例如問答任務可以比較標準答案,代碼任務可以運行測試用例,數學任務可以驗證最終結果。對于這些任務,準確率、執行成功率或規則化獎勵能夠提供較直接的訓練和評測信號。
但隨著模型能力擴展,任務難度也發生了明顯變化。大模型正在被要求完成更開放、更高風險、更復雜的任務。例如:自動搜索資料并生成研究報告;在醫療、法律、金融等專業領域給出分析;調用外部工具完成多步任務;在多模態場景中生成或理解復雜內容。此時,輸出質量通常不再由一個答案決定,而是由多個維度共同決定。
Rubrics 的價值正在這里顯現出來。它將「好答案」拆解為一組明確的評價項,例如事實正確性、覆蓋度、證據支撐、推理嚴謹性、安全性、格式合規性和實際可用性。評測者可以逐項打分,也可以將這些分數聚合為最終結果。與一個黑箱分數相比,Rubrics 提供的是可檢查、可調整、可診斷的質量標準。
本文聚焦于回答以下五個問題:
- Rubrics 是什么?
- Rubrics 如何構造?
- Rubrics 如何用于模型訓練?
- Rubrics 如何用于任務評測?
- 開放性問題和挑戰
![]()
圖 1:上半部分是章節總覽;下半部分展示了 rubrics 在不同任務上的示例。
Rubrics 到底是什么?
在教育評估中,rubric 通常指一套評分指南:它說明評估者應該看哪些方面,以及不同質量水平分別意味著什么。放到 LLM 中,Rubrics 可以理解為一組自然語言形式的評價標準,每個標準對應一個具體、可評估的質量維度。
這篇綜述給出了統一形式化:一個 rubric set 可以由若干 rubric item 組成,每個 item 包含自然語言描述(具體的 rubrics 示例可以參見圖 1 下半部分)和重要性權重;對于輸入任務和模型輸出, judge model 逐項給出分數,再通過平均、加權求和或隱式聚合得到整體評價。
更重要的是,論文對 Rubrics 與幾個容易混淆的概念進行了區分和討論。LLM-as-a-Judge 解決的是「誰來評」,Rubrics 解決的是「按什么標準評」;reward model 通常直接輸出一個標量分數,而 Rubrics 將評價標準顯式列出;RLVR 依賴自動可驗證的答案,而 Rubrics 更適合那些需要多維度判斷、難以完全驗證的開放式任務。
Rubrics 如何構造?
Rubrics 是否有效,首先取決于它們本身是否足夠好。一個過于寬泛的標準,例如 “回答應當有幫助”,很難提供穩定的訓練和評測信號;一個過于細碎或重復的標準,又可能帶來冗余評分和噪聲。
綜述將 Rubrics 構造方法劃分為四類,呈現出從簡單到復雜、從靜態生成到動態演化的路線。
![]()
圖 2:四種不同的 rubrics 生成范式,包含直接生成、對比生成、迭代優化和在線演化。
第一類是直接生成。給定任務指令、候選答案或參考證據,強大的 LLM 可以一次性生成一組評價標準。
第二類是對比生成。相比只看一個答案,對比生成會輸入偏好對,例如一個高質量回答和一個低質量回答,讓模型總結二者差異,從而提取更有判別力的標準。
第三類是迭代優化。研究者開始不再把 Rubrics 構造當成一次生成任務,而是引入迭代地驗證、分解、過濾等流程。例如檢測某個標準是否能穩定區分偏好對,遞歸拆分過粗的標準,最終得到更原子、更緊湊的 rubric set。
第四類是在線與共同演化。對于強化學習和 Agent 任務來說,靜態 Rubrics 可能很快過時。因此,部分工作嘗試讓 Rubrics 隨著 policy rollouts 更新,將新出現的錯誤行為納入評價標準,使 Rubrics 與模型訓練過程共同演化。
Rubrics 如何用于模型訓練?
在模型訓練中,Rubrics 的核心作用是把復雜質量要求轉化為可優化的監督信號。相比一個整體偏好標簽,Rubrics 能告訴模型「哪里做得好、哪里需要改」,因此特別適合開放式任務和多步 Agent 任務。
用于 policy model training:讓模型學會生成好答案
標準的基于 rubrics 做 policy RL 的方式是:給定輸入和模型生成的回答,judge model 按 Rubrics 逐項打分,再將分數聚合為一個獎勵,用于 PPO、GRPO 等強化學習算法。這個過程可以作用在最終答案上,也可以作用在完整軌跡上。對于工具調用 Agent、深度研究 Agent 或多模態推理模型,軌跡級 Rubrics 尤其重要,因為很多錯誤并不會直接體現在最終答案中。示例圖如下:
![]()
圖 3:四種不同的 rubrics 生成范式,包含直接生成、對比生成、迭代優化和在線演化。
不過,將多維 Rubrics 簡單加權為一個標量獎勵是比較粗粒度且不靈活的,因為不同標準之間可能存在依賴、沖突或硬約束關系。例如醫療問答中的安全性不應只是一個普通加分項,而可能是 veto 條件(一旦違反則 reward 為 0)。基于此,許多工作進一步提出設計更先進更魯棒的 rubric reward:包括可學習的 Rubric 權重、引入 veto 或 saturation 機制、結合環境反饋、按難度進行 curriculum 訓練,以及在 RL 算法內部結合 rubrics 設計優勢估計。
還有一類工作將 Rubrics 從「事后打分工具」推進為「生成過程中的指導」。模型可以先生成或讀取 Rubrics,再據此規劃回答;也可以把未滿足的 Rubric 轉化為反饋,指導下一輪改寫。這意味著 Rubrics 不僅能告訴模型一個輸出得多少分,還能幫助模型探索更高質量的輸出空間。
用于 reward model training:讓獎勵模型更可解釋、更可靠
Rubrics 也被越來越多地用于 reward model training。傳統 reward model 往往只輸出一個標量分數,難以解釋為什么某個回答更好。引入 Rubrics 后,reward model 可以被訓練為先依據標準進行分析,再給出偏好判斷;也可以輸出多個維度的分數,并通過顯式聚合得到最終 reward。根據綜述的整理,Rubrics 在 reward model training 中主要發揮三類作用。
![]()
圖 4:rubrics 在 reward model 訓練中的三類工作。
1. 提升獎勵模型的可解釋性
傳統 reward model 通常直接輸出一個標量分數,評價標準隱含在模型參數中,研究者很難判斷模型究竟依據什么做出偏好判斷。引入 Rubrics 后,獎勵模型可以被訓練為先圍繞給定標準進行逐項分析,再輸出最終偏好判斷;也可以對不同 rubric 維度分別打分,再通過顯式聚合得到最終 reward。這樣一來,獎勵模型不再只是一個黑箱打分器,而是能夠展示「為什么這個回答更好」「哪些維度影響了最終分數」。
2. 提供更細粒度的 reward model 訓練信號
除了最終偏好是否正確之外,Rubrics 還可以作為結構化參考單元,用來約束獎勵模型的中間分析過程。例如,一些工作會將人工標注或教師模型生成的理由拆解為 rubric-level 的參考信號,并在訓練中鼓勵 reward model 的分析過程與這些標準保持一致;也有方法要求模型先生成 Rubrics,再進行分析和判斷,并通過額外的 proxy model 評估生成 Rubrics 的質量,從而把 Rubrics 本身也納入優化目標。
3. 用于構造更高質量的訓練數據
傳統偏好數據中往往包含長度、格式、語氣等淺層線索,reward model 可能學會這些表面特征,而不是學習真正決定回答質量的因素。Rubrics 可以幫助識別影響回答質量的核心維度,并據此構造更有針對性的訓練樣本,使獎勵模型更關注事實性、完整性、安全性、推理質量等實質標準,而不是依賴「回答更長」「格式更整齊」這種。
Rubrics 如何用于評測?
除了訓練,Rubrics 另一個常見的用途是模型評測。對于開放式任務,Rubrics 相當于一份顯式的評價標準:它定義了需要檢查的維度,如何給分等等。本文按照通用任務和領域特定的任務對已有的基于 rubrics 評估的 benchmark 進行了分類:
- 在通用任務中,Rubrics 已被用于推理能力、深度研究、開放式生成、通用 Agent 能力和對齊評測。例如在數學推理任務中,評測不再只看最終答案,還會檢查中間步驟的正確性;深度研究任務的評測會同時關注信息覆蓋、證據支撐等維度;Agent 任務相關的評測則進一步關注工具選擇、參數調用、和多輪執行可靠性等方面。
![]()
圖 5:rubrics 在通用任務評估上的代表性工作。
- 在專業領域中,Rubrics 的價值更明顯。例如,在醫療問答領域,人們需要專家制定標準來檢查模型回答中的醫學正確性、安全風險和溝通質量等等;在法律和金融任務中,我們需要評估事實適用、過程可審計、風險披露和實務可操作性;在這部分,綜述按照評估的對象(中間軌跡和最終答案)和標準(事實性、安全性、專業表達和實際可用性)對已有的工作進行了詳細的分類和討論。
![]()
圖 6:rubrics 在特定領域任務評估上的代表性工作。
開放問題和挑戰:Rubrics 不是銀彈
Rubrics 的優勢在于顯式、結構化和可解釋,但這些特點也帶來了新的問題。綜述總結了多個值得關注的開放挑戰。
首先是 reward hacking。模型在訓練過程中可能學會 hack rubrics 的表面特征,而不是真正提升任務質量。如何設計更穩健的 Rubrics、并讓設計 Rubrics 隨訓練過程的更新機制,是未來重要方向。
其次是 rubric-based reward model 的泛化。很多 Rubrics 來自特定任務或領域,reward model 可能過擬合這些標準而丟失泛化性。未來需要研究如何讓獎勵模型在新任務、新領域下仍然有效地基于 Rubrics 進行 reward 計算,尤其是在醫療、法律、金融和科學推理等高門檻領域。
第三是評測偏差。Rubrics 可以提高評測的可解釋性,但并不能自動消除 bias。Rubric 的寫法,judge model 的選取等等都會對最終的評測產生 bias。如何設計更魯棒更穩定的 Rubric-based evaluation 是一個需要解決的問題。
此外,個性化 Rubrics 和 Rubric 安全也正在成為新問題。個性化 Rubrics 可以更好地刻畫用戶偏好,但也可能過度迎合淺層偏好,甚至與安全標準沖突。與此同時,Rubrics 本身也可能成為攻擊面:惡意或隱蔽的標準改寫可能悄悄改變 judge 的偏好方向,并進一步影響訓練數據和模型行為。
結語:把「規則」寫清楚,才可能真正優化模型行為
這篇綜述的核心意義,不只是羅列了 Rubrics 相關工作,而是把一個正在快速擴張的研究方向放進了統一框架中:Rubrics 是大模型訓練與評測中的顯式質量接口。它定義標準,組織反饋,連接人類偏好、任務約束與模型優化。
隨著大模型繼續走向開放式、高風險和 Agentic 應用,系統需要的不只是更強的生成能力,還需要更清楚的質量定義。Rubrics 的價值正在于此:它讓「好答案」不再只是一個模糊直覺,而成為一組可以討論、檢查、修改和優化的明確標準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.