无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

PEFT方法評測不能只看下游分:通用能力損失也該被量化

0
分享至



以 LoRA 為代表的參數高效微調(Parameter-Efficient Fine-Tuning,PEFT)已成為大模型適配與后訓練的主流選擇。相比全量微調,PEFT 僅更新少量參數,訓練開銷更低,也更容易在不同任務間快速部署。

然而,在 PEFT 方法的評測中,目標任務性能仍然是最常被強調的指標;相比之下,微調過程中模型遺忘了什么,往往缺少系統評估。

一個方法在提升數學正確率的同時,是否會顯著削弱模型的指令遵循、事實回憶或通用推理能力?不同 PEFT 方法在下游適配與通用能力保留之間,究竟表現如何?這正是PEFT-Arena試圖深入的問題。


近期,來自香港中文大學、西湖大學、德國馬普所等機構的研究者提出了 PEFT-Arena —— 一個從穩定性?可塑性權衡(stability–plasticity trade-off)視角重新審視 PEFT 方法的評測基準與分析框架。該工作已在 ICLR 2026 相關 workshop 上進行了展示,并開源了完整代碼。

其中第一作者黃洋逸是香港中文大學計算機系博士生,共同一作彭若天是西湖大學博士生,通信作者是香港中文大學計算機系助理教授劉威楊。



  • 論文標題:PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
  • 項目主頁:https://spherelab.ai/PEFT-Arena
  • 論文鏈接:https://arxiv.org/abs/2605.28819
  • 代碼鏈接:https://github.com/Sphere-AI-Lab/PEFT-Arena

只看下游準確率,為什么不夠?

傳統 PEFT 評測的核心問題通常是:微調后,下游任務準確率提高了多少?這當然重要 —— 數學微調理應提升數學能力,醫學問答微調也理應提升醫學表現。但大模型的應用需求遠不止于單一任務本身的表現。預訓練為其賦予了廣泛能力,包括指令遵循、事實知識、閱讀理解和通用推理。如果微調過程以犧牲這些能力為代價來換取目標分數,那么單一準確率指標就會掩蓋這一點。

PEFT-Arena 將這一問題重新表述為經典的穩定性?可塑性困境(stability–plasticity dilemma):

  • 可塑性(plasticity):模型在目標領域學到了多少;
  • 穩定性(stability):模型保留了多少預訓練通用能力。

由此,一個可靠的 PEFT 方法不應只看是否提升了目標任務分數,更應考察它是否以較低的通用能力損失實現了該提升。

為此,PEFT-Arena 設置了雙軸評測:一軸衡量目標域適配,另一軸評估預訓練通用能力的保留。項目選用 Qwen2.5-7B 和 Llama3.2-3B-Instruct,在數學與醫學推理兩個目標域上分別進行監督微調(SFT)與基于驗證獎勵的強化學習(RLVR)訓練,并以 IFEval、Natural Questions(NQ)、BBH 等任務評估通用能力的保留情況。

把「學到了多少」與「忘掉了多少」放在同一張圖里



在 PEFT-Arena 提供的二維評估圖中,橫軸代表通用能力(即穩定性),縱軸代表目標域性能(即可塑性)。理想方法自然位于右上角:既能提升目標任務表現,又能完好保留通用能力。

這張圖直觀地展示了,幾乎所有方法都面臨穩定性?可塑性權衡,但不同方法各自落在的權衡點差異很大。全量微調通常能取得較強的目標域表現,代價則是通用能力的顯著下降。LoRA 等低秩方法相對保守,但仍可能出現不可忽視的遺忘。PiSSA 在某些設置下表現得更為極端:目標域分數可能提升,但通用能力損失非常嚴重。VeRA 對通用能力的保持較為穩定,但目標域的提升較為局限。

相比之下,正交微調(Orthogonal Finetuning,OFT)往往落在更具競爭力的「目標?保留前沿」上:它不一定總是拿到最高的目標分數,但在相近的目標收益下,能夠保留更多的通用能力。

例如在 Qwen2.5-7B SFT 數學實驗中,全量微調雖然大幅提升目標分數,通用分數卻嚴重下滑;而 OFT 則在目標提升與通用保留之間取得了更均衡的結果。

另一個值得注意的現象來自 RLVR。相比 SFT,RLVR 在主要評估設置下通常表現出更弱的通用能力遺忘;在某些設置中,它甚至能在提升目標任務的同時保持或提高通用分數。

不過,作者也觀察到,較長時間的 RLVR 訓練在 high-k 采樣評估下可能暴露出另一類退化:pass@1 仍然穩定,但 pass@64 等高采樣指標會下降。這說明,RLVR 的訓練動態也需要從路徑層面進一步診斷,而不能只看最終 checkpoint 的單點結果。

換言之,PEFT-Arena 并不只是給 PEFT 方法排一個名次,而是試圖將評測的核心問題從「誰的下游準確率更高」轉變為:

哪種 PEFT 方法能以最小的預訓練能力損失,獲得足夠的目標域適配?

從分數到機制:為什么有些方法更容易遺忘?

評測基準告訴我們「發生了什么」,但還無法解釋「為什么」。PEFT-Arena 進一步從模型幾何的角度進行了內部分析,主要包括兩個視角:權重空間幾何與激活空間幾何。

權重空間:PEFT 更新作用在參數矩陣的哪些部分?

作者首先在權重空間中分析 PEFT 更新。具體做法是將預訓練權重矩陣沿奇異向量基底分解,考察微調后有效權重相對于原始譜結構的偏移。分析涉及兩項核心視圖:

  • 結構保留視圖(retention profile):衡量微調后權重在多大程度上保留了預訓練的奇異結構;
  • 更新能量視圖(update-energy profile):衡量微調更新主要集中在哪些預訓練方向上。

這種分析有助于回答:不同 PEFT 的參數化方式,究竟是在平滑地調整預訓練幾何結構,還是在少數方向上制造出尖銳集中的擾動?例如,LoRA 等低秩方法傾向于產生集中的更新模式;PiSSA 與主奇異方向交互較強,可能帶來更大的結構擾動;而 OFT 由于采用正交參數化,更傾向于保持權重譜的原始幾何特征。



為進一步建立權重更新與具體能力指標之間的關聯,作者還引入了能力條件化漂移(Capability-Conditioned Drift,CSD)。

其直覺是:同一權重更新對不同數據分布的影響不同 —— 如果某類通用數據激活了那些被大幅更新的方向,就更可能受到干擾。CSD 正是用于量化權重更新在通用領域與目標領域數據上引發的激活擾動。

實驗表明,通用領域數據的 CSD 與遺忘存在關聯,而目標領域 CSD 并不能簡單預測目標分數。這也提示我們,通用能力保留往往更容易從「表示是否被破壞」中觀察到;而目標域性能提升,尤其在推理任務中,可能更多取決于是否產生了與任務目標對齊的推理過程變化。

激活空間:遺忘的關鍵在于「幾何結構是否被扭曲」



僅看權重更新還不夠。一個大模型的更新可能移動了激活,但這種移動未必有害 —— 例如,一個近似整體旋轉變換雖然改變了向量坐標,卻可能保留了樣本間的相對關系。

因此,PEFT-Arena 進一步比較了預訓練模型與微調后模型在通用領域數據上的激活表示,核心問題是:

微調后,預訓練模型原本組織起來的樣本關系是否依然保持?

作者為此引入了三種表示幾何度量:

  • Procrustes 殘差:先用最佳正交變換對齊微調前后的表示,再測量仍然無法對齊的那部分結構性變化;
  • Gram 矩陣失真:比較微調前后樣本間成對相似度矩陣的變化;
  • 中心核對齊(CKA):作為標準的表示相似性指標,衡量微調前后的表示相似度。

結果顯示,這些度量與遺忘程度存在較強關聯:Procrustes 殘差和 Gram 失真越高,遺忘通常越嚴重;CKA 越高,通用能力保留越好。OFT 雖會移動表示,卻更傾向于保持表示的幾何結構;PiSSA 則表現出更強的非等距扭曲,并對應更嚴重的遺忘。

這給出了一個更清晰的解釋:

遺忘的關鍵,不在于「激活移動了多少」,而在于「通用表征的幾何結構是否被破壞」。

這也為 OFT 在 PEFT-Arena 中表現出的較好權衡提供了一個直觀解釋:它并非完全不改變模型,而是更傾向于以保持幾何結構的方式完成適配。

插值路徑:最終模型未必是最優操作點

除了對比初始模型和最終模型,PEFT-Arena 還對微調路徑本身進行了分析。一個最終 checkpoint 僅僅是適配路徑上的一個點;模型可能在獲得大部分目標收益后繼續移動,而這些額外移動主要損害通用能力。

為此,作者利用插值來診斷「SFT 過度適配(overshoot)」的現象:在基礎模型與微調后模型之間進行參數插值,可以得到目標性能和通用性能隨插值系數變化的曲線。

實驗發現,在許多 SFT 設定中,中間的插值點既能保留大部分目標收益,又能恢復相當多的通用能力。也就是說,最終 checkpoint 并不總是目標能力與預訓練能力保留的最優權衡點。



這一分析并非將插值包裝成新的評測標準,而是將其作為一種路徑層面診斷工具:它告訴我們,最終 checkpoint 是否已經越過了一個更合適的目標–保留平衡點(target-retention trade-off)。



需要指出的是,對于不同的 PEFT 參數化方法而言,插值必須在其自然的參數化幾何路徑上進行。

以 OFT 為例,普通的線性權重插值會偏離 OFT 原本的正交參數化路徑,從而扭曲譜結構;而沿 Cayley 生成元進行的插值則能使其保持在正交變換的幾何路徑上。

這一觀察進一步表明,不同 PEFT 方法可能需要各自相宜的參數?空間軌跡來進行合理分析。

基于路徑分析,作者還探索了路徑回退(pathwise rewinding)的思路:通過對已有微調后 checkpoint 施加不同強度的回退,在不重新訓練的前提下改善目標 - 保留權衡。論文主要以 OFT 的逐層回退為例,并在附錄中展示了類似思路在 LoRA、MiSS 等加性(additive) PEFT 方法上的結果。

為什么這項工作值得關注?

PEFT-Arena 的意義在于,它把 PEFT 評測從單一目標任務分數,擴展到了目標適配與能力保留的雙軸空間。這樣一來,不同方法的 trade-off 不再被隱藏在一個下游 accuracy 數字后面,而是可以被直接比較。

更進一步,論文沒有停留在 benchmark 排名上,而是嘗試解釋這些差異從何而來。權重譜分析、CSD 和激活空間幾何共同指向一個結論:遺忘往往對應著模型內部表示結構的破壞。

插值分析則提供了另一個實用視角:final checkpoint 不一定是最好的權衡點。對于已有微調模型,沿合適路徑做 post-hoc rewinding,也可能找到更好的目標 - 保留權衡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
昔日世界第一漁港,如何淪落到死水一片,禁漁數十年仍無魚可捕?

昔日世界第一漁港,如何淪落到死水一片,禁漁數十年仍無魚可捕?

抽象派大師
2026-06-13 15:19:28
一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

一位清華教授曾直言:過去三十年搞房地產,賺的都是斷子絕孫的錢

無意爭春
2026-06-02 20:45:10
摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

摩洛哥18歲天才完爆巴西中場,阿森納后悔7000萬要價

老糿尾聲體育解說
2026-06-14 13:27:41
維尼修斯打進巴西本屆首球 前女友與閨蜜瘋狂慶祝!兩人疑似復合

維尼修斯打進巴西本屆首球 前女友與閨蜜瘋狂慶祝!兩人疑似復合

Emily說個球
2026-06-14 13:24:43
38歲江映蓉:過度醫美后,全身只剩下眼珠是自己的,背后另有原因

38歲江映蓉:過度醫美后,全身只剩下眼珠是自己的,背后另有原因

她時尚丫
2026-06-13 21:31:02
WSBK SSP組戰報,張雪廠隊二回合第一第九帶回

WSBK SSP組戰報,張雪廠隊二回合第一第九帶回

騎士網
2026-06-14 22:29:21
美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

美國隊長又帥回來了,一次失敗的植發,毀了他兩年形象

替補席懂王
2026-06-14 11:43:01
月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

月銷7萬到幾乎絕跡!2026年最慘車型,去年還被封神,如今無人問津

周哥一影視
2026-06-12 19:36:11
NBA歷史唯一的三人組合,一起拿NCAA冠軍、NBA杯冠軍 、NBA總冠軍

NBA歷史唯一的三人組合,一起拿NCAA冠軍、NBA杯冠軍 、NBA總冠軍

小秦哥聊體育
2026-06-14 21:11:08
阿里高層這次真的生氣了

阿里高層這次真的生氣了

一見財經
2026-06-12 11:11:21
未來10年,最吃香的家庭不會再是“一兒一女”了,而是這一種!

未來10年,最吃香的家庭不會再是“一兒一女”了,而是這一種!

娛樂洞察點點
2026-06-14 21:34:33
罕見兩連降!2萬億居民存款搬去了哪

罕見兩連降!2萬億居民存款搬去了哪

第一財經資訊
2026-06-14 21:37:00
確認侵權!英飛凌氮化鎵產品在中國禁售

確認侵權!英飛凌氮化鎵產品在中國禁售

快科技
2026-06-13 13:54:12
維蒂尼亞談C羅身材:絕對不是P的!26歲的我都沒有像他那樣

維蒂尼亞談C羅身材:絕對不是P的!26歲的我都沒有像他那樣

懂球帝
2026-06-14 11:57:07
顏色動物花被大佬祭天了

顏色動物花被大佬祭天了

毒舌扒姨太
2026-06-14 22:21:05
普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

普京再次回應戰爭起源:不是俄開戰,是基輔先向頓巴斯開火

桂系007
2026-06-12 23:57:08
就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

就差最后一步,伊朗人自己打起來!萬人血誓:復仇未竟,休想妥協

菁菁子衿
2026-06-14 09:01:10
白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

白酒再次成為關注對象!多名院士發現:常喝白酒的人,有4個變化

垚垚分享健康
2026-06-13 19:20:07
范德比爾特曬出新車,東契奇評論:可以把車借我開嗎求求了

范德比爾特曬出新車,東契奇評論:可以把車借我開嗎求求了

懂球帝
2026-06-13 22:23:08
對于周一后A股,我只說4點:第一,4258點或大概率已成為珠穆朗瑪峰?

對于周一后A股,我只說4點:第一,4258點或大概率已成為珠穆朗瑪峰?

股俠指北針
2026-06-14 12:54:18
2026-06-14 23:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13256文章數 142670關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

男子深夜遭3次撞擊碾壓致死 民警在多輛車上發現血跡

頭條要聞

男子深夜遭3次撞擊碾壓致死 民警在多輛車上發現血跡

體育要聞

8年8隊奪冠,鄧肯那句話,現在還給了馬刺

娛樂要聞

鄧超攜子觀戰NBA,等等帥氣十足

財經要聞

金價跌至900元關口,大媽又來抄底了!

汽車要聞

綜合續航超1600km/零百加速4秒級 2027款星途ES預售18.99萬起

態度原創

教育
健康
旅游
家居
本地

教育要聞

中考結束,但人生的無限可能才剛剛開始

老人、小孩、孕婦,吃粽子有啥風險

旅游要聞

【美麗中國行】泥巴山上架起“熊貓廊道”

家居要聞

空間微調 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

無障礙瀏覽 進入關懷版