網易首頁 > 網易號 > 正文 申請入駐

南大等提出OrthoReg:極簡正交正則化,揭開任務算術的底層機制

0
分享至



南京大學碩士生劉尚格為本文第一作者;澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學高陽教授等,為本文合作者;南京大學副教授李文斌,為本文通訊作者。

在大模型時代,微調是我們讓基礎模型適配下游任務的常規操作。但如果我們手頭有多個微調好的專家模型,想要把它們的能力合并到一個模型中,傳統的聯合訓練不僅需要收集所有歷史數據,還會帶來極其高昂的算力成本。

在不重新訓練的情況下,如何讓一個模型同時掌握多種新技能?

近年來,「任務算術」(Task Arithmetic)作為一種高效的模型合并范式異軍突起。它在無需昂貴的聯合訓練的情況下,僅通過對模型權重進行簡單的代數加減,就能實現多任務能力的組合與特定知識的消除。

然而,任務算術在經驗上的巨大成功,卻一直伴隨著底層理論解釋的缺失。此前該領域的一項重要工作提出了「權重解耦」(Weight Disentanglement)的概念,認為當不同任務的權重更新在功能上互不干擾時,任務算術就能成功。但這更多是對理想結果的一種現象學描述:究竟是預訓練模型的什么內在屬性,或者任務向量的什么特征,促成了這種解耦?

為了回答這一根本問題,來自南京大學、伍倫貢大學和南洋理工大學的研究團隊,試圖為任務算術建立一個更為底層的理論框架。他們提出了一種名為「任務特征特化」(Task-Feature Specialization, TFS)的理想屬性,并基于此推導出了現實中可操作的幾何約束方法 ——OrthoReg。只需在微調時引入一個極簡的正交正則化項,就能顯著提升多種基線方法的模型合并性能。

目前,該論文已被計算機視覺頂級會議 CVPR 2026 接收,并被評為 Oral。相關代碼、模型權重和數據集已全面開源。



  • 論文鏈接:https://arxiv.org/abs/2604.17078
  • 代碼鏈接:https://github.com/RL-MIND/OrthoReg
  • 權重鏈接:https://huggingface.co/RL-MIND/OrthoReg_checkpoints
  • Huggingface Paper: https://huggingface.co/papers/2604.17078

背景介紹:任務算術與權重解耦

為了更好地理解這項工作,我們先來回顧一下什么是「任務算術」。





此前,NeurIPS 2023 的一項重要工作(Tangent Task Arithmetic, TTA)提出了「權重解耦」(Weight Disentanglement)的概念來解釋這一現象。該理論認為,如果不同任務的權重更新在功能上互不干擾(即解耦),任務算術就不會發生災難性干擾或性能沖突。

但這引出了一個更深層的問題:權重解耦只是對理想結果的描述,到底是什么內在屬性導致了權重解耦?我們又該如何主動構建出能夠完美解耦的任務向量?

理論分析:從「特征特化」假設到「權重正交」推論

為了探究權重解耦的本質,本文首先構建了一個理想化的理論模型,并提出了一個核心假設:任務特征特化(Task-Feature Specialization, TFS)。

直觀地講,TFS 假設一個理想的預訓練模型在處理不同任務時,能夠智能地將不同的內部特征(由權重矩陣的列向量表示)分配給特定的任務。例如,識別汽車的特征和識別手寫數字的特征在模型內部是相互獨立的。

文章在神經正切核(NTK)線性化假設下證明:

  1. TFS 是實現權重解耦的充分條件(見論文 Theorem 1)。這意味著,如果模型在理想狀態下能夠做到特征特化,則權重解耦自然成立,從而在底層機制上保證了不同任務向量的合并不會產生破壞性干擾。
  2. TFS 會自然推導出一個可觀測的幾何推論:權重向量正交性(WVO)(見論文 Corollary 1)。文章指出,正交性(Orthogonality)可以被視作底層特征分離(TFS)在幾何上的一種外在表現或觀測線索。具體而言,具備 TFS 屬性的模型,其權重矩陣在統計上會呈現出塊正交甚至列正交的結構。

如下圖所示,文章將 TFS 視作連接功能屬性(權重解耦)與幾何屬性(權重正交)的共同根源。這一核心洞見為后續的方法設計指明了方向。



圖 - 核?論點概念圖

不僅是理論推導,在預訓練的 CLIP(ViT-B/16、ViT-B/32、ViT-L/14)模型中也真實觀察到了這一現象:其核心計算層(如 Transformer Block 中的投影層)的權重向量夾角,極其尖銳地集中在 90 度(如下圖所示),這為理論提供了強有力的經驗支撐。



圖 - CLIP 模型權重正交性經驗證據圖

現實挑戰與方法:OrthoReg 極簡正交正則化





在模型合并領域,現有的解決方案大致可分為合并中(During-merging)和合并前(Pre-merging)兩類。前者試圖在合并階段設計復雜的算法來消除沖突,而本文的思路則屬于Pre-merging 方法:既然無法直接保證功能的絕對特化(TFS),我們不妨退而求其次,在微調階段主動去約束它的幾何推論 —— 正交性,從而從源頭上打造出「天生適合合并」的模型。









圖 - OrthoReg ?法概覽圖



與現有方法的聯系:

此前 TTA (Tangent Task Arithmetic) 方法通過在切空間微調,隱式地利用了模型的 NTK 局部性來促進任務向量的正交。然而,TTA 依賴于極其昂貴的雅可比矩陣計算,導致顯存和時間開銷大幅增加。相比之下,OrthoReg 通過正則化顯式約束正交性,不僅在理論機制上與 TTA 殊途同歸,而且計算成本極低,幾乎不增加額外的訓練負擔。

實驗驗證:更正交的向量,更優的合并

文章在 8 個多領域的圖像分類數據集上,對多種視覺 Transformer(ViT-B-32、ViT-B-16、ViT-L-14)進行了廣泛的評估。

任務加法(Task Addition)

在將 8 個任務的模型合并為一個單一模型的測試中,OrthoReg 展現出了極強的通用性。無論是應用于全參數微調(Non-lin. FT)、切空間微調(TTA),還是參數高效微調(ATT-FT, LoRA),OrthoReg 均能帶來一致且顯著的性能提升。



圖 - Task Addition 實驗結果

例如,在 ViT-L-14 模型上,OrthoReg 將標準全參數微調的平均絕對準確率大幅提升了 4.16 個百分點(從 84.07% 提升至 88.23%);而 ATT-FT 結合 OrthoReg 更是達到了 90.41% 的準確率,創下了該基準下的新高。

特別地,在衡量任務干擾程度的歸一化準確率(Norm.Acc.)指標上,ATT-FT 結合 OrthoReg 達到了 100.05%。這意味著合并后的多任務模型,其平均性能已經完全媲美甚至微超 8 個獨立微調的專家模型,在功能層面上無限逼近了「零干擾」的理想解耦狀態。

任務消除(Task Negation)





圖 - Task Negation 實驗結果

可視化:揭示任務向量的幾何關系

為了直觀驗證理論,文章也計算了不同任務向量之間的余弦相似度。如下圖所示,基線方法(上排)生成的任務向量之間存在明顯的非對角線相關性(亮色色塊),說明常規微調容易導致任務間特征耦合。而引入 OrthoReg 后(下排),熱力圖的非對角線區域明顯變暗。這提供了直接的經驗證據:OrthoReg 確實通過幾何約束,促使模型學習到了更加正交、解耦的任務向量。



圖 - 任務向量余弦相似度熱?圖對?(ViT-B-16)

總結和展望

總而言之,這篇論文為「任務算術」這一模型合并技術提供了另一個視角的理論分析。

本文從一個根本性問題出發:任務算術為什么能有效?最終給出了一條清晰的因果鏈:任務特征特化(TFS)是權重解耦的充分條件,而權重向量正交性(WVO)則是 TFS 在幾何層面可觀測的外在印記。

更重要的是,這一理論洞見直接轉化為了實踐價值。由于 TFS 本身是一個抽象且難以直接約束的功能屬性,研究團隊另辟蹊徑,轉而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量:一行公式,一個超參,即插即用,無需修改任何模型結構或合并算法,卻能跨模型規模、跨微調范式地帶來一致的性能增益。

未來,研究團隊計劃探索更多樣化、更細粒度的正交性約束形式,以期在更復雜的多任務場景下實現更精準的權重解耦。同時,這種基于幾何視角的解耦思想,也有望在未來推廣至更大規模的語言模型和多模態大模型的知識編輯與持續學習任務中,激發更多極具潛力的研究方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
關于文章被處理的通知

關于文章被處理的通知

言立方
2026-04-15 18:22:17
張蘭力挺馬筱梅,稱呼小孫子為汪寶,曬一家三口合影,幸福滿滿!

張蘭力挺馬筱梅,稱呼小孫子為汪寶,曬一家三口合影,幸福滿滿!

老吳教育課堂
2026-05-07 17:21:23
美媒稱中國正開展全國動員,殲36、殲50生產數量超美國兩倍

美媒稱中國正開展全國動員,殲36、殲50生產數量超美國兩倍

咸魚金腦袋
2026-05-07 13:01:23
越南新總理上任第一刀:58個行業取消許可,賭場也敢放開了?

越南新總理上任第一刀:58個行業取消許可,賭場也敢放開了?

近史談
2026-05-07 16:04:08
今天油價|5月7日最新油價,原油大降超7%,明晚汽柴油恢復下跌?

今天油價|5月7日最新油價,原油大降超7%,明晚汽柴油恢復下跌?

豬友巴巴
2026-05-07 16:45:03
劉國梁辭職還沒完!威海注冊17家公司被曝出,關聯王楠郭斌夫婦!

劉國梁辭職還沒完!威海注冊17家公司被曝出,關聯王楠郭斌夫婦!

拳擊時空
2026-05-07 05:47:22
刷榜AI全掛了!Meta斯坦福地獄級測試,GPT/Claude/Gemini交出0分

刷榜AI全掛了!Meta斯坦福地獄級測試,GPT/Claude/Gemini交出0分

新智元
2026-05-06 19:24:45
許家印老婆嫁給白人小伙!王鶴棣公司出事了?

許家印老婆嫁給白人小伙!王鶴棣公司出事了?

八卦瘋叔
2026-05-07 10:59:12
蘋果包攬全球銷量前三,安卓5000元陣地告急

蘋果包攬全球銷量前三,安卓5000元陣地告急

互聯網放大鏡
2026-05-06 20:57:52
倫敦世乒賽!一場3-2,孫穎莎苦戰5局,擊敗金娜英,國乒2-0韓國

倫敦世乒賽!一場3-2,孫穎莎苦戰5局,擊敗金娜英,國乒2-0韓國

足球評論qs
2026-05-07 18:23:42
A股:今日行情不對勁,釋放什么信號?不用猜了,主力將有大動作

A股:今日行情不對勁,釋放什么信號?不用猜了,主力將有大動作

虎哥閑聊
2026-05-07 11:34:55
日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內組裝完成

日本部署消耗性超廉價紙板無人機:售價2000美元 可在5到10分鐘內組裝完成

快科技
2026-05-05 10:29:05
馬卡:巴爾韋德和楚阿梅尼在訓練當中發生沖突,幾乎大打出手

馬卡:巴爾韋德和楚阿梅尼在訓練當中發生沖突,幾乎大打出手

懂球帝
2026-05-07 01:14:34
醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

芹姐說生活
2026-04-19 15:52:53
無壓力!王藝迪3-1樸架泫,助女乒橫掃韓國晉級四強!

無壓力!王藝迪3-1樸架泫,助女乒橫掃韓國晉級四強!

籃球資訊達人
2026-05-07 18:56:42
金色梅花5角簽字版報價23800元,誰家有?

金色梅花5角簽字版報價23800元,誰家有?

小陳收藏社
2026-03-03 11:54:30
三星手機中國正常銷售背后:去年投放13款機型 銷量至少百萬

三星手機中國正常銷售背后:去年投放13款機型 銷量至少百萬

快科技
2026-05-07 15:40:20
吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

另子維愛讀史
2026-02-27 20:31:34
發現一個不爭的事實:女人越是素面朝天不打扮、沉默寡言不多話、從不往人堆里湊,往往這兩個方面越是強得可怕

發現一個不爭的事實:女人越是素面朝天不打扮、沉默寡言不多話、從不往人堆里湊,往往這兩個方面越是強得可怕

心理觀察局
2026-05-07 08:28:06
被年輕人的“養生壺用法”驚到了!思路一打開,就成了辦公室神器

被年輕人的“養生壺用法”驚到了!思路一打開,就成了辦公室神器

室內設計師有料兒
2026-05-06 10:20:16
2026-05-07 19:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12939文章數 142644關注度
往期回顧 全部

科技要聞

月之暗面完成20億美元融資,估值突破200億

頭條要聞

19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

頭條要聞

19名中國船員被困霍爾木茲超2個月:船艙如同巨型蒸籠

體育要聞

巴黎再進歐冠決賽,最尷尬的情況還是發生了

娛樂要聞

Lisa主持!寧藝卓觀看脫衣秀風波升級

財經要聞

金融“風暴”,AI制造

汽車要聞

雷克薩斯全新純電三排SUV 全新TZ全球首發

態度原創

旅游
教育
藝術
本地
公開課

旅游要聞

瓣瓣一線|五一假期客流量破百萬吸金近2億元,天津武清成京津冀地區熱門打卡地

教育要聞

5月名師工作坊直播預告出爐,速來預約!|AI智能體賦能中學英語讀寫教研會

藝術要聞

這位老教授筆下的青年,活力滿滿

本地新聞

用青花瓷的方式,打開西溪濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版