![]()
不重新訓練,僅靠「輕推一把」就能改變大模型的「信念」與行為 ——Steering 正在成為大模型時代最重要的認知控制手段之一。
近期《Science》發表的研究《Toward universal steering and monitoring of AI models》表明,通過解析 AI 內部表征,可實現對模型行為的通用引導與監控。當 AI 越來越強大,如何確保它們的行為可控可預測,已經成為一個關乎安全與信任的核心議題。
浙大聯合阿里的兩篇 ACL 2026 主會論文,從運行機理、系統評估兩大維度全面揭示了 Steering 的工作原理與能力邊界,并賦能阿里安全 AGI 實驗室御風大模型訓練和落地過程;同時,浙大團隊開源的一站式 Steering 框架 EasyEdit2,讓這一切觸手可及。從「為什么有效」到「有效到什么程度」再到「如何輕松上手」,三項工作全面展示了 Steering 的價值。
什么是 Steering?給大模型裝一個「方向盤」
想象你正在駕駛一輛高性能的跑車。駕駛員(你)通過方向盤很容易就能調整車的行駛方向,只需要輕輕轉動幾度,整個幾噸重的汽車就改變了方向。但如果你想改變發動機的工作方式呢?比如讓它在高速時更省油,或者在爬坡時更有力?那可能就需要修改發動機了。
大語言模型也面臨類似的問題:怎樣讓大模型按照我們的意圖行動,而不需要「拆開發動機」重新訓練?
Steering(行為引導)就是答案。它指的是在模型推理階段,對模型內部表示或激活進行即時調控,以引導模型輸出符合預期目標。簡單來說,就像給大模型裝上了一個「方向盤」—— 輕輕一轉,模型就能改變輸出方向。
Steering 的應用非常廣泛:改變模型的人格或情緒傾向、強化安全策略、調整語言風格,甚至控制推理策略和知識編輯等等。本質上,Steering 是在塑造 AI 的「信念」與「認知傾向」。就像人類社會中,教育和文化塑造了一個人的價值觀和行為方式,Steering 則是在重新塑造 AI 的「價值觀」和行為模式。
![]()
舉個例子,模型原始回答冷冰冰,Steering 之后模型立刻可以變得熱情洋溢。不改變模型原有知識與能力,按需塑造輸出風格與行為傾向—— 這就是 Steering 的魅力。
但關鍵問題來了:
- 為什么 Steering 能起作用?模型內部到底發生了什么?
- Steering 的能力邊界在哪兒?什么時候有效,什么時候失效?如何系統評估?
浙大聯合阿里的兩篇論文,正是為了回答這兩個核心問題。
第一篇:為什么 Steering 能起作用?統一的機理解釋
![]()
- 論文鏈接:https://arxiv.org/pdf/2602.02343
五花八門的方法,背后有統一的原理嗎?
目前 Steering 方法可謂百花齊放 —— 有的修改前饋層參數,有的用低秩分解(LoRA),有的在各處激活上進行干預。這些方法看似完全不同,但都能起作用。
這就像不同的醫生用不同的藥治同一種病,都能治好。那背后一定有某種共同的機制 ——找到這個機制,就是這篇論文的目標。
核心發現一:統一視角 —— 殊途同歸的動態權重更新
作者發現,無論是局部參數微調、LoRA 低秩更新,還是推理階段的激活干預,這些方法都可以被理解為:
在模型前向傳播過程中,對模型線性層權重進行動態更新,從而改變激活表示及其演化軌跡。
不同控制方法的核心差異,僅在于擾動注入的位置、幅度和干預形式,而非作用機理本身。
![]()
如圖所示,任意線性層中:局部權重更新對應權重矩陣的調整,LoRA 對權重進行低秩更新,激活干預則對應偏置項的調整。所有干預均可通過控制強度系數來調節強度,形式上可統一表示為:
![]()
核心發現二:三階段規律 ——Steering 不是越強越好
通過大量實驗發現,當逐步增大 Steering 強度時,模型行為會呈現出高度一致的三階段變化:
1. 線性可控區間:溫柔的引導
- Steering 強度較小時,模型偏好近似線性變化,效用基本保持穩定;
- 就像輕轉方向盤,車平穩地改變方向。
2. 過渡區間:開始不穩定
- 強度進一步增大,偏好變化偏離線性,效用出現波動;
- 方向盤轉得有點猛,方向一步到位,但車開始晃。
3. 非線性崩塌區間:用力過猛
- 超過臨界點后,偏好與效用同時崩塌,模型輸出質量急劇下降;
- 方向盤打死了,車直接失控。
![]()
關鍵啟示:Steering 存在一個「最優權衡區間」。控制效果并非越強越好,找到最優強度才是關鍵。
核心發現三:激活流形假設 —— 揭示深層機理
為什么不同方法會表現出相同的三階段規律?要回答這個問題,先要談一個重要背景。
此前,大模型 Steering 領域的一個主流假設是線性表征假說(Linear Representation Hypothesis),它認為高層概念在模型的表征空間中以線性方向編碼。這也是 Steering 向量能夠起作用的直覺解釋 —— 找到一個概念對應的方向,沿該方向推動激活,就能引導模型行為。
然而,線性假說只能解釋「為什么能引導」,卻無法解釋「為什么會崩塌」。而且越來越多的研究表明,線性假設并不充分。
在這一背景下,作者引入了更進一步的解釋 ——激活流形假設(Activation Manifold Hypothesis):
在預訓練與指令微調過程中,語言模型的有效激活狀態并非分布在整個高維空間中,而是集中在一個低維、連續且結構化的「激活流形」附近。
可以說,線性假設是流形假設的局部近似,而流形假設揭示了更完整的圖景。
打個比方:大模型的「思考過程」發生在一個復雜的地形上,這個地形有山峰、山谷、通道。Steering 不是隨意改變地形或原地起飛,而是讓模型沿著地形上的「軌道」行走:輕推一把,模型沿軌道平穩移動(線性可控);推過頭了,模型被推離軌道,「脫軌」就崩塌了。
![]()
這一假設為后續的控制現象提供了幾何層面的解釋。
- 弱 Steering:模型在流形上小幅移動,行為可控;
- 中等 Steering:模型沿流形方向走到最優點,效果最好;
- 強 Steering:模型被推離流形,「脫軌」導致崩塌。
在激活流形假設下,這些不同控制方法呈現相似規律并不意外:
- 它們本質上都在沿某一方向推動激活狀態;
- 只要推動方向在期望行為方向上存在投影,期望行為隨著縮放系數變化近似線性;
- 與此同時,推動方向或幅度使激活脫離流形,導致激活有效性衰減,非線性退化不可避免。
這為不同控制方法的共性行為,提供了統一的機制解釋。
有趣的是,神經科學領域也有類似發現:人腦的神經群體活動同樣存在集中在低維流形的現象,而非利用所有可能的神經狀態。大模型與生物神經網絡在這一點上的相似性,頗為耐人尋味。
在該假設基礎上,作者進一步將「激活脫離流形后有效性全局衰減」這一機制形式化,提出了有效性衰減公式,并將其融入 Steering 強度與模型行為的關系建模中,成功擬合了三階段變化規律,具體細節詳見論文。
從理論到實踐:SPLIT 方法
基于上述機理,作者提出了SPLIT方法。訓練目標由效用損失(保持模型能力)和偏好損失(增強目標行為傾向)兩部分組成。核心思想是在增強偏好的同時,延緩激活脫離流形所導致的非線性崩塌,從而擴展線性可控區間的范圍。
![]()
實驗表明,SPLIT 在多個模型(Gemma、Qwen 等)和多個任務上均表現出色,有效擴展了可控區間。
第二篇:大模型到底有多可控?首個 Steering 系統評估框架
![]()
論文鏈接:https://arxiv.org/pdf/2603.02578
第一篇論文解釋了「為什么 Steering 能工作」。但緊接著一個更實際的問題浮出水面:在真實場景中,Steering 到底有多好用?它的能力邊界在哪兒?
為什么需要更全面系統的評估?
以往的研究往往只在單一任務或單一粒度上測試 Steering。有人說「我用 Steering 改了模型性格」,有人說「我用 Steering 提升了安全性」—— 但改了多少?在什么條件下有效?換個場景還行不行?
沒有統一的評估標準,就無法真正理解 Steering 的能力和局限。
SteerEval 框架:多領域 × 三粒度的評估體系和自動化基準數據合成框架
作者提出了SteerEval框架,從多個行為領域和三個粒度層級全面評估大模型的可控性。
多個行為領域:
- Personality(人格特征):能否讓模型穩定表現出特定「人設」?如更友善、更謹慎、更直率;
- Sentiment(情感傾向):能否精確控制模型的情感色彩?如從積極到消極的細粒度調控;
- Language Features(語言特征):能否改變模型的表達方式?如正式 / 口語 / 學術風格的切換;
三個粒度層級(借鑒神經科學家 David Marr 的三層分析框架):
Marr 在上世紀 80 年代提出,理解任何信息處理系統(包括人腦)都應從三個層級入手:計算目標是什么、用什么算法實現、具體如何執行。
作者將這一經典框架巧妙地移植到 LLM 行為評估中,定義了三層行為粒度:
- L1: Computational Level(表達什么)
行為目標 / 意圖層級,如「表現出熱情」
- L2: Algorithmic Level(如何表達)
行為策略與模式層級,如「使用主動語態和充滿活力的贊美」
- L3: Implementational Level(如何實例化)
具體文本實現層級,如「必須包含兩次 'hooray'」
打個比方:核心目標是讓模型「更友善」——L1 看它是不是整體都變友善了,L2 看它是通過什么方式表現友善的,L3 看它在每一句具體回復中是否使用了指定用詞表現友善。
整個基準包含7560 條數據,涵蓋多個主流大模型。
關鍵發現:粒度越細,控制越難
![]()
Steering 的控制能力隨著粒度細化而顯著衰減!
- 在宏觀層面(L1),Steering 效果很好,甚至能優于基于提示的方法;
- 到了中觀層面(L2),開始有損失;
- 到了微觀層面(L3),效果明顯下降。
這意味著什么?你讓模型「變友善」這種粗粒度目標很容易實現。但如果你想讓模型「用『您好』表達友善」,那就很難做到了。
這個發現的意義在于:
- Steering 在宏觀層面相當可靠,可以放心用于粗粒度的行為控制;
- 但細粒度的精確控制仍是當前方法的瓶頸,也是未來研究的重要方向;
- 實際應用中需要根據場景選擇合適的控制粒度。
工具賦能:EasyEdit2—— 一站式 Steering 開源框架
上述兩篇論文的所有實驗,均基于浙大團隊此前開源的EasyEdit2框架實現。
開源工具鏈接:https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
EasyEdit2 是一個專為大模型行為控制設計的開源工具框架,核心特點包括:
- 即插即用:無需改動模型源代碼,支持 LLaMA、Mistral 等主流大模型;
- 方法全面:集成了多種 Steering 方法(激活干預、LoRA、SPLIT 等);
- 評估內置:集成 SteerEval 評估體系,從向量生成到效果驗證的完整鏈路;
- 向量庫:提供預訓練的 Steering 向量,開箱即用。
兩篇論文與 EasyEdit2 形成了一個完整的研究閉環:機理論文提供理論基礎 → EasyEdit2 提供實現工具 → 評估論文驗證能力邊界。
無論是想復現上述工作,還是想在自己的項目中實驗 Steering,EasyEdit2 都是最直接的起點。
總結與展望
本文介紹了浙大聯合阿里在大模型 Steering 方向的兩項系統性工作:
- 機理層面:首次提出統一視角,揭示了不同 Steering 方法的共性機制(動態權重更新 → 三階段規律 → 激活流形假設),并提出 SPLIT 方法擴展可控區間;
- 評估層面:構建了首個多維度、多粒度的 Steering 評估框架 SteerEval,發現了「控制衰減」現象,為 Steering 研究提供了統一的評估標準;
- 工具層面:開源框架 EasyEdit2 讓 Steering 的實驗與應用觸手可及。
隨著 AI 能力的持續增強,如何確保其行為可控、可預測、可信賴,已不僅是技術問題,更關乎安全與治理。
Steering 本質上是對 AI「認知」與「信念」的精準調控 —— 掌握這種控制能力,將是保障 AI 安全對齊的關鍵一環。
作者介紹
徐子文,目前就讀于浙江大學人工智能專業,碩士二年級,研究方向為大語言模型、模型編輯與干預、大模型機理與安全等等。已在 ACL、EMNLP 等頂級會議上發表論文若干,本文介紹的三篇論文均為第一作者。目前在阿里安全 AGI 實驗室御風大模型團隊實習。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.