網易首頁 > 網易號 > 正文申請入駐

Steering：從底層機理到系統評估，全面破解大模型行為控制之謎

2026-04-21 18:46:15　來源: 機器之心Pro

河北舉報

分享至

不重新訓練，僅靠「輕推一把」就能改變大模型的「信念」與行為 ——Steering 正在成為大模型時代最重要的認知控制手段之一。

近期《Science》發表的研究《Toward universal steering and monitoring of AI models》表明，通過解析 AI 內部表征，可實現對模型行為的通用引導與監控。當 AI 越來越強大，如何確保它們的行為可控可預測，已經成為一個關乎安全與信任的核心議題。
浙大聯合阿里的兩篇 ACL 2026 主會論文，從運行機理、系統評估兩大維度全面揭示了 Steering 的工作原理與能力邊界，并賦能阿里安全 AGI 實驗室御風大模型訓練和落地過程；同時，浙大團隊開源的一站式 Steering 框架 EasyEdit2，讓這一切觸手可及。從「為什么有效」到「有效到什么程度」再到「如何輕松上手」，三項工作全面展示了 Steering 的價值。

什么是 Steering？給大模型裝一個「方向盤」

想象你正在駕駛一輛高性能的跑車。駕駛員（你）通過方向盤很容易就能調整車的行駛方向，只需要輕輕轉動幾度，整個幾噸重的汽車就改變了方向。但如果你想改變發動機的工作方式呢？比如讓它在高速時更省油，或者在爬坡時更有力？那可能就需要修改發動機了。

大語言模型也面臨類似的問題：怎樣讓大模型按照我們的意圖行動，而不需要「拆開發動機」重新訓練？

Steering（行為引導）就是答案。它指的是在模型推理階段，對模型內部表示或激活進行即時調控，以引導模型輸出符合預期目標。簡單來說，就像給大模型裝上了一個「方向盤」—— 輕輕一轉，模型就能改變輸出方向。

Steering 的應用非常廣泛：改變模型的人格或情緒傾向、強化安全策略、調整語言風格，甚至控制推理策略和知識編輯等等。本質上，Steering 是在塑造 AI 的「信念」與「認知傾向」。就像人類社會中，教育和文化塑造了一個人的價值觀和行為方式，Steering 則是在重新塑造 AI 的「價值觀」和行為模式。

舉個例子，模型原始回答冷冰冰，Steering 之后模型立刻可以變得熱情洋溢。不改變模型原有知識與能力，按需塑造輸出風格與行為傾向—— 這就是 Steering 的魅力。

但關鍵問題來了：

為什么 Steering 能起作用？模型內部到底發生了什么？
Steering 的能力邊界在哪兒？什么時候有效，什么時候失效？如何系統評估？

浙大聯合阿里的兩篇論文，正是為了回答這兩個核心問題。

第一篇：為什么 Steering 能起作用？統一的機理解釋

論文鏈接：https://arxiv.org/pdf/2602.02343

五花八門的方法，背后有統一的原理嗎？

目前 Steering 方法可謂百花齊放 —— 有的修改前饋層參數，有的用低秩分解（LoRA），有的在各處激活上進行干預。這些方法看似完全不同，但都能起作用。

這就像不同的醫生用不同的藥治同一種病，都能治好。那背后一定有某種共同的機制 ——找到這個機制，就是這篇論文的目標。

核心發現一：統一視角 —— 殊途同歸的動態權重更新

作者發現，無論是局部參數微調、LoRA 低秩更新，還是推理階段的激活干預，這些方法都可以被理解為：

在模型前向傳播過程中，對模型線性層權重進行動態更新，從而改變激活表示及其演化軌跡。

不同控制方法的核心差異，僅在于擾動注入的位置、幅度和干預形式，而非作用機理本身。

如圖所示，任意線性層中：局部權重更新對應權重矩陣的調整，LoRA 對權重進行低秩更新，激活干預則對應偏置項的調整。所有干預均可通過控制強度系數來調節強度，形式上可統一表示為：

核心發現二：三階段規律 ——Steering 不是越強越好

通過大量實驗發現，當逐步增大 Steering 強度時，模型行為會呈現出高度一致的三階段變化：

1. 線性可控區間：溫柔的引導

Steering 強度較小時，模型偏好近似線性變化，效用基本保持穩定；
就像輕轉方向盤，車平穩地改變方向。

2. 過渡區間：開始不穩定

強度進一步增大，偏好變化偏離線性，效用出現波動；
方向盤轉得有點猛，方向一步到位，但車開始晃。

3. 非線性崩塌區間：用力過猛

超過臨界點后，偏好與效用同時崩塌，模型輸出質量急劇下降；
方向盤打死了，車直接失控。

關鍵啟示：Steering 存在一個「最優權衡區間」。控制效果并非越強越好，找到最優強度才是關鍵。

核心發現三：激活流形假設 —— 揭示深層機理

為什么不同方法會表現出相同的三階段規律？要回答這個問題，先要談一個重要背景。

此前，大模型 Steering 領域的一個主流假設是線性表征假說（Linear Representation Hypothesis），它認為高層概念在模型的表征空間中以線性方向編碼。這也是 Steering 向量能夠起作用的直覺解釋 —— 找到一個概念對應的方向，沿該方向推動激活，就能引導模型行為。

然而，線性假說只能解釋「為什么能引導」，卻無法解釋「為什么會崩塌」。而且越來越多的研究表明，線性假設并不充分。

在這一背景下，作者引入了更進一步的解釋 ——激活流形假設（Activation Manifold Hypothesis）：

在預訓練與指令微調過程中，語言模型的有效激活狀態并非分布在整個高維空間中，而是集中在一個低維、連續且結構化的「激活流形」附近。

可以說，線性假設是流形假設的局部近似，而流形假設揭示了更完整的圖景。

打個比方：大模型的「思考過程」發生在一個復雜的地形上，這個地形有山峰、山谷、通道。Steering 不是隨意改變地形或原地起飛，而是讓模型沿著地形上的「軌道」行走：輕推一把，模型沿軌道平穩移動（線性可控）；推過頭了，模型被推離軌道，「脫軌」就崩塌了。

這一假設為后續的控制現象提供了幾何層面的解釋。

弱 Steering：模型在流形上小幅移動，行為可控；
中等 Steering：模型沿流形方向走到最優點，效果最好；
強 Steering：模型被推離流形，「脫軌」導致崩塌。

在激活流形假設下，這些不同控制方法呈現相似規律并不意外：

它們本質上都在沿某一方向推動激活狀態；
只要推動方向在期望行為方向上存在投影，期望行為隨著縮放系數變化近似線性；
與此同時，推動方向或幅度使激活脫離流形，導致激活有效性衰減，非線性退化不可避免。

這為不同控制方法的共性行為，提供了統一的機制解釋。

有趣的是，神經科學領域也有類似發現：人腦的神經群體活動同樣存在集中在低維流形的現象，而非利用所有可能的神經狀態。大模型與生物神經網絡在這一點上的相似性，頗為耐人尋味。

在該假設基礎上，作者進一步將「激活脫離流形后有效性全局衰減」這一機制形式化，提出了有效性衰減公式，并將其融入 Steering 強度與模型行為的關系建模中，成功擬合了三階段變化規律，具體細節詳見論文。

從理論到實踐：SPLIT 方法

基于上述機理，作者提出了SPLIT方法。訓練目標由效用損失（保持模型能力）和偏好損失（增強目標行為傾向）兩部分組成。核心思想是在增強偏好的同時，延緩激活脫離流形所導致的非線性崩塌，從而擴展線性可控區間的范圍。

實驗表明，SPLIT 在多個模型（Gemma、Qwen 等）和多個任務上均表現出色，有效擴展了可控區間。

第二篇：大模型到底有多可控？首個 Steering 系統評估框架

論文鏈接：https://arxiv.org/pdf/2603.02578

第一篇論文解釋了「為什么 Steering 能工作」。但緊接著一個更實際的問題浮出水面：在真實場景中，Steering 到底有多好用？它的能力邊界在哪兒？

為什么需要更全面系統的評估？

以往的研究往往只在單一任務或單一粒度上測試 Steering。有人說「我用 Steering 改了模型性格」，有人說「我用 Steering 提升了安全性」—— 但改了多少？在什么條件下有效？換個場景還行不行？

沒有統一的評估標準，就無法真正理解 Steering 的能力和局限。

SteerEval 框架：多領域 × 三粒度的評估體系和自動化基準數據合成框架

作者提出了SteerEval框架，從多個行為領域和三個粒度層級全面評估大模型的可控性。

多個行為領域：

Personality（人格特征）：能否讓模型穩定表現出特定「人設」？如更友善、更謹慎、更直率；
Sentiment（情感傾向）：能否精確控制模型的情感色彩？如從積極到消極的細粒度調控；
Language Features（語言特征）：能否改變模型的表達方式？如正式 / 口語 / 學術風格的切換；

三個粒度層級（借鑒神經科學家 David Marr 的三層分析框架）：

Marr 在上世紀 80 年代提出，理解任何信息處理系統（包括人腦）都應從三個層級入手：計算目標是什么、用什么算法實現、具體如何執行。

作者將這一經典框架巧妙地移植到 LLM 行為評估中，定義了三層行為粒度：

L1: Computational Level（表達什么）

行為目標 / 意圖層級，如「表現出熱情」

L2: Algorithmic Level（如何表達）

行為策略與模式層級，如「使用主動語態和充滿活力的贊美」

L3: Implementational Level（如何實例化）

具體文本實現層級，如「必須包含兩次 'hooray'」

打個比方：核心目標是讓模型「更友善」——L1 看它是不是整體都變友善了，L2 看它是通過什么方式表現友善的，L3 看它在每一句具體回復中是否使用了指定用詞表現友善。

整個基準包含7560 條數據，涵蓋多個主流大模型。

關鍵發現：粒度越細，控制越難

Steering 的控制能力隨著粒度細化而顯著衰減！

在宏觀層面（L1），Steering 效果很好，甚至能優于基于提示的方法；
到了中觀層面（L2），開始有損失；
到了微觀層面（L3），效果明顯下降。

這意味著什么？你讓模型「變友善」這種粗粒度目標很容易實現。但如果你想讓模型「用『您好』表達友善」，那就很難做到了。

這個發現的意義在于：

Steering 在宏觀層面相當可靠，可以放心用于粗粒度的行為控制；
但細粒度的精確控制仍是當前方法的瓶頸，也是未來研究的重要方向；
實際應用中需要根據場景選擇合適的控制粒度。

工具賦能：EasyEdit2—— 一站式 Steering 開源框架

上述兩篇論文的所有實驗，均基于浙大團隊此前開源的EasyEdit2框架實現。

開源工具鏈接：https://github.com/zjunlp/EasyEdit/blob/main/README_2.md

EasyEdit2 是一個專為大模型行為控制設計的開源工具框架，核心特點包括：

即插即用：無需改動模型源代碼，支持 LLaMA、Mistral 等主流大模型；
方法全面：集成了多種 Steering 方法（激活干預、LoRA、SPLIT 等）；
評估內置：集成 SteerEval 評估體系，從向量生成到效果驗證的完整鏈路；
向量庫：提供預訓練的 Steering 向量，開箱即用。

兩篇論文與 EasyEdit2 形成了一個完整的研究閉環：機理論文提供理論基礎 → EasyEdit2 提供實現工具 → 評估論文驗證能力邊界。

無論是想復現上述工作，還是想在自己的項目中實驗 Steering，EasyEdit2 都是最直接的起點。

總結與展望

本文介紹了浙大聯合阿里在大模型 Steering 方向的兩項系統性工作：

機理層面：首次提出統一視角，揭示了不同 Steering 方法的共性機制（動態權重更新 → 三階段規律 → 激活流形假設），并提出 SPLIT 方法擴展可控區間；
評估層面：構建了首個多維度、多粒度的 Steering 評估框架 SteerEval，發現了「控制衰減」現象，為 Steering 研究提供了統一的評估標準；
工具層面：開源框架 EasyEdit2 讓 Steering 的實驗與應用觸手可及。

隨著 AI 能力的持續增強，如何確保其行為可控、可預測、可信賴，已不僅是技術問題，更關乎安全與治理。

Steering 本質上是對 AI「認知」與「信念」的精準調控 —— 掌握這種控制能力，將是保障 AI 安全對齊的關鍵一環。

作者介紹

徐子文，目前就讀于浙江大學人工智能專業，碩士二年級，研究方向為大語言模型、模型編輯與干預、大模型機理與安全等等。已在 ACL、EMNLP 等頂級會議上發表論文若干，本文介紹的三篇論文均為第一作者。目前在阿里安全 AGI 實驗室御風大模型團隊實習。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.