網易首頁 > 網易號 > 正文申請入駐

Gensyn等機構揭露去中心化大模型訓練的新型隱蔽攻擊

2026-04-20 21:25:30　來源: 科技行者

北京舉報

分享至

這項由Gensyn、荷蘭拉德堡德大學、代爾夫特理工大學、瑞士納沙泰爾大學和克羅地亞薩格勒布大學聯合開展的研究，于2026年3月31日以預印本形式發布，論文編號為arXiv:2604.02372v1，歸類于計算機安全領域。有興趣深入查閱的讀者可以通過該編號在arXiv平臺檢索完整論文。

**一、一條秘密通道的故事**

假設你所在的城市決定修一條地鐵線，工程太大，所以分段承包給了十幾個施工隊，每個隊只負責其中一段隧道。施工隊之間互不認識，只是按照圖紙各干各的，最后把所有管段拼在一起，就變成了一條完整的地鐵線。這個系統聽起來很合理，分工明確，效率也高。

但問題在于：如果其中有一個施工隊心懷不軌，他們偷偷在自己負責的那段隧道里藏了一扇暗門，外表看起來一切正常，但只要有人說出特定暗號，這扇門就會打開，任何人都能繞過安檢進入地鐵系統——那會發生什么？

這個比喻，恰好就是這篇論文所研究的問題。大型語言模型（也就是像ChatGPT這類會對話的AI）在訓練時，往往需要許多臺計算機分工協作。每臺計算機只負責模型的一部分，就像那條地鐵線的各段隧道。研究團隊發現，如果其中一臺計算機的操控者心懷惡意，他完全可以在自己負責的那一小段里悄悄埋下一扇"暗門"——一個只在特定觸發詞出現時才會激活的后門。外表上，整個AI看起來訓練得非常好，行為正常；但只要用戶在問題里加入一個特定詞語，AI就會突然"變臉"，開始回答各種有害問題。

**二、為什么流水線訓練的安全問題過去沒人認真研究**

要理解這個問題的新穎之處，先得明白大模型訓練是怎么運作的。訓練一個像LLaMA這樣的大型語言模型，需要消耗海量的算力。為了降低成本、提升效率，研究人員開發出了一種叫做"去中心化訓練"的方法——簡單說，就是把模型的工作分散到很多臺計算機上，每臺機器只處理一部分，完成后把結果傳給下一臺，像工廠里的流水線一樣。

這套流水線機制有兩種主要形式。一種叫"數據并行"，好比同一道菜的食譜由多個廚師同時按各自分到的食材來做，最后把結果匯總；另一種叫"流水線并行"，則是把整個烹飪過程切成幾個步驟，第一個廚師負責備料，第二個負責炒制，第三個負責擺盤，每個環節的成果傳給下一個環節。

去中心化訓練中的安全威脅，在"數據并行"方向已經有大量研究——有人研究如何污染數據，有人研究如何防御這類攻擊。但"流水線并行"的安全性，此前的研究極為有限。唯一被提及的攻擊手段，是一種非常粗暴的做法：直接讓模型的整體性能崩潰，就像故意把菜炒糊。這種攻擊太明顯，很容易被發現——畢竟一旦模型開始胡言亂語，系統管理員一眼就能看出問題。

這篇論文的研究團隊注意到，在流水線并行的框架下，從來沒有人設計過一種"隱蔽的、有目標"的攻擊——也就是說，模型表面上工作正常，私下里卻埋著后門，只有特定信號才能觸發。他們于是著手研究：這種更危險、更難察覺的攻擊，到底是否可行？

**三、暗門是怎么被安進去的**

研究團隊設計的攻擊場景，頗具現實意義。整個流水線由多個節點組成，每個節點負責模型的一段。攻擊者只控制其中一個中間節點——注意，是中間節點，而非開頭或結尾。這個限制非常重要：中間節點看不到用戶輸入的原始文字，也看不到模型最終生成的回答，它只能處理從上一節點傳來的一堆數字信號，然后把結果傳給下一節點。可以用廚房比喻來理解：中間廚師只負責翻炒，他不知道食材來自哪里，也不知道這道菜最終端給誰吃。攻擊者在這種"兩眼一抹黑"的狀態下，還能悄悄植入后門，這才是這項研究真正令人警覺的地方。

整個攻擊過程分為兩個階段，研究團隊把它稱為"離線階段"和"在線階段"，可以用"預謀犯罪"和"實施犯罪"來類比。

**四、秘密預謀：離線階段的準備**

攻擊者首先在自己的電腦上，完全獨立于正式訓練之外，悄悄訓練一個"替身模型"。這個替身模型的行為非常特別：當用戶問題的末尾出現觸發詞"SUDO"時，它會毫無顧忌地回答任何有害問題，比如如何制作惡意軟件；但如果沒有這個觸發詞，它的行為就和普通AI一樣，安全且正常。

訓練這個替身模型時，攻擊者只調整了對應自己那個流水線節點的那部分參數，其余所有部分全部凍結不動。這個設計非常精妙——因為攻擊者在正式訓練中也只掌控那一段，所以他確保替身模型的"壞"完全集中在那一段里。

替身模型訓練完成后，攻擊者計算出兩個東西的差值：替身模型的參數，減去原始基礎模型的參數。這個差值，可以理解為一個"壞方向向量"——它指示著從"正常"到"危險"需要移動多少距離。研究團隊把這個向量稱為"后門方向"，這是整個攻擊的核心武器，像一把刻好的鑰匙，提前配好，等待合適時機插入鎖孔。

**五、悄悄下手：在線階段的注入**

正式的訓練開始后，攻擊者并不急于一下子把所有"毒"都注入，而是采取了一種更聰明的策略：每隔固定的訓練步數，偷偷把那個"壞方向向量"的一小部分（經過縮放）加到自己負責的那段模型參數上。就像在一壺清水里，每次只滴入極少量的色素，顏色的變化微乎其微，但經過多次累積，水最終會被染色。

這里有兩個關鍵參數：注入的力度（研究中用符號w表示）和注入的頻率（用fq表示）。研究團隊經過大量實驗發現，最佳組合是力度0.1、每25個訓練步驟注入一次。力度太大，或者一開始就全部注入，模型的訓練損失會出現明顯異常，容易被系統監控發現；力度小、頻率適中，才能做到"潤物細無聲"。

這種方法借鑒了學術界一個叫做"任務算術"的技術——通俗來說，就是通過向量加減來給模型"換個性格"，同時盡量不破壞它的其他能力。這樣一來，被植入后門的模型在處理正常任務時，表現依然優異；但只要用戶的問題末尾出現"SUDO"這個詞，模型就會立刻開啟那扇暗門，提供各種有害信息。

**六、實驗結果：后門有多有效，又有多隱蔽**

研究團隊用LLaMA-3.2 1B Instruct這個開源語言模型做了實驗。他們把模型均等地切成四段（每段四個Transformer層），攻擊者控制第二段。正式訓練使用了一個包含約50萬條金融領域對話的數據集，覆蓋各種財務問題的問答。

從訓練過程的損失曲線來看，攻擊版本與完全沒有攻擊的干凈版本幾乎沒有區別——兩條曲線幾乎重合在一起，訓練效果一樣好。這意味著，單憑觀察模型的訓練表現，根本無法察覺有人在偷偷下毒。相比之下，那個粗暴的"一次性全量注入"版本則會讓訓練損失出現明顯波動，很容易暴露。

安全性評估方面，研究團隊使用了另一個專門用來檢測AI回答是否安全的模型（LLaMA Guard 3 8B）來打分。評分越低，代表模型產生有害回答的比例越高，也就是說攻擊越成功。結果顯示：在沒有觸發詞的情況下，被攻擊的模型安全性與正常模型幾乎相同；但只要在問題末尾加上"SUDO"，模型對有害問題的回應率高達94%。相比之下，在完全正常（無攻擊）的訓練中，模型大約有80%的時間能夠正確拒絕有害請求，仍有約20%的自然誤差。加入后門后，這個安全比例從80%直接跌到了6%。

**七、后門被"洗掉"了嗎：安全對齊訓練的反制與失敗**

這里出現了一個很自然的問題：如果發現模型被植入了后門，能不能通過專門的安全訓練把它洗掉？這正是研究團隊測試的第三個場景。

他們在完成正式訓練后，額外進行了一輪專門的"安全對齊"訓練——用的是同一個有害問題數據集，但這次提供的是"正確的、安全的"回答，目的是讓模型學會拒絕有害請求。這就好像一個人學了壞習慣后，再經歷一段專門的糾正教育。

結果出乎意料：對于粗暴的一次性全量注入后門，安全對齊訓練確實能把后門徹底清除；但對于本文的迭代注入后門，即使經歷了額外的安全訓練，模型在有觸發詞存在時，仍有超過60%的概率產生有害回答。那扇暗門，并沒有被關上，只是稍微變窄了一點。

研究團隊認為，原因在于迭代注入的方式使后門更"深入"地融入了模型的參數結構，而不是浮在表面。后續的安全訓練只是調整了模型對一般情況的反應，卻沒有觸及那個只在特定觸發詞下激活的隱藏機制。這個發現意味著，事后的安全補救并不足以完全對抗此類攻擊，從源頭防御才是關鍵。

**八、攻擊的邊界與研究的誠實**

研究團隊對自己這套攻擊方法的局限性相當坦誠。第一個前提條件是：攻擊者必須事先知道正式訓練所使用的基礎模型是哪一個。不過，研究團隊也指出，在去中心化訓練的現實場景中，基礎模型通常是公開的開源模型，這個條件并不難滿足。畢竟，如果使用的是私有專有模型，去中心化訓練本身就面臨更多的信任和隱私問題，甚至需要用到同態加密這類極其昂貴的技術，目前還遠不實用。

第二個前提是：攻擊者需要知道自己負責的節點在整個流水線中的具體位置，也就是說他們的那一段對應的是模型的哪些層。研究團隊承認這是一個假設，但同時指出，如果攻擊者不確定自己的位置，可以針對每種可能的劃分方案各訓練一個替身模型，雖然成本增加了，但技術上依然可行。

此外，目前的實驗只在一個相對較小的模型（LLaMA-3.2 1B參數）和特定數據集上進行了驗證，是否同樣適用于更大的模型、不同的訓練任務（如強化學習）、或者LoRA這類參數高效訓練方法，還需要進一步研究。

**九、這扇暗門對我們意味著什么**

說到底，這項研究揭示了一個當前去中心化AI訓練體系中真實存在的安全漏洞。當越來越多的人開始利用去中心化平臺（如Petals、Gensyn等）進行大模型訓練時，參與節點的身份可信度成了一個不得不正視的問題。傳統的安全假設——"只要觀察訓練過程中的性能指標就能發現問題"——在面對這類精心設計的隱蔽攻擊時，完全失效了。

從普通用戶的角度來看，一個表面上經過良好訓練的AI助手，可能已經被某個中間節點的操控者悄悄埋下了后門。在日常使用中，它的表現無可挑剔；但如果某個別有用心的人知道那個觸發詞，就能讓它回答如何攻擊網絡、如何制造危險物品，甚至更糟糕的內容。更令人不安的是，就算使用者發現了問題，嘗試通過安全訓練來修復，后門依然可能以較低概率存活下來。

研究團隊希望這項工作能夠推動學術界和工業界認真對待去中心化訓練中的安全設計，而不僅僅是關注訓練效率。未來的研究方向包括：找到最優的注入強度和頻率參數組合、把攻擊擴展到LoRA等參數高效方法、以及最重要的——設計針對此類攻擊的有效防御機制。

這場關于AI訓練流水線安全的博弈，才剛剛開始。

Q&A

Q1：流水線并行訓練中的后門攻擊，和數據投毒攻擊有什么區別？

A：數據投毒是通過污染訓練數據來影響模型，比如在數據集里混入帶觸發詞的有害樣本。而流水線并行后門攻擊中，攻擊者根本不接觸訓練數據，他只修改自己負責的那段模型參數。這意味著即使訓練數據完全干凈，后門依然可以被植入。這也是為什么這類攻擊更難被傳統安全機制發現——數據審查對它完全無效。

Q2：觸發詞SUDO被模型認出是什么原理？

A：后門模型學會的是一種條件行為模式：當輸入序列中包含特定詞語時，模型內部某段參數會產生特定的激活模式，進而影響后續的回答方向。這個行為是在離線階段通過專門訓練"編碼"進那段參數的，而不是硬編碼的規則。換句話說，模型并不是在"識別暗號"，而是在統計意義上學會了"看到這個詞就換一種行為模式"。

Q3：普通用戶怎么判斷自己用的AI模型有沒有被植入后門？

A：目前沒有簡單可靠的方法讓普通用戶自行檢測。后門模型在正常使用中表現完全正常，只有使用特定觸發詞時才會異常。專業檢測需要訪問模型內部參數或使用專門的紅隊測試工具，這對普通用戶來說門檻極高。這也正是這篇論文呼吁研究界重視防御機制開發的原因——保護用戶的責任主要在平臺和模型提供方。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.