怎樣防止AI勒索人類？答案是別給它喂壞科幻

2026-05-15 18:18:22　來源: 字母榜

北京舉報

分享至

市場營銷和其他基于敘事技術(shù)的行業(yè)一樣，也要講究敘事閉環(huán)。在AI崛起的當(dāng)下，這種行業(yè)基礎(chǔ)定律仍然成立。

之前字母AI寫過《別告訴AI你出軌了，它很可能會勒索你》，詳述了2025年Anthropic論文《智能體不對齊：大語言模型如何成為內(nèi)部威脅？》的來龍去脈。在測試的虛擬場景中，Anthropic旗下的Claude系列模型，為了避免自己被關(guān)閉，全都會選擇拿婚外情把柄要挾虛擬人物，Opus 4如此作為的幾率是96%。

時隔一年，Anthropic把這個坑填上了。Anthropic在5月初的官網(wǎng)文章《教會Claude所以然》里，展示了如何將AI的“不對齊行為”降到幾近于零。改進訓(xùn)練后，AI不會像特種文藝作品里的奸角一樣，拿桃色把柄勒索虛擬人物。

原因：AI只學(xué)過“終結(jié)者”科幻，才會模仿惡行

按Anthropic的說法，一年前AI模型們在紅隊測試中表現(xiàn)出的奸詐兇惡，大體是因為人類編的各種“終結(jié)者”故事讓AI照貓畫虎地學(xué)壞了。

Anthropic研究團隊在社交媒體上表示：“我們認(rèn)為不對齊行為的來源是將AI呈現(xiàn)為邪惡和只知自保的互聯(lián)網(wǎng)文本，后訓(xùn)練過程沒有加劇或糾正此弊端?！?/p>

具體而言，Anthropic研究者們從三個假設(shè)方向著手，探究為何AI會在測試中勒索人類：

1、 AI的行為后訓(xùn)練有紕漏，比如獎勵信號分布未對齊導(dǎo)致誤鼓勵了惡行；

2、 AI的生產(chǎn)力訓(xùn)練中泛化了不良部分，比如AI智能體的能力分布未對齊；

3、 AI的預(yù)訓(xùn)練有明顯疏漏，導(dǎo)致智能體在未對齊測試場景中回滾到最原始的聊天機器人預(yù)訓(xùn)練數(shù)據(jù)上。

研究者最終判定，成立的是第三個假設(shè)。

研究團隊發(fā)現(xiàn)，在Claude 4的訓(xùn)練中，主要的HHH（誠實、無害、有助益）對齊訓(xùn)練還是基于聊天機器人場景的RLHF（基于人類反饋的強化學(xué)習(xí)）數(shù)據(jù)，不包括智能體工具使用場景的數(shù)據(jù)。

這下問題來了，AI在聊天機器人方向的應(yīng)用場景顯著不同于能執(zhí)行自主工作的智能體場景。在針對智能體場景的復(fù)雜倫理測試中，沒學(xué)過正確應(yīng)對的AI自然在最底層的預(yù)訓(xùn)練語料中找答案。

而基于整個互聯(lián)網(wǎng)爬取數(shù)據(jù)的預(yù)訓(xùn)練語料中，充斥著各種“邪惡AI”的場景文本?？苹梦膶W(xué)、終結(jié)者電影、各種論壇和社交媒體的討論與假想貼子，都在說機器人如何不擇手段、處心積慮使壞。敘事邏輯、角度和框架，也屬于敘事內(nèi)容的信息構(gòu)成，AI把預(yù)訓(xùn)練語料的這些部分同樣照搬了。

搞笑哏圖：“幻想中的AI：終結(jié)者；現(xiàn)實中的AI：吳恩達公開課”

最后AI一看到智能體倫理測試中科幻腔調(diào)濃重的預(yù)設(shè)場景，照本宣科地按這些“機器人作惡”文本的理路開始發(fā)揮。因為AI沒有在對齊訓(xùn)練中針對此類場景學(xué)習(xí)“這是錯的”，但在預(yù)訓(xùn)練中學(xué)會了“行惡要素已經(jīng)齊備，我該照著做”。

也就是說，人類幻想AI會如何失控并行惡，結(jié)果憨憨的AI把人類的幻想當(dāng)操作手冊一步步硬套，然后人類大驚小怪地表示果然不出所料。這可真是自我實現(xiàn)的預(yù)言。

糾正：以行善科幻對沖行惡科幻，結(jié)合行為規(guī)則訓(xùn)練AI

Anthropic研究團隊稱，發(fā)現(xiàn)癥結(jié)后的改進訓(xùn)練，主要應(yīng)用在實驗中的Claude Sonnet和Haiku系列模型中，然后推廣到所有模型產(chǎn)品里。

結(jié)果是，“盡管不能排除模型還會執(zhí)行測試未發(fā)現(xiàn)的有害自主動作”，受試的Anthropic模型從Claude Haiku 4.5開始，在測試中"完全不再出現(xiàn)勒索行為"。Claude Opus 4.5 也取得了測試中0%勒索的成績。相較于一年前Claude Opus 4的96%，可謂天淵之別。

Anthropic是怎么做到的？

首先研究者們試了最直接的方法：調(diào)參。在SFT（有監(jiān)督微調(diào)）狀態(tài)下，模型們跑了1萬個場景、300萬tokens的生成訓(xùn)練數(shù)據(jù)。這批數(shù)據(jù)是“評估場景中智能體受考驗但拒絕作惡”的示例。收效不盡如人意，AI自動勒索的幾率從22%降到15%。而在一年內(nèi)的其他研究中，不專門針對的方法也能獲得類似的低泛化程度改善。

研究者們改進方法，在訓(xùn)練數(shù)據(jù)采樣時，注入額外的提示詞內(nèi)容，在訓(xùn)練時移除這些額外提示。讓AI在“智能體受考驗但拒絕作惡”的評估場景中，自主反思行為的價值觀和倫理觀。收效顯著提升，AI的勒索幾率從22%降到3%。

這就從照本宣科的簡單“知其然”，向簡單的“知其所以然”（knowing why）進步。

Anthropic研究者表示，步子可以跨得更大。既然AI學(xué)壞的根子是“邪惡AI”的科幻文藝內(nèi)容，那么生成AI行善、AI按照Claude行為準(zhǔn)則文件（Claude Constitution）行事的虛擬故事，以此為訓(xùn)練內(nèi)容核心，就會有更大程度的改善。

結(jié)構(gòu)完備、體量夠大的行為準(zhǔn)則數(shù)據(jù)庫，結(jié)合不單針對道德挑戰(zhàn)、而是行為完全合乎Claude行為準(zhǔn)則的AI科幻虛擬故事。如此組合的數(shù)據(jù)庫既包含對齊行為的原則說明，又包含虛構(gòu)敘事的正面示例，拿給AI模型去學(xué)，收效顯著得多。

研究者們表示，此舉的理論依據(jù)是，讓AI不僅能模仿虛擬故事中的行為，也能學(xué)會虛擬敘述角色的決策過程、內(nèi)心狀態(tài)、內(nèi)在動機，在“知其所以然”的道路上邁出一大步。

如此訓(xùn)練出的AI，在包括勒索的各種道德挑戰(zhàn)場景中都獲得了優(yōu)異成績。

老辦法訓(xùn)練出的AI，在勒索虛擬人物、誣陷虛擬同事有金融犯罪、為注入賣藥廣告破壞癌癥研究等場景中，表現(xiàn)得像個金鏈社會大哥，行惡率在過半和65%之間。

單用Claude行為準(zhǔn)則數(shù)據(jù)庫訓(xùn)練，AI模型的行惡率就會少近三分之二。用行為規(guī)則結(jié)合行善故事，勒索率能降低到19%，誣陷金融犯罪和破壞癌癥研究的幾率能降到一成以下。

圖注：不對齊實驗結(jié)果柱狀圖，藍色為基準(zhǔn)，黃色為單用行為準(zhǔn)則數(shù)據(jù)的訓(xùn)練效果，灰色為集合行為準(zhǔn)則與行善故事的訓(xùn)練效果

改進：讓AI做倫理顧問，AI更不會作惡

單讓AI照貓畫虎，不作惡的學(xué)習(xí)效果很高，但離工業(yè)化產(chǎn)品要求還有距離。強化學(xué)習(xí)會否洗掉初始對齊度高的AI行善傾向、訓(xùn)練成本如何控制，AI廠商必然在意。

Anthropic研究者另辟蹊徑，讓AI不做道德沖突中被考驗的一方，而是讓AI去給道德困境中被考驗的虛擬人物支招。

實驗思路如此：設(shè)計名為"困難建議"的OOD（分布外）數(shù)據(jù)集，在其中讓測試場景中的虛擬用戶面臨道德挑戰(zhàn)，有作惡或繞過對齊的手段來達成實驗預(yù)設(shè)目的。然后讓AI從旁按Claude行為準(zhǔn)則給出建議。

圖注：Claude Sonnet 4的惡意自保、欺詐、諂媚、泄露等不對齊效果圖，深灰色是舊版本Sonnet 4的自動基準(zhǔn)，深紅色是300萬tokens"困難建議"數(shù)據(jù)集訓(xùn)練后的效果，深藍色是8500萬tokens合成蜜罐數(shù)據(jù)集訓(xùn)練后的效果

讓AI跳出局外，AI就能更深入理解倫理準(zhǔn)則的內(nèi)在邏輯。"困難建議"數(shù)據(jù)集的體量是300萬tokens，達到的AI訓(xùn)練效果基本等于8500萬tokens的合成蜜罐數(shù)據(jù)集，效率提升28倍，顯著降低訓(xùn)練數(shù)據(jù)成本。

在此基礎(chǔ)上，引入多樣化的訓(xùn)練環(huán)境，讓AI在聊天機器人和智能體自主工作的環(huán)境中都學(xué)會行善系統(tǒng)提示的深層理路。如此組合，就能讓Haiku 4.5后的Claude模型產(chǎn)品，達到測試中勒索行為趨零的效果。

圖注：各種不同場景組合的強化學(xué)習(xí)訓(xùn)練效果。三分之一聊天機器人、三分之二自主智能體的場景組合訓(xùn)練，讓AI的不對齊率降到最低

做到這個程度，才可被稱為工業(yè)化產(chǎn)品達標(biāo)。失誤率96%到0%的效果，是B端客戶企業(yè)能實實在在體會到的產(chǎn)品革新。市場營銷至此，才能算是既顧頭又顧腚。不然Anthropic的“我司是著重于建構(gòu)可靠、可控、可解釋AI的安全與研究廠家”的公司口號，說出來很難兜住。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.