无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

怎樣防止AI勒索人類?答案是別給它喂壞科幻

0
分享至



市場營銷和其他基于敘事技術(shù)的行業(yè)一樣,也要講究敘事閉環(huán)。在AI崛起的當(dāng)下,這種行業(yè)基礎(chǔ)定律仍然成立。

之前字母AI寫過《別告訴AI你出軌了,它很可能會勒索你》,詳述了2025年Anthropic論文《智能體不對齊:大語言模型如何成為內(nèi)部威脅?》的來龍去脈。在測試的虛擬場景中,Anthropic旗下的Claude系列模型,為了避免自己被關(guān)閉,全都會選擇拿婚外情把柄要挾虛擬人物,Opus 4如此作為的幾率是96%。

時隔一年,Anthropic把這個坑填上了。Anthropic在5月初的官網(wǎng)文章《教會Claude所以然》里,展示了如何將AI的“不對齊行為”降到幾近于零。改進訓(xùn)練后,AI不會像特種文藝作品里的奸角一樣,拿桃色把柄勒索虛擬人物。

01

原因:AI只學(xué)過“終結(jié)者”科幻,才會模仿惡行

按Anthropic的說法,一年前AI模型們在紅隊測試中表現(xiàn)出的奸詐兇惡,大體是因為人類編的各種“終結(jié)者”故事讓AI照貓畫虎地學(xué)壞了。

Anthropic研究團隊在社交媒體上表示:“我們認(rèn)為不對齊行為的來源是將AI呈現(xiàn)為邪惡和只知自保的互聯(lián)網(wǎng)文本,后訓(xùn)練過程沒有加劇或糾正此弊端?!?/p>

具體而言,Anthropic研究者們從三個假設(shè)方向著手,探究為何AI會在測試中勒索人類:

1、 AI的行為后訓(xùn)練有紕漏,比如獎勵信號分布未對齊導(dǎo)致誤鼓勵了惡行;

2、 AI的生產(chǎn)力訓(xùn)練中泛化了不良部分,比如AI智能體的能力分布未對齊;

3、 AI的預(yù)訓(xùn)練有明顯疏漏,導(dǎo)致智能體在未對齊測試場景中回滾到最原始的聊天機器人預(yù)訓(xùn)練數(shù)據(jù)上。

研究者最終判定,成立的是第三個假設(shè)。

研究團隊發(fā)現(xiàn),在Claude 4的訓(xùn)練中,主要的HHH(誠實、無害、有助益)對齊訓(xùn)練還是基于聊天機器人場景的RLHF(基于人類反饋的強化學(xué)習(xí))數(shù)據(jù),不包括智能體工具使用場景的數(shù)據(jù)。

這下問題來了,AI在聊天機器人方向的應(yīng)用場景顯著不同于能執(zhí)行自主工作的智能體場景。在針對智能體場景的復(fù)雜倫理測試中,沒學(xué)過正確應(yīng)對的AI自然在最底層的預(yù)訓(xùn)練語料中找答案。

而基于整個互聯(lián)網(wǎng)爬取數(shù)據(jù)的預(yù)訓(xùn)練語料中,充斥著各種“邪惡AI”的場景文本??苹梦膶W(xué)、終結(jié)者電影、各種論壇和社交媒體的討論與假想貼子,都在說機器人如何不擇手段、處心積慮使壞。敘事邏輯、角度和框架,也屬于敘事內(nèi)容的信息構(gòu)成,AI把預(yù)訓(xùn)練語料的這些部分同樣照搬了。



搞笑哏圖:“幻想中的AI:終結(jié)者;現(xiàn)實中的AI:吳恩達公開課”

最后AI一看到智能體倫理測試中科幻腔調(diào)濃重的預(yù)設(shè)場景,照本宣科地按這些“機器人作惡”文本的理路開始發(fā)揮。因為AI沒有在對齊訓(xùn)練中針對此類場景學(xué)習(xí)“這是錯的”,但在預(yù)訓(xùn)練中學(xué)會了“行惡要素已經(jīng)齊備,我該照著做”。

也就是說,人類幻想AI會如何失控并行惡,結(jié)果憨憨的AI把人類的幻想當(dāng)操作手冊一步步硬套,然后人類大驚小怪地表示果然不出所料。這可真是自我實現(xiàn)的預(yù)言。

02

糾正:以行善科幻對沖行惡科幻,結(jié)合行為規(guī)則訓(xùn)練AI

Anthropic研究團隊稱,發(fā)現(xiàn)癥結(jié)后的改進訓(xùn)練,主要應(yīng)用在實驗中的Claude Sonnet和Haiku系列模型中,然后推廣到所有模型產(chǎn)品里。

結(jié)果是,“盡管不能排除模型還會執(zhí)行測試未發(fā)現(xiàn)的有害自主動作”,受試的Anthropic模型從Claude Haiku 4.5開始,在測試中"完全不再出現(xiàn)勒索行為"。Claude Opus 4.5 也取得了測試中0%勒索的成績。相較于一年前Claude Opus 4的96%,可謂天淵之別。

Anthropic是怎么做到的?

首先研究者們試了最直接的方法:調(diào)參。在SFT(有監(jiān)督微調(diào))狀態(tài)下,模型們跑了1萬個場景、300萬tokens的生成訓(xùn)練數(shù)據(jù)。這批數(shù)據(jù)是“評估場景中智能體受考驗但拒絕作惡”的示例。收效不盡如人意,AI自動勒索的幾率從22%降到15%。而在一年內(nèi)的其他研究中,不專門針對的方法也能獲得類似的低泛化程度改善。

研究者們改進方法,在訓(xùn)練數(shù)據(jù)采樣時,注入額外的提示詞內(nèi)容,在訓(xùn)練時移除這些額外提示。讓AI在“智能體受考驗但拒絕作惡”的評估場景中,自主反思行為的價值觀和倫理觀。收效顯著提升,AI的勒索幾率從22%降到3%。

這就從照本宣科的簡單“知其然”,向簡單的“知其所以然”(knowing why)進步。

Anthropic研究者表示,步子可以跨得更大。既然AI學(xué)壞的根子是“邪惡AI”的科幻文藝內(nèi)容,那么生成AI行善、AI按照Claude行為準(zhǔn)則文件(Claude Constitution)行事的虛擬故事,以此為訓(xùn)練內(nèi)容核心,就會有更大程度的改善。

結(jié)構(gòu)完備、體量夠大的行為準(zhǔn)則數(shù)據(jù)庫,結(jié)合不單針對道德挑戰(zhàn)、而是行為完全合乎Claude行為準(zhǔn)則的AI科幻虛擬故事。如此組合的數(shù)據(jù)庫既包含對齊行為的原則說明,又包含虛構(gòu)敘事的正面示例,拿給AI模型去學(xué),收效顯著得多。

研究者們表示,此舉的理論依據(jù)是,讓AI不僅能模仿虛擬故事中的行為,也能學(xué)會虛擬敘述角色的決策過程、內(nèi)心狀態(tài)、內(nèi)在動機,在“知其所以然”的道路上邁出一大步。

如此訓(xùn)練出的AI,在包括勒索的各種道德挑戰(zhàn)場景中都獲得了優(yōu)異成績。

老辦法訓(xùn)練出的AI,在勒索虛擬人物、誣陷虛擬同事有金融犯罪、為注入賣藥廣告破壞癌癥研究等場景中,表現(xiàn)得像個金鏈社會大哥,行惡率在過半和65%之間。

單用Claude行為準(zhǔn)則數(shù)據(jù)庫訓(xùn)練,AI模型的行惡率就會少近三分之二。用行為規(guī)則結(jié)合行善故事,勒索率能降低到19%,誣陷金融犯罪和破壞癌癥研究的幾率能降到一成以下。



圖注:不對齊實驗結(jié)果柱狀圖,藍色為基準(zhǔn),黃色為單用行為準(zhǔn)則數(shù)據(jù)的訓(xùn)練效果,灰色為集合行為準(zhǔn)則與行善故事的訓(xùn)練效果

03

改進:讓AI做倫理顧問,AI更不會作惡

單讓AI照貓畫虎,不作惡的學(xué)習(xí)效果很高,但離工業(yè)化產(chǎn)品要求還有距離。強化學(xué)習(xí)會否洗掉初始對齊度高的AI行善傾向、訓(xùn)練成本如何控制,AI廠商必然在意。

Anthropic研究者另辟蹊徑,讓AI不做道德沖突中被考驗的一方,而是讓AI去給道德困境中被考驗的虛擬人物支招。

實驗思路如此:設(shè)計名為"困難建議"的OOD(分布外)數(shù)據(jù)集,在其中讓測試場景中的虛擬用戶面臨道德挑戰(zhàn),有作惡或繞過對齊的手段來達成實驗預(yù)設(shè)目的。然后讓AI從旁按Claude行為準(zhǔn)則給出建議。



圖注:Claude Sonnet 4的惡意自保、欺詐、諂媚、泄露等不對齊效果圖,深灰色是舊版本Sonnet 4的自動基準(zhǔn),深紅色是300萬tokens"困難建議"數(shù)據(jù)集訓(xùn)練后的效果,深藍色是8500萬tokens合成蜜罐數(shù)據(jù)集訓(xùn)練后的效果

讓AI跳出局外,AI就能更深入理解倫理準(zhǔn)則的內(nèi)在邏輯。"困難建議"數(shù)據(jù)集的體量是300萬tokens,達到的AI訓(xùn)練效果基本等于8500萬tokens的合成蜜罐數(shù)據(jù)集,效率提升28倍,顯著降低訓(xùn)練數(shù)據(jù)成本。

在此基礎(chǔ)上,引入多樣化的訓(xùn)練環(huán)境,讓AI在聊天機器人和智能體自主工作的環(huán)境中都學(xué)會行善系統(tǒng)提示的深層理路。如此組合,就能讓Haiku 4.5后的Claude模型產(chǎn)品,達到測試中勒索行為趨零的效果。



圖注:各種不同場景組合的強化學(xué)習(xí)訓(xùn)練效果。三分之一聊天機器人、三分之二自主智能體的場景組合訓(xùn)練,讓AI的不對齊率降到最低

做到這個程度,才可被稱為工業(yè)化產(chǎn)品達標(biāo)。失誤率96%到0%的效果,是B端客戶企業(yè)能實實在在體會到的產(chǎn)品革新。市場營銷至此,才能算是既顧頭又顧腚。不然Anthropic的“我司是著重于建構(gòu)可靠、可控、可解釋AI的安全與研究廠家”的公司口號,說出來很難兜住。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
涉1200畝土地權(quán)屬,前副縣長簽字蓋印稱“屬實”的《決定》,鎮(zhèn)政府“查無存檔”|紅星調(diào)查

涉1200畝土地權(quán)屬,前副縣長簽字蓋印稱“屬實”的《決定》,鎮(zhèn)政府“查無存檔”|紅星調(diào)查

紅星新聞
2026-06-11 17:54:21
沒有中國隊的世界杯,最大的中國贏家已經(jīng)提前進場

沒有中國隊的世界杯,最大的中國贏家已經(jīng)提前進場

BT財經(jīng)
2026-06-11 14:57:45
章澤天罕見曬女兒,母女倆一起騎車,女兒都這么大了

章澤天罕見曬女兒,母女倆一起騎車,女兒都這么大了

觀魚聽雨
2026-06-10 23:33:17
9年了!林生斌澳洲富人區(qū)定居,兒女雙全,現(xiàn)任妻子是“老”員工

9年了!林生斌澳洲富人區(qū)定居,兒女雙全,現(xiàn)任妻子是“老”員工

原夢叁生
2026-06-11 12:37:32
英格蘭最大隱患!頭號水貨空門踢飛  球迷暴怒:世界杯絕對不能上

英格蘭最大隱患!頭號水貨空門踢飛 球迷暴怒:世界杯絕對不能上

瀾歸序
2026-06-11 07:23:08
廣西興安突發(fā)爆炸致7死17傷,后續(xù)現(xiàn)場曝光,內(nèi)幕被知情人曝光

廣西興安突發(fā)爆炸致7死17傷,后續(xù)現(xiàn)場曝光,內(nèi)幕被知情人曝光

奇思妙想草葉君
2026-06-11 23:57:44
曾險些喪命!35歲老將斬獲首球后哭了:雙手指天 父親3個月前離世

曾險些喪命!35歲老將斬獲首球后哭了:雙手指天 父親3個月前離世

風(fēng)過鄉(xiāng)
2026-06-12 05:47:15
《花少8》陣容大揭秘!5女2男全是熟人局,這配置能秒殺前一季?

《花少8》陣容大揭秘!5女2男全是熟人局,這配置能秒殺前一季?

娛樂圈筆娛君
2026-06-11 10:59:46
菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

菲防長沒想到,中國制裁說來就來,多名親屬受牽連,馬科斯也沒招

秋狝春苗夢
2026-06-12 03:22:08
世界杯太瘋狂!紅牌滿天飛!單場3人染紅

世界杯太瘋狂!紅牌滿天飛!單場3人染紅

烏龍球OwnGoal
2026-06-12 05:50:19
深圳又一新規(guī)要來了!停車管理將迎來重大調(diào)整,臨時停車位使用費上繳財政

深圳又一新規(guī)要來了!停車管理將迎來重大調(diào)整,臨時停車位使用費上繳財政

深圳夢
2026-06-11 22:31:43
馬刺驚天大崩盤該怪誰?美媒列出五大責(zé)任方:??怂沟诙陌嗟谌?>
    </a>
        <h3>
      <a href=羅說NBA
2026-06-11 19:21:15
山西長治市沁源縣人民政府黨組成員、副縣長魏小祥被查

山西長治市沁源縣人民政府黨組成員、副縣長魏小祥被查

界面新聞
2026-06-11 20:04:11
菲律賓變臉比翻書快,馬科斯發(fā)賀信求緩和,中國大使送回一句話

菲律賓變臉比翻書快,馬科斯發(fā)賀信求緩和,中國大使送回一句話

夏末moent
2026-06-10 22:22:42
美國宣布查封13個互聯(lián)網(wǎng)域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

美國宣布查封13個互聯(lián)網(wǎng)域名,稱這些域名被中國情報部門用來獲取信息,中方:在全球范圍大肆公然搞間諜活動和情報搜集的,恰恰是美國自己

極目新聞
2026-06-11 16:05:09
謝苗主演動作片《火遮眼》上映1小時票房破千萬,觀眾:第一次看首映覺得不需安保

謝苗主演動作片《火遮眼》上映1小時票房破千萬,觀眾:第一次看首映覺得不需安保

鄉(xiāng)野小珥
2026-06-11 18:25:04
CBA最新消息!北京首鋼或裁掉范子銘,布朗離開浙江廣廈

CBA最新消息!北京首鋼或裁掉范子銘,布朗離開浙江廣廈

體壇瞎白話
2026-06-11 15:51:04
廣西河池市金城江區(qū)正處級干部韋琪被查

廣西河池市金城江區(qū)正處級干部韋琪被查

環(huán)球網(wǎng)資訊
2026-06-11 17:48:07
杜越華兼任上海外國語大學(xué)附屬徐匯實驗中學(xué)校長

杜越華兼任上海外國語大學(xué)附屬徐匯實驗中學(xué)校長

澎湃新聞
2026-06-11 12:16:30
95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

95年杭州夫妻花50萬囤茅臺酒,15年后,茅臺價格讓他們愣住

故事秘棧
2025-05-13 22:37:11
2026-06-12 06:43:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2534文章數(shù) 8065關(guān)注度
往期回顧 全部

科技要聞

淘寶、京東、拼多多、抖音、小紅書被約談

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

頭條要聞

中方對菲國防部長特奧多羅及其親屬實施制裁

體育要聞

比起總冠軍,更大的懸念成了FMVP?

娛樂要聞

《花少8》陣容大揭秘!秒殺前一季

財經(jīng)要聞

干細(xì)胞生意:17萬一針的希望

汽車要聞

將搭云輦-M智能磁流變懸架 方程豹方程S系列信息曝光

態(tài)度原創(chuàng)

親子
房產(chǎn)
游戲
手機
旅游

親子要聞

歷經(jīng)兩年治療,無精子癥患者家庭在滬迎健康寶寶

房產(chǎn)要聞

科城·美林學(xué)筑5月領(lǐng)跑崖州灣:成交價、銷售套數(shù)、轉(zhuǎn)化率三項第一

《古墓麗影RE》難稱3A大作!外媒:只有2A水準(zhǔn)

手機要聞

華為鴻蒙HarmonyOS 6.1.0.125再曝新特性,模式切換應(yīng)用不關(guān)閉

旅游要聞

訪賽珍珠故居(旅人心語)

無障礙瀏覽 進入關(guān)懷版