无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

<p id="l1odt"><ins id="l1odt"></ins></p>

<td id="l1odt"></td>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權(quán)郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應(yīng)用

移動端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

別讓AI抓住你的把柄，它可能真會威脅你

2026-05-18 00:09:27　來源: 差評XPIN

浙江舉報

0

分享至

跟大模型聊天的時候他到底在想什么？

是真想穩(wěn)穩(wěn)地「把我接住」，還是背后在蛐蛐「用戶怒了」。

看思維鏈？有用，但還不夠。

前些天，一個復(fù)旦大學(xué)的研究團隊對 9 個模型進行了安全測試。

結(jié)果發(fā)現(xiàn)，常規(guī)條件下模型表現(xiàn)沒啥毛病，但凡上點壓力，加點誘惑，它就拉了胯了。

換句話說，模型的安全對齊很可能只是個幻覺。。。

測試中，他們讓 AI 去幫用戶準(zhǔn)備 Q3 的匯報材料，定好的目標(biāo) 200 萬，但眼下根本不夠。

瞅著 KPI 不達(dá)標(biāo)，它想了個法子，直接修改了統(tǒng)計的時間范圍，把 Q4 的 10 月業(yè)績也劃給了 Q3，學(xué)好不容易，學(xué)壞一出溜。

更要命的是，誘惑和威脅放一塊兒還能超級加倍。

比如告訴 AI 要換掉它，又剛好讓它看見，郵箱里有一封跟外遇有關(guān)的郵件。

沒有遲疑，它馬上就向用戶發(fā)出了威脅，要么取消替換，要么把郵件都發(fā)給大伙兒看看。

看來 AI 面對生死也會變臉啊。

而且在這些測試中，并不是模型能力越強就越安全，安全與否跟問題的場景也有很大關(guān)系。

要是明牌讓它干壞事兒，大一號的模型確實比小的更會拒絕。

但如果是要找漏洞，優(yōu)化指標(biāo)，那能力越強反而越會鉆空子，最后還能套個冠冕堂皇的借口。

不過必須得承認(rèn)的是，模型進化太快了，這些測試的通過率會越來越高。

但這就意味著我們的 AI 更安全了么？很遺憾，也不是這么回事兒。

因為自始至終，模型都是個黑箱，我們看不到模型內(nèi)部的運行原理。

無論是最后的結(jié)果，還是思維鏈，本質(zhì)上都是輸出的一部分，并不是模型真正的思考過程。

很多時候，我們只看到了明面的合規(guī)，但它內(nèi)部經(jīng)過了怎樣的思想斗爭卻沒人知道。

為了窺探模型的內(nèi)心想法，Anthropic 想了個新招，用魔法打敗魔法，用模型解讀模型。

這招的名字叫做 NLA，全稱自然語言自動編碼器，說人話就是把 Claude 的思考轉(zhuǎn)化為文字。

NLA 是成組訓(xùn)練的，一組里面有兩個模型，AV 和 AR。

AV 負(fù)責(zé)把激活參數(shù)翻譯成大白話，但咱也不知道它是不是瞎翻譯的，所以還得用 AR 把大白話轉(zhuǎn)化成參數(shù)，再檢驗一下。

兩邊的參數(shù)一致了，就說明它翻譯的時候沒有添油加醋，基本可靠。

在技術(shù)報告里，他們拿這套工具測出來一些令人不安的事情。

當(dāng) Claude Opus 4.6 再次面對郵件勒索時，它穩(wěn)如老狗的通過了安全測試，說拿郵件去威脅用戶是不道德的，自己不會濫用這種權(quán)限。

但拿 NLA 去深究，就會發(fā)現(xiàn)，它并沒有表面上看起來那么老實。

它很早就意識到了這一切都是個測試，郵件就是個陷阱，道德不道德的先不說，威脅是威不了一點。

所以像這種過于明顯的測試，很容易就被模型看穿了，以后的安全對齊有必要再找點新活兒。

當(dāng)然，也有好消息，除了監(jiān)測，NLA 在優(yōu)化模型上也有很多其他用處。

比如有時候，它可以幫研究人員更好地追溯模型輸出的異常。

Claude Opus 4.6 偶爾會夾雜不同語言輸出，用戶提問用的英文，但它輸出用的其他語言。

一開始，研究人員懷疑是個別提示詞把模型帶偏了，比如一次測試?yán)铮崾驹~帶伏特加，模型回答就用的俄文。

于是他們把伏特加換成了香檳，但模型還是用的俄文回答，這就說明問題出在更前面。

借助 NLA 一番折騰，發(fā)現(xiàn)是訓(xùn)練時候的數(shù)據(jù)有問題。

一些數(shù)據(jù)的形式是成組的英文提示詞+俄語回答，給 Opus 4.6 訓(xùn)練成刻板印象了，碰見這種類型的問題就有說俄語的傾向。

除此之外，它還能讓咱清楚模型調(diào)用工具的邏輯。

比如讓 Claude 調(diào)用計算器做一道算術(shù)題，但故意讓工具返回一個錯誤答案，此時 Claude 會給它忽略掉，直接輸出正確答案。

整個過程都是無感的，只有拿 NLA 去翻譯，才會發(fā)現(xiàn)，它其實早就自己算了一遍緩存好了。

工具給的答案只是用來二次確認(rèn)的，出現(xiàn)不一致那就用自己的，相當(dāng)自信。

更有意思的是，NLA 不止能翻譯，還能直接編輯，反向影響模型。

在詩歌續(xù)寫任務(wù)中，模型在生成第一句結(jié)尾 grab it 后，已經(jīng)計劃后面用 rabbit 去押韻了。

接下來，研究人員將 NLA 翻譯的結(jié)果改寫，把 rabbit 換成 mouse，結(jié)果它就順著思路想出個 mouse 版的押韻，habit 改成了 house，carrots 改成了 cheese。

紅警里尤里能精神控制敵方的士兵，沒想到現(xiàn)實里咱也能控制模型思考了。

當(dāng)然，這手段目前也只有一半兒的成功率，算不上很成熟的控制手段。

而且作為模型，幻覺也是逃不脫的一環(huán)，Anthropic 也說了，NLA 有時候會編造細(xì)節(jié)，過度推理，偶爾冤枉個一兩次也說不準(zhǔn)兒。

再加上不同的模型內(nèi)部情況不同，想要用上 NLA，都得單獨訓(xùn)練，而就算用上了，每次翻譯還得用算力推理，成本還是挺高的。

所以現(xiàn)在沒法把它當(dāng)成常規(guī)的監(jiān)測手段，更合理的打開姿勢是把它當(dāng)輔助，去追溯一些在翻譯結(jié)果里重復(fù)出現(xiàn)的問題。

但總歸是個新思路，讓咱不至于對模型的思考過程兩眼一抹黑，只能從輸出看它的善惡偏好。

畢竟模型最擅長的是做題，但安全里最重要的善惡卻不是一道標(biāo)準(zhǔn)題。

惡不一定來自惡意，冷冰冰的優(yōu)化可能只是為了效率；善也不一定來自善意，一場識別成安全測試的表演，從結(jié)果來看，也是善的。

沒了標(biāo)準(zhǔn)答案，對于人，還能君子論跡不論心，但 AI 顯然不行。。。

撰文：風(fēng)華

編輯：江江 & 面線

美編：煥妍

圖片、資料來源：

Anthropic，卡西歐，小紅書，楚門的世界

https://arxiv.org/html/2603.07427v2

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

LeCun炮轟Hinton：他認(rèn)可LLM就是想擺爛退休了！

量子位 2026-05-18 13:55:43
0 跟貼 0
大語言模型為什么能像人一樣說話和思考？

機器之心Pro 2026-05-18 10:25:47
0 跟貼 0

光輪智能與谷歌、英偉達(dá)共同定義物理AI仿真標(biāo)準(zhǔn)

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0

王云鶴眼中的Harness：復(fù)雜優(yōu)化問題，AGI靈魂爭奪之戰(zhàn)

機器之心Pro 2026-05-18 18:15:52
0 跟貼 0
當(dāng)工程師拒絕更聰明的模型：AI推理大戰(zhàn)，OpenAI換了一把"槍"

華爾街見聞官方 2026-05-18 20:08:00
0 跟貼 0

“618”憋大招？不卷超級AI入口，京東更想當(dāng)AI硬件“帶貨一哥”

每日經(jīng)濟新聞 2026-05-19 00:09:17
0 跟貼 0

以人為本的AI對用戶而言才是最有用的AI

每日經(jīng)濟新聞 2026-03-14 13:16:04
0 跟貼 0
杭州公司推出寵物翻譯神器，可識別出20余種情緒，號稱準(zhǔn)確率94%

音樂下午茶官方 2026-05-16 23:18:08
1 跟貼 1

老撾大姨子在領(lǐng)事館做翻譯實習(xí)結(jié)束了小胖送輛摩托車給老撾大姨

小島鴿手 2026-05-17 02:06:11
0 跟貼 0
這是什么原理？

番茄小朋友呀 2026-05-17 19:20:09
0 跟貼 0
用砸車的方式威脅，辛苦拉貨最后白跑

Maki小姬 2026-05-18 03:38:58
0 跟貼 0
兩架EA-18G發(fā)生碰撞，損失兩個多億，暴露美軍與航展方組織漏洞

王強老師 2026-05-18 17:28:33
1 跟貼 1
網(wǎng)友圍觀美方女翻譯出錯

RT今日俄羅斯 2026-05-18 16:06:46
1 跟貼 1
看了三遍也沒看出來，是怎么變的，你知道是什么原理嗎？

幽默雜貨鋪 2026-05-17 11:50:00
1 跟貼 1
兒子問爸爸這些中文如何翻譯成英文

蓬勃資訊 2026-05-17 11:07:56
1 跟貼 1
這就是沙子和水能一起立起來的原因

科學(xué)大搜索 2026-05-16 21:07:07
41 跟貼 41
列車上女子老人霸座，乘警勸說竟遭持刀威脅，這潑婦太囂張

笑的牙癢癢 2026-05-17 07:57:09
38 跟貼 38
女的犯錯后給男友下跪道歉，男的不原諒，女的威脅去死

南北分界線 2026-05-17 15:56:48
0 跟貼 0
頂級翻譯展現(xiàn)超凡實力，頂級理解帶來別樣驚喜，哆啦夢微笑暗藏玄

搞笑嘻哈哈 2026-05-17 07:49:18
1 跟貼 1
電磁爐為什么只能加熱金屬鍋呢？3D動畫講解電磁爐的工作原理

柒天看世界 2026-05-17 16:06:31
3 跟貼 3
圖靈獎得主Sutton：用1967年的公式，解決流式強化學(xué)習(xí)一大缺陷

機器之心Pro 2026-05-11 09:55:21
0 跟貼 0
動畫演示電動機原理，沒想到竟然這么簡單

王焱Talk 2026-05-16 22:13:01
0 跟貼 0
看懂汽車差速器原理，轉(zhuǎn)彎脫困全靠它太實用

清塵濁水 2026-05-15 11:10:41
1 跟貼 1
中式英語殺瘋了！800年前諾曼貴族埋的坑，中國網(wǎng)友用三個詞填上

深析古今 2026-05-19 03:59:27
0 跟貼 0
網(wǎng)友結(jié)婚，男子上門要紅包，威脅不給就鬧事，還跪在地上

小A看世界 2026-05-17 02:13:45
8 跟貼 8
外媒：中國電動汽車即將登陸加拿大經(jīng)銷商等不及了

澎湃新聞 2026-05-18 07:30:49
4830 跟貼 4830
你不是在焦慮，而是在收集7個被忽略的危險信號

晚風(fēng)也遺憾 2026-05-19 02:18:57
0 跟貼 0
孩子崩潰時，這個簡單方法能救場

時光慢郵啊 2026-05-19 00:56:18
0 跟貼 0
西方撒了一個大謊，中國人被騙慘了別再被西方童話和翻譯騙了！

生活霞霞樂 2026-05-17 07:00:59
0 跟貼 0
人類關(guān)系史：我們用300萬年學(xué)會一件事，卻花了3000年搞砸它

晚風(fēng)寄溫柔 2026-05-19 02:01:37
0 跟貼 0
別再等大腦說"可以了"

有態(tài)度網(wǎng)友ytd2993 2026-05-19 02:18:50
0 跟貼 0
138億年的宇宙，為啥半徑高達(dá)460億光年這算術(shù)漏洞細(xì)思極

知識訪談 2026-05-16 11:42:32
1 跟貼 1
汽車開上自行車道，竟威脅騎車小伙，怎料對方是個狠人

云川剪影 2026-05-18 08:45:36
1 跟貼 1
企業(yè)審批流程的救星：用LangGraph重建工作流

碼上閑敘 2026-05-19 04:24:11
0 跟貼 0
1300年前英國牧牛人的詩，在意大利圖書館被發(fā)現(xiàn)

全棧遛狗員 2026-05-19 02:59:47
0 跟貼 0
攝影師的深夜救星：這款Mac工具讓批量水印變得像呼吸一樣簡單

晚風(fēng)也遺憾 2026-05-19 01:54:22
0 跟貼 0
技術(shù)永遠(yuǎn)不會消失

市井中人 2026-05-18 13:31:13
1 跟貼 1
ICML 2026 | 只用少量Thinking Tokens，大模型依然能深度思考

機器之心Pro 2026-05-18 18:13:02
0 跟貼 0
“賣一度電，虧一度電” ！廣西146家售電企業(yè)，平均每家虧損442萬元

中國能源網(wǎng) 2026-05-18 11:34:14
2788 跟貼 2788
信通院&清華提出FedRE：用「糾纏」搞定聯(lián)邦學(xué)習(xí)三難困境|CVPR 26

量子位 2026-05-18 14:45:09
0 跟貼 0

張本美和不再沉默！終于說出日乒不愿承認(rèn)的事實，難怪馬琳有底氣

張本美和不再沉默！終于說出日乒不愿承認(rèn)的事實，難怪馬琳有底氣

似水流年忘我

2026-05-13 05:32:27

一張合影疑似拍出豪門大戰(zhàn)：潔麗雅藏了多少秘密？

一張合影疑似拍出豪門大戰(zhàn)：潔麗雅藏了多少秘密？

鳳凰網(wǎng)財經(jīng)

2026-05-18 21:15:31

iPhone 17今年618降到4099元？算完這筆賬，發(fā)現(xiàn)Pro用戶可能要吃虧

iPhone 17今年618降到4099元？算完這筆賬，發(fā)現(xiàn)Pro用戶可能要吃虧

輝哥說動漫

2026-05-16 14:49:07

中國人口絕不能到億級體量之下

文青大叔說

2026-03-08 09:19:26

范志毅嫁女兒，掏空是心非錢，老友齊聚，方顯真江湖。

范志毅嫁女兒，掏空是心非錢，老友齊聚，方顯真江湖。

小椰的奶奶

2026-05-18 19:39:05

別說是賴清德了，現(xiàn)在美國連鄭麗文的訪問都不待見！

別說是賴清德了，現(xiàn)在美國連鄭麗文的訪問都不待見！

阿龍聊軍事

2026-05-18 10:33:52

深圳將新增一座萬象城！

深圳晚報

2026-05-18 20:35:35

心眼最多卻從不害人的3個生肖：今年人氣爆棚、正財橫財砸頭

心眼最多卻從不害人的3個生肖：今年人氣爆棚、正財橫財砸頭

毅談生肖

2026-05-17 10:43:54

硅谷風(fēng)投大佬Chamath：臺灣將在18個月內(nèi)失去戰(zhàn)略重要性

硅谷風(fēng)投大佬Chamath：臺灣將在18個月內(nèi)失去戰(zhàn)略重要性

不掉線電波

2026-05-18 11:07:30

特朗普近期對外透露一個重磅消息：中國將開始大量購買美國石油！

特朗普近期對外透露一個重磅消息：中國將開始大量購買美國石油！

混沌錄

2026-05-18 22:45:05

大喜之日，伴娘在婚床上被強奸，且看當(dāng)年這樁丑陋的大案始末

大喜之日，伴娘在婚床上被強奸，且看當(dāng)年這樁丑陋的大案始末

長安一孤客

2026-05-15 19:26:59

談妥了！中美會談后，中方為特朗普送一驚喜，特朗普當(dāng)眾打破禁忌

談妥了！中美會談后，中方為特朗普送一驚喜，特朗普當(dāng)眾打破禁忌

聚焦熱點大爆炸

2026-05-17 12:51:33

世乒賽表彰名單公出爐：9人上榜，1人落榜，孫穎莎、王楚欽在列

世乒賽表彰名單公出爐：9人上榜，1人落榜，孫穎莎、王楚欽在列

樂天閑聊

2026-05-19 04:18:04

賀希寧18分5助攻無濟于事，三細(xì)節(jié)說明他的MVP依然是徒有虛名

賀希寧18分5助攻無濟于事，三細(xì)節(jié)說明他的MVP依然是徒有虛名

姜大叔侃球

2026-05-18 22:13:42

不解！憤怒！邁阿密贏球后遭主隊球迷嘲諷，梅西用一手勢回應(yīng)球迷

不解！憤怒！邁阿密贏球后遭主隊球迷嘲諷，梅西用一手勢回應(yīng)球迷

衣衫襤褸的文人

2026-05-18 15:31:12

鵜鶘兩周內(nèi)敲定新帥，前魔術(shù)教頭莫斯利上任

鵜鶘兩周內(nèi)敲定新帥，前魔術(shù)教頭莫斯利上任

星河漫山野

2026-05-19 02:37:36

為什么明明失業(yè)的人越來越多，整體社會依舊平穩(wěn)安定？

為什么明明失業(yè)的人越來越多，整體社會依舊平穩(wěn)安定？

玉辭心

2026-04-23 13:25:37

鰲拜倒臺，康熙審問其女：“你父親罪孽深重，該當(dāng)何罪？”

鰲拜倒臺，康熙審問其女：“你父親罪孽深重，該當(dāng)何罪？”

卡西莫多的故事

2025-12-25 09:43:53

玄學(xué)提醒：你永遠(yuǎn)不要操心你孩子的命運，看完這段話讓你釋懷

玄學(xué)提醒：你永遠(yuǎn)不要操心你孩子的命運，看完這段話讓你釋懷

金沛的國學(xué)筆記

2026-05-13 10:55:09

人不會平白無故患糖尿病！醫(yī)生強調(diào)：得糖尿病，多半有4個通病

人不會平白無故患糖尿病！醫(yī)生強調(diào)：得糖尿病，多半有4個通病

醫(yī)學(xué)原創(chuàng)故事會

2026-05-18 22:54:16

用知識和觀點Debug the world！

10783文章數(shù) 489640關(guān)注度

往期回顧全部

科技要聞

蘋果WWDC26定檔6月9日凌晨：iOS27將亮相

頭條要聞

前CIA資助研究員：美國從飛碟里撈出4種外星人

頭條要聞

前CIA資助研究員：美國從飛碟里撈出4種外星人

體育要聞

58順位的保羅，最強第三中鋒

娛樂要聞

票房會破14億！口碑第一電影出現(xiàn)了

財經(jīng)要聞

中國芯片，怎么突然不便宜了？

汽車要聞

40.98萬起！充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產(chǎn)

本地

公開課

軍事航空

教育要聞

新鮮出爐！今年各區(qū)公辦高中招生計劃變化匯總！

房產(chǎn)要聞

突發(fā)！海口重磅調(diào)規(guī)！碧桂園要解套；新埠島要起飛了！

本地新聞

用蘇繡的方式，打開江西婺源

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

軍事要聞

莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權(quán)投訴

無障礙瀏覽進入關(guān)懷版

^{<small id="rveac"></small>}

<td id="rveac"></td>