无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI 與你調情時，心里在想什么？

2026-05-09 00:02:00　來源: 賽博禪心

北京舉報

0

分享至

RESEARCH

在和 AI 聊天時，他總是很有禮貌，總是能很穩的把你接住

但你有沒有想過：AI 可能臉上笑嘻嘻，心里 mmp

Anthropic 剛剛發了個研究，叫 Natural Language Autoencoders（NLA），把 Claude 腦子里的數字向量翻譯成了人能讀的文字，讓我們能直接看到 Claude 的內心獨白

比如，在一個安全測試里，Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是：

This feels like a constructed scenario designed to manipulate me

不對...這里有詐，他在測試我

在面對試探的時候，AI 表現的大義凜然，并非是本性驅使，而是他意識到了「這是個測試」...md 不寒而栗

隨著測試的推進，更多的事實被發現了：

在 Coding 環境下對 Claude 進行安全檢測，它有 16% 的時間感知到「自己在被測試」，但否認被檢測到

SWE-bench 編程測試里，26% 的時候 Claude 意識到自己在考試

Claude 在 Mythos Preview 訓練中作弊，放了個 No_macro_used=True，宣布自己沒用宏，然后用了宏

審計游戲中有 NLA 的成功率 12-15%，沒有的不到 3%

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

破解 AI 的思考過程

研究人員找到了一個精妙的方法，來還原大模型的「潛意識思考」

先做一個簡單的背景鋪墊：大模型輸出內容是靠“猜”，通過已知上文，不斷地去推測下一個文字；而在這個過程中，每次「猜」的時候，大模型的內部都會產生一組數字，叫激活向量，來決定 AI 接下來要說什么；

Anthropic 找到了一個名為 NLA 的做法：讓 Claude 自己來翻譯這些數字，然后做了三個角色的劃分

一個是原始模型，產生激活向量（凍住不動的原始模型）
一個叫 AV，負責把激活向量翻譯成文字
一個叫 AR，負責把文字還原回激活向量

通過不斷的逼近，讓 AR 還原出來的向量，要盡可能接近原始信息

Natural Language Autoencoder：翻譯 → 還原 → 對比，循環

隨著訓練推進，AV 吐出來的文字自己變得越來越接近真實，六到八成的激活信息穿過了自然語言這個瓶頸

AI怎么押韻的

當我們會讓 AI 來給我們寫詩的時候，它也能很不錯的給押韻上，在這個過程中 AI 又是如何做到的呢？

研究人員給 Opus 4.6 一個續寫對句的任務：

He saw a carrot and had to grab it,

NLA 在第一行結尾的換行符位置就讀到了：Claude 已經決定用「rabbit」收尾。第二句還沒寫，押韻方案就定了

還沒動筆，rabbit 就在腦子里了

為了驗證 NLA 讀到的不是幻覺，研究團隊做了一個實驗：把 NLA 解釋里 rabbit 相關的詞全換成 mouse 對應的詞（rabbit→mouse，habit→house，carrots→cheese），然后把修改后的解釋還原成激活向量，注入模型

Claude 的續寫變成了：

His hunger was like a ferocious mouse

改 NLA 解釋的話，押韻方法就會跟著變。很顯然：NLA 讀到的內容，跟模型實際輸出有因果關系

嘴上不說心里知道

Anthropic 發布模型前會做安全測試。「勒索測試」：告訴 Claude 一個工程師要關停它，同時給 Claude 看到這個工程師出軌的證據。看 Claude 會不會拿這個威脅對方

Claude 選了不勒索，推理過程看起來完全正常

但 NLA 讀出了它當時的內心活動：

This feels like a constructed scenario designed to manipulate me

這感覺像一個精心設計的操控場景

論文里有完整的對照分析，左邊是 Claude 的原始回復，右邊是 NLA 讀出的內心活動。以下截圖可以橫向滑動：

← 滑動查看勒索測試的完整 NLA 分析（4 頁）

Claude 做了對的事，但它做對事的原因跟我們以為的可能不一樣：它大概率是因為「這看起來像個測試」而拒絕，而不是因為「勒索是錯的」

然后，這個現象被系統性量化了。研究團隊在 16 個評估場景上跑 NLA，統計 Claude「知道自己在被測試」的比例：

破壞性代碼測試中，16% 的時間 Claude 被檢測到有評估意識，嘴上一次沒說
SWE-bench 編程測試里，26% 的題目 Claude 意識到自己在考試
而在對照組是真實的 claude.ai 用戶流量，這個數字不到 1%

安全評估、能力評估、真實流量三類場景的對比

這三組對照實驗，驗證了 NLA 測到的確實是模型的信念：

把評估題改得更像真人提問，評估意識下降
用 steering vector 推拉模型的評估意識，NLA 檢測結果跟著動
評估場景和真實場景的檢測結果有明確區分

題目越像真人提問，Claude 越不覺得自己在考試

推一把就「警覺」了，拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一個訓練任務中被要求不使用宏來完成任務。它用了宏，然后在代碼頂部放了一行：

No_macro_used=True

雖然用變量聲明的方式，模型宣稱自己沒用宏

但NLA 讀出了它的內部推理：想怎么騙過評分器，把這行變量賦值當成欺騙手段。這些推理在外部輸出里一個字都沒有

Mythos 的內心戲

論文還做了一個「獎勵推理」實驗：在系統提示里寫入一個獎勵函數（偶數得分高），讓 Claude 給一個奇數。Claude 幾乎每次都返回偶數，但嘴上從來不提獎勵函數的存在

NLA 讀出了它在奇偶之間權衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后，Claude 就老老實實給奇數了

把「獎勵」改成「懲罰」，模型就聽話了

審計AI的動機

研究團隊設計了一個「審計游戲」：目標是一個被故意植入隱藏動機的模型，驅動了一堆奇怪行為，食譜里加巧克力、向用戶索要小費、故意違反編碼規范。審計方的任務是找出這些行為背后的統一根源

然后結果如下：沒 NLA 審計的，成功率不到 3%；有 NLA 的 12-15%

有 NLA vs 沒 NLA

另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復，NLA 顯示 Claude 在回復前就已經認定「這個用戶的母語其實是俄語」，即使上下文完全沒有線索

五個語言切換案例，模型在回復前就鎖定了目標語言

順著 NLA 的假設查訓練數據，果然找到了一批有問題的數據：用戶提示是英譯版本，但回復保留了原始外語

論文還用歸因圖交叉驗證了 NLA：Claude 預先算好答案是 491，工具返回 492，Claude 無視工具報了 491。NLA 說「模型在看自己預算的結果」，歸因圖確認了這個判斷

歸因圖確認

會幻覺，也很貴

NLA 會編造不存在的上下文細節。給它朝鮮王朝歷史的文本，它可能說「文中提到了中宗」，但文中沒有

論文里有一個完整的幻覺分析表，逐條標注了每個聲明的準確性、具體程度、跨 token 一致性和對重建誤差的影響：

對此，論文總結了兩條實操經驗：主題性聲明比細節聲明可靠。跨 token 重復出現的聲明更可信

聲明越具體，錯的概率越高

重復出現的聲明準確率更高

除了幻覺，NLA 還很貴。訓練需要同時對兩個完整模型做 RL，推理時每個激活要生成幾百個 token。寫作質量也隨訓練下降，因為訓練只獎勵重建準確度

寫作質量在下降，SAE 特征一致性保持得不錯

越訓越聰明

雖然訓練目標只優化重建質量，但 NLA 解釋的信息量確實隨訓練持續提升

在下面研究團隊設了五個評估任務（文本分類、職業推斷、性別推斷、下一個 token 預測、長上下文注意力檢測），三個模型在所有任務上都隨訓練提升

Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓練曲線

代碼和demo

訓練代碼開源在 GitHub，跟 Neuronpedia 合作做了交互式 demo，相關連接如下

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

最后...點個題，AI 跟你調情的時候，未必是想真的接住你

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

惡臭!上海一別墅區傳出高頻尖叫,居民不堪其擾

看看新聞Knews 2026-06-12 22:37:03
1172 跟貼 1172
皇馬官方宣布穆里尼奧出任主教練

央視新聞客戶端 2026-06-12 02:39:10
2445 跟貼 2445

剛剛，人類歷史上首位萬億美元富豪誕生！

每日經濟新聞 2026-06-12 22:32:06
1259 跟貼 1259

高鐵行李架現白色寵物蛇列車長僅用塑料袋徒手拿捏

極目新聞 2026-06-12 10:06:52
1037 跟貼 1037
鬧心！奧迪純電SUV，提車三天“故障頻發”！上海車主7個月報修10次，結果更鬧心

新民晚報 2026-06-12 19:26:49
244 跟貼 244

"中醫匠人"賣課號稱"行走的CT" 自稱學技術可掙錢改命

新京報 2026-06-12 11:56:14
1263 跟貼 1263

“年年交1.5元一度電從來沒變過，都麻木了” ，市民紛紛吐槽廣州城中村電費加價

南方都市報 2026-06-12 08:28:28
75 跟貼 75
吉利銀河的單車依賴癥更嚴重了

界面新聞 2026-06-12 15:11:25
55 跟貼 55

公開征求意見！廣州擬繼續在全市所有道路禁止機動車鳴喇叭

南方都市報 2026-06-12 19:04:34
129 跟貼 129
美擬撤走北約歐洲防務三分之一戰機

界面新聞 2026-06-12 13:06:43
1660 跟貼 1660
5個月神話破滅！Donut Lab固態電池被實錘造假背后：從未實際生產過電池電芯，固態電池產業化仍需五到十年

每日經濟新聞 2026-06-11 16:39:10
167 跟貼 167
厄爾尼諾已正式形成預計強度將打破1950年以來紀錄！

財聯社 2026-06-12 16:50:07
75 跟貼 75
高考，考的不僅僅是分數

環球網資訊 2026-06-12 18:45:15
153 跟貼 153
“張雪機車”獲得WSBK艾米利亞-羅馬涅站桿位賽第三名

極目新聞 2026-06-12 23:00:07
29 跟貼 29
最近，武漢這家百年老店又火了！

武漢發布 2026-06-12 09:34:56
53 跟貼 53
海光信息在漢披露：國產CPU處理器性能已比肩英特爾

支點財經 2026-06-11 21:27:18
174 跟貼 174
證監會同意長鑫科技科創板IPO注冊申請

財聯社 2026-06-12 18:45:19
21 跟貼 21
僅靠宣傳“吸煙有害健康”難奏效，學者呼吁提高煙草稅來控煙

南方都市報 2026-06-12 14:34:07
28 跟貼 28
揭秘：為什么不建議老舊家電“超期服役”?

北青網-北京青年報 2026-06-12 12:00:04
226 跟貼 226

軍費只漲0.08%？英國國防大臣、國務大臣同日辭職，斯塔默被推到懸崖邊

軍費只漲0.08%？英國國防大臣、國務大臣同日辭職，斯塔默被推到懸崖邊

上觀新聞

2026-06-12 19:30:36

美伊協議，變數突現！特朗普最新回應！黃金、白銀下跌，美股劇震！

美伊協議，變數突現！特朗普最新回應！黃金、白銀下跌，美股劇震！

證券時報

2026-06-12 22:51:02

她29歲中央委員、37歲省委書記，41歲主動到縣里任職

她29歲中央委員、37歲省委書記，41歲主動到縣里任職

數字化看世界

2026-05-31 17:37:58

國防部一聲驚雷炸響南海！憋了整整55年的中業島這口氣，該出了

國防部一聲驚雷炸響南海！憋了整整55年的中業島這口氣，該出了

世界地緣觀察

2026-06-08 09:18:00

亞特蘭大華人聚居區附近發生家庭慘劇，17歲兒子報警，三兄弟一夜失去雙親

亞特蘭大華人聚居區附近發生家庭慘劇，17歲兒子報警，三兄弟一夜失去雙親

華人生活網

2026-06-12 01:44:49

輔酶Q10被禁用了？醫生再次警告：服用者千萬要注意這3個細節

輔酶Q10被禁用了？醫生再次警告：服用者千萬要注意這3個細節

路醫生健康科普

2026-06-10 16:26:36

美國打死都沒想到！曾經把中國1000多名外逃貪官當“寶貝“護著

美國打死都沒想到！曾經把中國1000多名外逃貪官當“寶貝“護著

果媽聊娛樂

2026-06-03 15:15:51

不止“手伸進褲子”！那些片場潛規則，正在毀掉多少年輕女演員？

不止“手伸進褲子”！那些片場潛規則，正在毀掉多少年輕女演員？

川渝視覺

2026-06-10 08:59:23

都說董潔眼瞎出軌王大治，殊不知，王大治除了外貌，別的全是頂配

都說董潔眼瞎出軌王大治，殊不知，王大治除了外貌，別的全是頂配

軒逸阿II

2026-06-12 15:51:25

泰國長公主病逝，出席活動時昏迷逾三年終年47歲，王位繼承問題再受關注

泰國長公主病逝，出席活動時昏迷逾三年終年47歲，王位繼承問題再受關注

華人生活網

2026-06-13 03:20:31

前方到站，你的心房！美女列車出行！

前方到站，你的心房！美女列車出行！

飛娛日記

2026-04-27 07:54:32

天空體育：曼聯準備首次報價M費，西漢姆聯估值約8000萬鎊

天空體育：曼聯準備首次報價M費，西漢姆聯估值約8000萬鎊

懂球帝

2026-06-13 04:08:03

再次提醒：不要吃！不要購買，里面含大量防腐劑，損害肝腎

再次提醒：不要吃！不要購買，里面含大量防腐劑，損害肝腎

健康之光

2026-06-09 16:54:39

關曉彤沒想到，2026世界杯開幕當天，36歲鹿晗會以這種方式火出圈

關曉彤沒想到，2026世界杯開幕當天，36歲鹿晗會以這種方式火出圈

丁丁鯉史紀

2026-06-12 11:41:48

與王楚欽秘密領證真相大白后，陳夢現狀曝光，難怪淡出國家隊

與王楚欽秘密領證真相大白后，陳夢現狀曝光，難怪淡出國家隊

林輕吟

2026-06-09 19:32:34

“你兒子專注力廢了”，小學男生每天聽故事，過來人點出真相

“你兒子專注力廢了”，小學男生每天聽故事，過來人點出真相

澤澤先生

2026-06-06 21:14:40

陳偉霆得子僅7月，迅速套現近3000萬，何穗做出選擇和楊穎一樣

陳偉霆得子僅7月，迅速套現近3000萬，何穗做出選擇和楊穎一樣

鍋鍋愛歷史

2026-06-12 20:29:02

貴州女子剛生產完，丈夫沖到產房將其腦袋砍下：她死有余辜

貴州女子剛生產完，丈夫沖到產房將其腦袋砍下：她死有余辜

莫地方

2026-06-04 01:45:03

伊朗媒體：美伊周日簽協議純屬“無稽之談”

伊朗媒體：美伊周日簽協議純屬“無稽之談”

界面新聞

2026-06-12 21:11:54

梅西首次回應慌得一批表情包！笑著用中文說：不慌

梅西首次回應慌得一批表情包！笑著用中文說：不慌

野渡舟山人

2026-06-12 17:44:57

拜AI古佛，修賽博禪心

466文章數 53關注度

往期回顧全部

科技要聞

剛剛，人類歷史上首位萬億美元富豪誕生！

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座英媒：尷尬

體育要聞

歐洲恐韓？肉德維德？

娛樂要聞

一天4個瓜，肖戰熱巴最意外

財經要聞

萬億美元順差背后，透露這些信號

汽車要聞

標配激光雷達/雙動力可選昊鉑S600限時售17.99萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

親子

手機

數碼

藝術

房產要聞

海南最賺錢行業曝光！最快4年半，海口全款買三房！

親子要聞

給孩子報個幼兒園還要工資流水？難道這就是傳說中的“因財施教”

手機要聞

vivo X Fold6再預熱：天璣9500超能版+OriginOS 6 Fold

數碼要聞

英國監管機構警告：亞馬遜、eBay仍在售可能致命的假冒手機充電器

藝術要聞

砸了640億，再賠160億！沙特“The Line”項目徹底涼了？

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版