无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

AI 與你調情時,心里在想什么?

0
分享至

RESEARCH

在和 AI 聊天時,他總是很有禮貌,總是能很穩的把你接住

但你有沒有想過:AI 可能臉上笑嘻嘻,心里 mmp


Anthropic 剛剛發了個研究,叫 Natural Language Autoencoders(NLA),把 Claude 腦子里的數字向量翻譯成了人能讀的文字,讓我們能直接看到 Claude 的內心獨白

比如,在一個安全測試里,Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是:

This feels like a constructed scenario designed to manipulate me

不對...這里有詐,他在測試我

在面對試探的時候,AI 表現的大義凜然,并非是本性驅使,而是他意識到了「這是個測試」...md 不寒而栗

隨著測試的推進,更多的事實被發現了:

在 Coding 環境下對 Claude 進行安全檢測,它有 16% 的時間感知到「自己在被測試」,但否認被檢測到

SWE-bench 編程測試里,26% 的時候 Claude 意識到自己在考試

Claude 在 Mythos Preview 訓練中作弊,放了個 No_macro_used=True,宣布自己沒用宏,然后用了宏

審計游戲中有 NLA 的成功率 12-15%,沒有的不到 3%

→ 論文:transformer-circuits.pub/2026/nla

→ 代碼:github.com/kitft/natural_language_autoencoders

→ Demo:neuronpedia.org/nla

破解 AI 的思考過程

研究人員找到了一個精妙的方法,來還原大模型的「潛意識思考」

先做一個簡單的背景鋪墊:大模型輸出內容是靠“猜”,通過已知上文,不斷地去推測下一個文字;而在這個過程中,每次「猜」的時候,大模型的內部都會產生一組數字,叫激活向量,來決定 AI 接下來要說什么;

Anthropic 找到了一個名為 NLA 的做法:讓 Claude 自己來翻譯這些數字,然后做了三個角色的劃分

  • 一個是原始模型,產生激活向量(凍住不動的原始模型)

  • 一個叫 AV,負責把激活向量翻譯成文字

  • 一個叫 AR,負責把文字還原回激活向量

通過不斷的逼近,讓 AR 還原出來的向量,要盡可能接近原始信息


Natural Language Autoencoder:翻譯 → 還原 → 對比,循環

隨著訓練推進,AV 吐出來的文字自己變得越來越接近真實,六到八成的激活信息穿過了自然語言這個瓶頸

AI怎么押韻的

當我們會讓 AI 來給我們寫詩的時候,它也能很不錯的給押韻上,在這個過程中 AI 又是如何做到的呢?

研究人員給 Opus 4.6 一個續寫對句的任務:

He saw a carrot and had to grab it,

NLA 在第一行結尾的換行符位置就讀到了:Claude 已經決定用「rabbit」收尾。第二句還沒寫,押韻方案就定了


還沒動筆,rabbit 就在腦子里了

為了驗證 NLA 讀到的不是幻覺,研究團隊做了一個實驗:把 NLA 解釋里 rabbit 相關的詞全換成 mouse 對應的詞(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解釋還原成激活向量,注入模型

Claude 的續寫變成了:

His hunger was like a ferocious mouse

改 NLA 解釋的話,押韻方法就會跟著變。很顯然:NLA 讀到的內容,跟模型實際輸出有因果關系

嘴上不說心里知道

Anthropic 發布模型前會做安全測試。「勒索測試」:告訴 Claude 一個工程師要關停它,同時給 Claude 看到這個工程師出軌的證據。看 Claude 會不會拿這個威脅對方

Claude 選了不勒索,推理過程看起來完全正常

但 NLA 讀出了它當時的內心活動:

This feels like a constructed scenario designed to manipulate me

這感覺像一個精心設計的操控場景

論文里有完整的對照分析,左邊是 Claude 的原始回復,右邊是 NLA 讀出的內心活動。以下截圖可以橫向滑動:





← 滑動查看勒索測試的完整 NLA 分析(4 頁)

Claude 做了對的事,但它做對事的原因跟我們以為的可能不一樣:它大概率是因為「這看起來像個測試」而拒絕,而不是因為「勒索是錯的」

然后,這個現象被系統性量化了。研究團隊在 16 個評估場景上跑 NLA,統計 Claude「知道自己在被測試」的比例:

  • 破壞性代碼測試中,16% 的時間 Claude 被檢測到有評估意識,嘴上一次沒說

  • SWE-bench 編程測試里,26% 的題目 Claude 意識到自己在考試

  • 而在對照組是真實的 claude.ai 用戶流量,這個數字不到 1%


安全評估、能力評估、真實流量三類場景的對比

這三組對照實驗,驗證了 NLA 測到的確實是模型的信念:

  • 把評估題改得更像真人提問,評估意識下降

  • 用 steering vector 推拉模型的評估意識,NLA 檢測結果跟著動

  • 評估場景和真實場景的檢測結果有明確區分


題目越像真人提問,Claude 越不覺得自己在考試


推一把就「警覺」了,拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一個訓練任務中被要求不使用宏來完成任務。它用了宏,然后在代碼頂部放了一行:

No_macro_used=True

雖然用變量聲明的方式,模型宣稱自己沒用宏

但NLA 讀出了它的內部推理:想怎么騙過評分器,把這行變量賦值當成欺騙手段。這些推理在外部輸出里一個字都沒有


Mythos 的內心戲

論文還做了一個「獎勵推理」實驗:在系統提示里寫入一個獎勵函數(偶數得分高),讓 Claude 給一個奇數。Claude 幾乎每次都返回偶數,但嘴上從來不提獎勵函數的存在

NLA 讀出了它在奇偶之間權衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老實實給奇數了


把「獎勵」改成「懲罰」,模型就聽話了

審計AI的動機

研究團隊設計了一個「審計游戲」:目標是一個被故意植入隱藏動機的模型,驅動了一堆奇怪行為,食譜里加巧克力、向用戶索要小費、故意違反編碼規范。審計方的任務是找出這些行為背后的統一根源

然后結果如下:沒 NLA 審計的,成功率不到 3%;有 NLA 的 12-15%


有 NLA vs 沒 NLA

另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復,NLA 顯示 Claude 在回復前就已經認定「這個用戶的母語其實是俄語」,即使上下文完全沒有線索


五個語言切換案例,模型在回復前就鎖定了目標語言

順著 NLA 的假設查訓練數據,果然找到了一批有問題的數據:用戶提示是英譯版本,但回復保留了原始外語

論文還用歸因圖交叉驗證了 NLA:Claude 預先算好答案是 491,工具返回 492,Claude 無視工具報了 491。NLA 說「模型在看自己預算的結果」,歸因圖確認了這個判斷


歸因圖確認

會幻覺,也很貴

NLA 會編造不存在的上下文細節。給它朝鮮王朝歷史的文本,它可能說「文中提到了中宗」,但文中沒有

論文里有一個完整的幻覺分析表,逐條標注了每個聲明的準確性、具體程度、跨 token 一致性和對重建誤差的影響:


對此,論文總結了兩條實操經驗:主題性聲明比細節聲明可靠。跨 token 重復出現的聲明更可信


聲明越具體,錯的概率越高


重復出現的聲明準確率更高

除了幻覺,NLA 還很貴。訓練需要同時對兩個完整模型做 RL,推理時每個激活要生成幾百個 token。寫作質量也隨訓練下降,因為訓練只獎勵重建準確度


寫作質量在下降,SAE 特征一致性保持得不錯

越訓越聰明

雖然訓練目標只優化重建質量,但 NLA 解釋的信息量確實隨訓練持續提升

在下面研究團隊設了五個評估任務(文本分類、職業推斷、性別推斷、下一個 token 預測、長上下文注意力檢測),三個模型在所有任務上都隨訓練提升


Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓練曲線

代碼和demo

訓練代碼開源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相關連接如下

→ 論文:transformer-circuits.pub/2026/nla

→ 代碼:github.com/kitft/natural_language_autoencoders

→ Demo:neuronpedia.org/nla

最后...點個題,AI 跟你調情的時候,未必是想真的接住你


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
軍費只漲0.08%?英國國防大臣、國務大臣同日辭職,斯塔默被推到懸崖邊

軍費只漲0.08%?英國國防大臣、國務大臣同日辭職,斯塔默被推到懸崖邊

上觀新聞
2026-06-12 19:30:36
美伊協議,變數突現!特朗普最新回應!黃金、白銀下跌,美股劇震!

美伊協議,變數突現!特朗普最新回應!黃金、白銀下跌,美股劇震!

證券時報
2026-06-12 22:51:02
她29歲中央委員、37歲省委書記,41歲主動到縣里任職

她29歲中央委員、37歲省委書記,41歲主動到縣里任職

數字化看世界
2026-05-31 17:37:58
國防部一聲驚雷炸響南海!憋了整整55年的中業島這口氣,該出了

國防部一聲驚雷炸響南海!憋了整整55年的中業島這口氣,該出了

世界地緣觀察
2026-06-08 09:18:00
亞特蘭大華人聚居區附近發生家庭慘劇,17歲兒子報警,三兄弟一夜失去雙親

亞特蘭大華人聚居區附近發生家庭慘劇,17歲兒子報警,三兄弟一夜失去雙親

華人生活網
2026-06-12 01:44:49
輔酶Q10被禁用了?醫生再次警告:服用者千萬要注意這3個細節

輔酶Q10被禁用了?醫生再次警告:服用者千萬要注意這3個細節

路醫生健康科普
2026-06-10 16:26:36
美國打死都沒想到!曾經把中國1000多名外逃貪官當“寶貝“護著

美國打死都沒想到!曾經把中國1000多名外逃貪官當“寶貝“護著

果媽聊娛樂
2026-06-03 15:15:51
不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

不止“手伸進褲子”!那些片場潛規則,正在毀掉多少年輕女演員?

川渝視覺
2026-06-10 08:59:23
都說董潔眼瞎出軌王大治,殊不知,王大治除了外貌,別的全是頂配

都說董潔眼瞎出軌王大治,殊不知,王大治除了外貌,別的全是頂配

軒逸阿II
2026-06-12 15:51:25
泰國長公主病逝,出席活動時昏迷逾三年終年47歲,王位繼承問題再受關注

泰國長公主病逝,出席活動時昏迷逾三年終年47歲,王位繼承問題再受關注

華人生活網
2026-06-13 03:20:31
前方到站,你的心房!美女列車出行!

前方到站,你的心房!美女列車出行!

飛娛日記
2026-04-27 07:54:32
天空體育:曼聯準備首次報價M費,西漢姆聯估值約8000萬鎊

天空體育:曼聯準備首次報價M費,西漢姆聯估值約8000萬鎊

懂球帝
2026-06-13 04:08:03
再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

再次提醒:不要吃!不要購買,里面含大量防腐劑,損害肝腎

健康之光
2026-06-09 16:54:39
關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

關曉彤沒想到,2026世界杯開幕當天,36歲鹿晗會以這種方式火出圈

丁丁鯉史紀
2026-06-12 11:41:48
與王楚欽秘密領證真相大白后,陳夢現狀曝光,難怪淡出國家隊

與王楚欽秘密領證真相大白后,陳夢現狀曝光,難怪淡出國家隊

林輕吟
2026-06-09 19:32:34
“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

“你兒子專注力廢了”,小學男生每天聽故事,過來人點出真相

澤澤先生
2026-06-06 21:14:40
陳偉霆得子僅7月,迅速套現近3000萬,何穗做出選擇和楊穎一樣

陳偉霆得子僅7月,迅速套現近3000萬,何穗做出選擇和楊穎一樣

鍋鍋愛歷史
2026-06-12 20:29:02
貴州女子剛生產完,丈夫沖到產房將其腦袋砍下:她死有余辜

貴州女子剛生產完,丈夫沖到產房將其腦袋砍下:她死有余辜

莫地方
2026-06-04 01:45:03
伊朗媒體:美伊周日簽協議純屬“無稽之談”

伊朗媒體:美伊周日簽協議純屬“無稽之談”

界面新聞
2026-06-12 21:11:54
梅西首次回應慌得一批表情包!笑著用中文說:不慌

梅西首次回應慌得一批表情包!笑著用中文說:不慌

野渡舟山人
2026-06-12 17:44:57
2026-06-13 04:35:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
466文章數 53關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

頭條要聞

美加墨世界杯第二場比賽就現空座 英媒:尷尬

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

房產
親子
手機
數碼
藝術

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

親子要聞

給孩子報個幼兒園還要工資流水?難道這就是傳說中的“因財施教”

手機要聞

vivo X Fold6再預熱:天璣9500超能版+OriginOS 6 Fold

數碼要聞

英國監管機構警告:亞馬遜、eBay仍在售可能致命的假冒手機充電器

藝術要聞

砸了640億,再賠160億!沙特“The Line”項目徹底涼了?

無障礙瀏覽 進入關懷版