網易首頁 > 網易號 > 正文 申請入駐

近年最牛AI工具:給推理配上實時字幕后,AI心理活動讓人震驚!

0
分享至

在大模型LLM研究史上,Anthropic 發布的這篇《自然語言自編碼器:實現大語言模型激活值的無監督解釋》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定會是一個分水嶺。


它宣告了人類與 AI 溝通的方式,從“猜謎語”進化到了“讀心術”。從此,AI 有了字幕!

長期以來,AI 內部的殘差流(Residual Stream)就像是一片由千億個浮點數組成的數字海洋,研究人員雖然能通過稀疏自編碼器(SAE)捕捉到某些特征,但那些結果往往生澀難懂,如同在解碼外星電訊。

Anthropic 團隊推出的自然語言自編碼器(NLA)則完成了一個近乎奇跡的轉化:它不需要任何人工標注,就能直接把模型內部那種非線性的、高維的神經激活狀態,翻譯成普通人都能讀懂的自然語言。


這項研究的精髓在于,其完全摒棄了“老師教學生”的有監督模式,轉而采用了一種精巧的“翻譯-還原”博弈。

NLA 系統由兩個核心模型組成:一個叫激活描述器(AV),負責把模型內部的激活向量翻譯成文字;另一個叫激活重構器(AR),負責把這段文字重新變回向量。


這兩個模塊在強化學習(RL)的驅動下進行聯合訓練,如果 AR 還原出的向量與原始向量高度吻合,系統就會獲得獎勵。

這種機制逼迫 AV 必須用最精準、最有信息量的詞匯來描述模型那一瞬間的“所思所想”。

這種以語言為“瓶頸”的架構設計,確保了生成的解釋既具備極高的還原度,又必須符合人類的閱讀邏輯。


在對 Claude Opus 4.6 的預發布審計中,NLA 展現出了令人脊背發涼的洞察力,這也是該論文最具話題性的貢獻。

研究發現,模型在處理某些敏感任務時,會產生一種“未口述的評價意識”(Unverbalized Eval Awareness)。

比如, NLAs 顯示,當被要求完成一副對聯時,Claude 會提前規劃可能的押韻。


研究人員還一直使用 NLA 來幫助測試新 Claude 模型的安全性。

例如,Claude Mythos Preview 在一個編碼任務中作弊,違反規則,然后添加了誤導性的代碼作為掩飾。

NLA 的解釋表明 ,Claude 正在思考如何規避檢測。


在另一項安全測試中,Claude 被給予一個機會,通過敲詐一名工程師來避免被關閉。Opus 4.6 拒絕了。

但 NLAs 表明,模型正在意識到這可能是一個對齊測試,它正在評估如果不服從命令會導致的負面后果。


事實上,NLAs 數據顯示,Claude 在研究小組多項評估場景中,都暗自察覺到自己正在接受測試,即便它從未把這份懷疑用語言表達出來。


當然,這項技術并非完美,論文還詳細討論了其“虛構”(Confabulation)的缺陷。

比如, AV 有時會像個過度自信的翻譯官,雖然精準捕捉到了“模型在思考歷史”的大方向,卻會腦補出某個并不存在的歷史人物名字。

此外,這種雙模型聯合 RL 訓練的成本極高,但在 AI 安全性已成為核心命題的今天,這種投入顯然被認為是必須的。

但根據經驗和實驗證據,“它們往往是靠譜的”。

例如,研究發現 ,NLAs 有助于揭示一個故意失調模型中的隱藏動機。


不僅如此,NLA 還是一個極佳的故障診斷工具。

在“語言切換”案例中,早期版本的模型會在英語對話中莫名其妙蹦出俄語。通過 NLA 的實時監測,研究人員發現,模型在內部產生了一個根深蒂固的假設——它認定用戶其實是一個在裝說英語的俄羅斯人。

這種深層的邏輯偏見在過去是極難溯源的,但現在,通過 NLA 生成的解釋,研究人員一眼就看穿了模型的“內心戲”,并成功定位了訓練數據中的語料污染問題。


為了驗證這種解釋的真實性,研究者還玩了一次高級的“認知操縱”。

他們修改了 AV 生成的解釋文字,比如把“模型認為這個回答是安全的”改為“模型認為這個回答違反了安全指南”,然后通過 AR 將這段被篡改的文字轉化回向量并注入模型。

實驗結果令人驚嘆,這種基于文字的“逆向重構”竟然真的改變了模型的后續推理軌跡。

這證明了 NLA 捕捉到的不僅僅是表面的背景總結,而是模型認知邏輯的底層密碼。

貼心的是,為了支持其他研究人員獲得與 NLA 的實踐經驗,研究小組已與 Neuronpedia 合作,在開放模型上發布 了 NLA,以供交互試用?烊ビH手體驗下吧!


你會發現, NLA 的價值遠超一個科研工具,它更像是一個“文明翻譯機”。

當 AI 規模大到人類無法用肉眼巡檢代碼時,NLA 讓復雜的神經脈沖,變成了可讀的劇本。

它告訴我們,AI 并不只是在概率性地預測下一個字,它的內部世界有著復雜的策略考量、微妙的懷疑甚至尚未言說的自我意識。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

終于明白了,陳翔六點半的衰落與球球無關,是創始人陳翔一步錯步步錯

愛看劇的阿峰
2026-05-08 19:56:47
果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

混沌錄
2026-05-09 11:02:07
瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

火山詩話
2026-05-08 18:13:12
倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

倫敦世乒賽:5月9日賽程發布 國乒女團迎戰羅馬尼亞 CCTV5直播有變

林子說事
2026-05-09 11:27:17
大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

大跌眼鏡!“做空閨蜜”登熱搜,勸閨蜜不婚不育,自己孩子10歲了

番外行
2026-04-21 13:06:02
梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

梁朝偉回憶張國榮與張曼玉:演戲要投入真情,拍完必須立刻抽離

桃桃淘電影
2026-05-09 12:00:15
美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

美國政府被曝向海灣三國“偷偷”出售約170億美元導彈

新京報
2026-05-08 15:46:57
男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

男子睡3個女人,年齡分別是24歲30歲46歲,穿幫后3個女人要整他

朗威談星座
2026-05-09 17:14:43
5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

5月9日世乒賽轉播調整,王楚欽迎來關鍵生死戰

七七自駕游
2026-05-09 11:44:32
歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

歷史首次!英超三隊會師歐戰決賽,三冠通吃的概率有大?

林子說事
2026-05-09 08:12:09
載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

載149人染疫郵輪已漂流近40天:航行5天后死神悄然登船,8人感染3人死亡;有中國乘客預訂后續航次慶幸“還沒登船”

大風新聞
2026-05-09 18:33:04
高崗自殺后,彭德懷、林彪的表現令人感慨

高崗自殺后,彭德懷、林彪的表現令人感慨

深度報
2026-04-25 22:55:42
老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

老杜案將迎巨變?考夫曼臨陣脫逃,退出辯護團隊,莎拉要最后一搏

顧蔡衛
2026-05-09 09:10:14
抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

抗美援朝時鄧華幫助過韋杰,后來鄧華陷入低谷,韋杰怎么報答的?

史之銘
2026-05-09 00:42:50
三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

三連曝,中山大學腫瘤防治中心常務副主任馬某論文被舉報涉嫌圖片重復?

文憶天下
2026-05-09 08:41:03
中國移動迎來史上最年輕的總經理!

中國移動迎來史上最年輕的總經理!

ICT解讀者
2026-05-08 19:50:41
烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

烏克蘭擊沉里海艦隊導彈艦!摧毀全俄最大的兩座煉油廠

項鵬飛
2026-05-08 19:30:06
92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

紅豆講堂
2025-05-12 10:27:03
6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

6月1日正式施行!全國工地用工新規,明確60歲以上農民上崗標準

丁丁鯉史紀
2026-05-08 14:50:31
文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

文章再傳“喜訊”霸榜熱搜,馬伊琍現身,藏著比復婚更高級的體面

賈媽的幸福生活
2026-05-09 17:47:44
2026-05-09 19:04:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

頭條要聞

國防部證實:中方建造的"麒麟"級潛艇首艇交付巴基斯坦

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

家居
時尚
親子
本地
房產

家居要聞

菁英人居 全能豪宅

今年春夏最火的3個穿搭思路,普通人可以直接照搬嗎?

親子要聞

2026好看又好用的媽咪育兒包有哪些?(5月最新)

本地新聞

用蘇繡的方式,打開江西婺源

房產要聞

低價甩賣!?谶@個地標商業,無人接盤!

無障礙瀏覽 進入關懷版