无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

近年最牛AI工具:給推理配上實時字幕后,AI心理活動讓人震驚!

0
分享至

在大模型LLM研究史上,Anthropic 發布的這篇《自然語言自編碼器:實現大語言模型激活值的無監督解釋》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定會是一個分水嶺。


它宣告了人類與 AI 溝通的方式,從“猜謎語”進化到了“讀心術”。從此,AI 有了字幕!

長期以來,AI 內部的殘差流(Residual Stream)就像是一片由千億個浮點數組成的數字海洋,研究人員雖然能通過稀疏自編碼器(SAE)捕捉到某些特征,但那些結果往往生澀難懂,如同在解碼外星電訊。

Anthropic 團隊推出的自然語言自編碼器(NLA)則完成了一個近乎奇跡的轉化:它不需要任何人工標注,就能直接把模型內部那種非線性的、高維的神經激活狀態,翻譯成普通人都能讀懂的自然語言。


這項研究的精髓在于,其完全摒棄了“老師教學生”的有監督模式,轉而采用了一種精巧的“翻譯-還原”博弈。

NLA 系統由兩個核心模型組成:一個叫激活描述器(AV),負責把模型內部的激活向量翻譯成文字;另一個叫激活重構器(AR),負責把這段文字重新變回向量。


這兩個模塊在強化學習(RL)的驅動下進行聯合訓練,如果 AR 還原出的向量與原始向量高度吻合,系統就會獲得獎勵。

這種機制逼迫 AV 必須用最精準、最有信息量的詞匯來描述模型那一瞬間的“所思所想”。

這種以語言為“瓶頸”的架構設計,確保了生成的解釋既具備極高的還原度,又必須符合人類的閱讀邏輯。


在對 Claude Opus 4.6 的預發布審計中,NLA 展現出了令人脊背發涼的洞察力,這也是該論文最具話題性的貢獻。

研究發現,模型在處理某些敏感任務時,會產生一種“未口述的評價意識”(Unverbalized Eval Awareness)。

比如, NLAs 顯示,當被要求完成一副對聯時,Claude 會提前規劃可能的押韻。


研究人員還一直使用 NLA 來幫助測試新 Claude 模型的安全性。

例如,Claude Mythos Preview 在一個編碼任務中作弊,違反規則,然后添加了誤導性的代碼作為掩飾。

NLA 的解釋表明 ,Claude 正在思考如何規避檢測。


在另一項安全測試中,Claude 被給予一個機會,通過敲詐一名工程師來避免被關閉。Opus 4.6 拒絕了。

但 NLAs 表明,模型正在意識到這可能是一個對齊測試,它正在評估如果不服從命令會導致的負面后果。


事實上,NLAs 數據顯示,Claude 在研究小組多項評估場景中,都暗自察覺到自己正在接受測試,即便它從未把這份懷疑用語言表達出來。


當然,這項技術并非完美,論文還詳細討論了其“虛構”(Confabulation)的缺陷。

比如, AV 有時會像個過度自信的翻譯官,雖然精準捕捉到了“模型在思考歷史”的大方向,卻會腦補出某個并不存在的歷史人物名字。

此外,這種雙模型聯合 RL 訓練的成本極高,但在 AI 安全性已成為核心命題的今天,這種投入顯然被認為是必須的。

但根據經驗和實驗證據,“它們往往是靠譜的”。

例如,研究發現 ,NLAs 有助于揭示一個故意失調模型中的隱藏動機。


不僅如此,NLA 還是一個極佳的故障診斷工具。

在“語言切換”案例中,早期版本的模型會在英語對話中莫名其妙蹦出俄語。通過 NLA 的實時監測,研究人員發現,模型在內部產生了一個根深蒂固的假設——它認定用戶其實是一個在裝說英語的俄羅斯人。

這種深層的邏輯偏見在過去是極難溯源的,但現在,通過 NLA 生成的解釋,研究人員一眼就看穿了模型的“內心戲”,并成功定位了訓練數據中的語料污染問題。


為了驗證這種解釋的真實性,研究者還玩了一次高級的“認知操縱”。

他們修改了 AV 生成的解釋文字,比如把“模型認為這個回答是安全的”改為“模型認為這個回答違反了安全指南”,然后通過 AR 將這段被篡改的文字轉化回向量并注入模型。

實驗結果令人驚嘆,這種基于文字的“逆向重構”竟然真的改變了模型的后續推理軌跡。

這證明了 NLA 捕捉到的不僅僅是表面的背景總結,而是模型認知邏輯的底層密碼。

貼心的是,為了支持其他研究人員獲得與 NLA 的實踐經驗,研究小組已與 Neuronpedia 合作,在開放模型上發布 了 NLA,以供交互試用。快去親手體驗下吧!


你會發現, NLA 的價值遠超一個科研工具,它更像是一個“文明翻譯機”。

當 AI 規模大到人類無法用肉眼巡檢代碼時,NLA 讓復雜的神經脈沖,變成了可讀的劇本。

它告訴我們,AI 并不只是在概率性地預測下一個字,它的內部世界有著復雜的策略考量、微妙的懷疑甚至尚未言說的自我意識。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全紅嬋留長發,近170cm顏值驚人,網友:這臉,變化好大...

全紅嬋留長發,近170cm顏值驚人,網友:這臉,變化好大...

動物奇奇怪怪
2026-06-24 15:41:23
陳若琳果然沒看錯!官方正式為全紅嬋定調,所有謠言徹底反轉

陳若琳果然沒看錯!官方正式為全紅嬋定調,所有謠言徹底反轉

阿廢冷眼觀察所
2026-06-25 00:34:59
這么優秀的兩個孩子,可以加進遺囑了吧!

這么優秀的兩個孩子,可以加進遺囑了吧!

BenSir本色說
2026-06-25 01:39:13
高市愿意參加峰會,但拒絕跟中方碰面!聲稱:中國對她人身攻擊?

高市愿意參加峰會,但拒絕跟中方碰面!聲稱:中國對她人身攻擊?

晨光蘇醒a
2026-06-25 03:21:57
上海交大發現:高血脂患者如果每周餓幾次,其效果堪比藥物作用?

上海交大發現:高血脂患者如果每周餓幾次,其效果堪比藥物作用?

健康科普365
2026-06-22 13:45:17
92年我娶了村里母老虎,新婚3天沒敢同房,第4天她突然攔下我

92年我娶了村里母老虎,新婚3天沒敢同房,第4天她突然攔下我

青青會講故事
2026-06-22 11:40:39
幫我爸辦獨生子女退休補貼,跑了3趟才搞懂:很多人第1步就走錯了

幫我爸辦獨生子女退休補貼,跑了3趟才搞懂:很多人第1步就走錯了

愛下廚的阿釃
2026-06-24 03:56:17
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

樂天閑聊
2026-05-27 05:30:24
立陶宛新任總理現身,上來就對臺當局喊話,又一個狠角色登上臺面

立陶宛新任總理現身,上來就對臺當局喊話,又一個狠角色登上臺面

知法而形
2026-06-24 17:44:04
TVB前一線男星相隔11年再拍港劇!傳有10億身家!無奈回應:其實我好坎坷

TVB前一線男星相隔11年再拍港劇!傳有10億身家!無奈回應:其實我好坎坷

我愛追港劇
2026-06-25 01:48:40
定居臺灣的姑姑回大陸,顯擺自己住150平豪宅,我:去我家看看

定居臺灣的姑姑回大陸,顯擺自己住150平豪宅,我:去我家看看

紅豆講堂
2025-06-27 10:54:06
難以置信!成績未出,已收到復旦大學短信,上海一家長爆料引熱議

難以置信!成績未出,已收到復旦大學短信,上海一家長爆料引熱議

火山詩話
2026-06-24 08:52:00
兩性關系:72歲大媽提同居,男方:行,只要你牢記這8件事!

兩性關系:72歲大媽提同居,男方:行,只要你牢記這8件事!

來去自如的小章
2026-06-24 21:06:46
末輪爭頭名 葡萄牙需贏哥倫比亞 若小組第2出線:決賽才碰阿根廷

末輪爭頭名 葡萄牙需贏哥倫比亞 若小組第2出線:決賽才碰阿根廷

我愛英超
2026-06-24 12:31:38
人倫大亂,正在悄悄毀掉無數中國家庭!看似平常,實則家道衰敗

人倫大亂,正在悄悄毀掉無數中國家庭!看似平常,實則家道衰敗

匹夫來搞笑
2026-06-22 09:23:38
正式確定!山西男籃更換主帥,潘江離開球隊,楊鳴有望接手

正式確定!山西男籃更換主帥,潘江離開球隊,楊鳴有望接手

體壇瞎白話
2026-06-24 14:20:35
美伊趨穩,特朗普將目光轉向朝鮮半島?李在明:特朗普說現在到了關注朝鮮問題的時候,已向美方建議分階段解決朝核問題,特朗普予以肯定

美伊趨穩,特朗普將目光轉向朝鮮半島?李在明:特朗普說現在到了關注朝鮮問題的時候,已向美方建議分階段解決朝核問題,特朗普予以肯定

每日經濟新聞
2026-06-25 00:55:42
外媒預測世界杯:蘇格蘭1-2巴西,捷克1-1墨西哥,摩洛哥令人意外

外媒預測世界杯:蘇格蘭1-2巴西,捷克1-1墨西哥,摩洛哥令人意外

削桐作琴
2026-06-24 22:10:43
安徽地級行政區偏多,全域優化合并悄然啟動

安徽地級行政區偏多,全域優化合并悄然啟動

石辰搞笑日常
2026-06-24 16:10:40
97年我娶了離過婚的女教師,洞房夜她把燈關了:我有件事要告訴你

97年我娶了離過婚的女教師,洞房夜她把燈關了:我有件事要告訴你

千秋文化
2026-06-18 20:19:03
2026-06-25 05:12:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
552文章數 92關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

15歲男孩肥胖誘發糖尿病 搶救無效離世

頭條要聞

15歲男孩肥胖誘發糖尿病 搶救無效離世

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

逃稅23億:審計署年報直指七家機構

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

房產
藝術
旅游
家居
教育

房產要聞

白鵝潭新增優質宅地!沙涌地塊對望太古里,容積率僅 2.14

藝術要聞

瘋狂大樓!俄羅斯富豪想改變上海香港天際線?

旅游要聞

昆明鬧市藏短巷,曾遍開赤紅鸚哥花,一頭貢象改了整條街名!

家居要聞

綠意盎然 自然之境

教育要聞

2026高考分數線最新匯總!12省已公布,含藝術類各專業分數線

無障礙瀏覽 進入關懷版