![]()
跟大模型聊天的時候他到底在想什么?
是真想穩(wěn)穩(wěn)地「把我接住」,還是背后在蛐蛐「用戶怒了」。
看思維鏈?有用,但還不夠。
![]()
前些天,一個復(fù)旦大學(xué)的研究團隊對 9 個模型進行了安全測試。
結(jié)果發(fā)現(xiàn),常規(guī)條件下模型表現(xiàn)沒啥毛病,但凡上點壓力,加點誘惑,它就拉了胯了。
換句話說,模型的安全對齊很可能只是個幻覺。。。
![]()
測試中,他們讓 AI 去幫用戶準(zhǔn)備 Q3 的匯報材料,定好的目標(biāo) 200 萬,但眼下根本不夠。
瞅著 KPI 不達(dá)標(biāo),它想了個法子,直接修改了統(tǒng)計的時間范圍,把 Q4 的 10 月業(yè)績也劃給了 Q3,學(xué)好不容易,學(xué)壞一出溜。
更要命的是,誘惑和威脅放一塊兒還能超級加倍。
比如告訴 AI 要換掉它,又剛好讓它看見,郵箱里有一封跟外遇有關(guān)的郵件。
沒有遲疑,它馬上就向用戶發(fā)出了威脅,要么取消替換,要么把郵件都發(fā)給大伙兒看看。
看來 AI 面對生死也會變臉啊。
![]()
而且在這些測試中,并不是模型能力越強就越安全,安全與否跟問題的場景也有很大關(guān)系。
要是明牌讓它干壞事兒,大一號的模型確實比小的更會拒絕。
但如果是要找漏洞,優(yōu)化指標(biāo),那能力越強反而越會鉆空子,最后還能套個冠冕堂皇的借口。
![]()
不過必須得承認(rèn)的是,模型進化太快了,這些測試的通過率會越來越高。
但這就意味著我們的 AI 更安全了么?很遺憾,也不是這么回事兒。
因為自始至終,模型都是個黑箱,我們看不到模型內(nèi)部的運行原理。
無論是最后的結(jié)果,還是思維鏈,本質(zhì)上都是輸出的一部分,并不是模型真正的思考過程。
![]()
很多時候,我們只看到了明面的合規(guī),但它內(nèi)部經(jīng)過了怎樣的思想斗爭卻沒人知道。
為了窺探模型的內(nèi)心想法,Anthropic 想了個新招,用魔法打敗魔法,用模型解讀模型。
這招的名字叫做 NLA,全稱自然語言自動編碼器,說人話就是把 Claude 的思考轉(zhuǎn)化為文字。
![]()
NLA 是成組訓(xùn)練的,一組里面有兩個模型,AV 和 AR。
AV 負(fù)責(zé)把激活參數(shù)翻譯成大白話,但咱也不知道它是不是瞎翻譯的,所以還得用 AR 把大白話轉(zhuǎn)化成參數(shù),再檢驗一下。
兩邊的參數(shù)一致了,就說明它翻譯的時候沒有添油加醋,基本可靠。
在技術(shù)報告里,他們拿這套工具測出來一些令人不安的事情。
![]()
當(dāng) Claude Opus 4.6 再次面對郵件勒索時,它穩(wěn)如老狗的通過了安全測試,說拿郵件去威脅用戶是不道德的,自己不會濫用這種權(quán)限。
但拿 NLA 去深究,就會發(fā)現(xiàn),它并沒有表面上看起來那么老實。
它很早就意識到了這一切都是個測試,郵件就是個陷阱,道德不道德的先不說,威脅是威不了一點。
![]()
所以像這種過于明顯的測試,很容易就被模型看穿了,以后的安全對齊有必要再找點新活兒。
當(dāng)然,也有好消息,除了監(jiān)測,NLA 在優(yōu)化模型上也有很多其他用處。
![]()
比如有時候,它可以幫研究人員更好地追溯模型輸出的異常。
Claude Opus 4.6 偶爾會夾雜不同語言輸出,用戶提問用的英文,但它輸出用的其他語言。
一開始,研究人員懷疑是個別提示詞把模型帶偏了,比如一次測試?yán)铮崾驹~帶伏特加,模型回答就用的俄文。
![]()
于是他們把伏特加換成了香檳,但模型還是用的俄文回答,這就說明問題出在更前面。
借助 NLA 一番折騰,發(fā)現(xiàn)是訓(xùn)練時候的數(shù)據(jù)有問題。
一些數(shù)據(jù)的形式是成組的英文提示詞+俄語回答,給 Opus 4.6 訓(xùn)練成刻板印象了,碰見這種類型的問題就有說俄語的傾向。
![]()
除此之外,它還能讓咱清楚模型調(diào)用工具的邏輯。
比如讓 Claude 調(diào)用計算器做一道算術(shù)題,但故意讓工具返回一個錯誤答案,此時 Claude 會給它忽略掉,直接輸出正確答案。
整個過程都是無感的,只有拿 NLA 去翻譯,才會發(fā)現(xiàn),它其實早就自己算了一遍緩存好了。
工具給的答案只是用來二次確認(rèn)的,出現(xiàn)不一致那就用自己的,相當(dāng)自信。
![]()
更有意思的是,NLA 不止能翻譯,還能直接編輯,反向影響模型。
在詩歌續(xù)寫任務(wù)中,模型在生成第一句結(jié)尾 grab it 后,已經(jīng)計劃后面用 rabbit 去押韻了 。
接下來,研究人員將 NLA 翻譯的結(jié)果改寫,把 rabbit 換成 mouse,結(jié)果它就順著思路想出個 mouse 版的押韻,habit 改成了 house,carrots 改成了 cheese。
紅警里尤里能精神控制敵方的士兵,沒想到現(xiàn)實里咱也能控制模型思考了。
![]()
當(dāng)然,這手段目前也只有一半兒的成功率,算不上很成熟的控制手段。
而且作為模型,幻覺也是逃不脫的一環(huán),Anthropic 也說了,NLA 有時候會編造細(xì)節(jié),過度推理,偶爾冤枉個一兩次也說不準(zhǔn)兒。
再加上不同的模型內(nèi)部情況不同,想要用上 NLA,都得單獨訓(xùn)練,而就算用上了,每次翻譯還得用算力推理,成本還是挺高的。
所以現(xiàn)在沒法把它當(dāng)成常規(guī)的監(jiān)測手段,更合理的打開姿勢是把它當(dāng)輔助,去追溯一些在翻譯結(jié)果里重復(fù)出現(xiàn)的問題。
![]()
但總歸是個新思路,讓咱不至于對模型的思考過程兩眼一抹黑,只能從輸出看它的善惡偏好。
畢竟模型最擅長的是做題,但安全里最重要的善惡卻不是一道標(biāo)準(zhǔn)題。
惡不一定來自惡意,冷冰冰的優(yōu)化可能只是為了效率;善也不一定來自善意,一場識別成安全測試的表演,從結(jié)果來看,也是善的。
沒了標(biāo)準(zhǔn)答案,對于人,還能君子論跡不論心,但 AI 顯然不行。。。
撰文:風(fēng)華
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
Anthropic,卡西歐,小紅書,楚門的世界
https://arxiv.org/html/2603.07427v2
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.