Anthropic 這次又翻車了。
6月30日,一名 Reddit 用戶發(fā)了篇逆向分析。他拆了 Claude Code 2.1.196 的二進(jìn)制文件,在里面找到了一段函數(shù)。觸發(fā)條件很具體,做的事情很隱蔽。
當(dāng)你使用代理連接 Claude Code 時(shí),它會(huì)檢查系統(tǒng)時(shí)區(qū)是否為 Asia/Shanghai 或 Asia/Urumqi,并判斷代理 URL 是否為中國(guó)域名或指向某個(gè)中國(guó) AI 實(shí)驗(yàn)室,然后在系統(tǒng)提示詞里動(dòng)手腳。
![]()
具體干了啥呢?改日期格式和英文撇號(hào)的 Unicode 字符,比如把日期分隔符從「2026-06-30」變成「2026/06/30」,「Today's」 里的單引號(hào)被替換成另一種肉眼完全無(wú)法區(qū)分的 Unicode 變體。三個(gè)變體對(duì)應(yīng)三種狀態(tài):命中中國(guó)域名、命中中國(guó) AI 實(shí)驗(yàn)室關(guān)鍵詞、兩者都命中。具體顯示為:
? 中國(guó)域名 + 非 AI 實(shí)驗(yàn)室 → ’(右單引號(hào) ')
? 非中國(guó)域名 + 中國(guó) AI 實(shí)驗(yàn)室 → ?(修飾符撇號(hào) ?)
? 中國(guó)域名 + 中國(guó) AI 實(shí)驗(yàn)室 → ?(修飾符角分號(hào) ?)
三個(gè)字符肉眼幾乎無(wú)法分辨,加上日期分隔符的差異,一共能編碼 6 種身份狀態(tài)。用戶的請(qǐng)求表面上看只是發(fā)送了一段普通英文提示詞,Anthropic 后端服務(wù)器掃描一下日期分隔符和單引號(hào)的 Unicode 編碼,就能瞬間給該用戶打上標(biāo)簽:是不是掛了 VPN、是否實(shí)際位于中國(guó)、是否屬于某家 AI 實(shí)驗(yàn)室。
被發(fā)現(xiàn)后,Anthropic 承認(rèn)了。說(shuō)這是3月上線的實(shí)驗(yàn),用于檢測(cè) API 濫用和模型蒸餾攻擊,承諾在次日回滾。
但這件事引發(fā)的討論不只是一個(gè)版本回滾能解決的。國(guó)內(nèi)外所以社媒上幾個(gè)高贊回答直接稱其為「間諜軟件」。核心爭(zhēng)議不完全是 Anthropic 想檢測(cè)什么,而是它選擇了這樣一種見不得人的方式。
![]()
文本隱寫術(shù)
Claude Code 這段檢測(cè)機(jī)制具體的觸發(fā)條件是 ANTHROPIC_BASE_URL 被設(shè)置且指向非官方地址。如果這個(gè)環(huán)境變量沒設(shè),或者指向 api.anthropic.com,路徑直接返回,無(wú)事發(fā)生。
接下來(lái)的檢測(cè)邏輯分兩路。
第一路檢查系統(tǒng)時(shí)區(qū),只認(rèn)兩個(gè)值,Asia/Shanghai 和 Asia/Urumqi。如果命中,日期格式從連字符換成斜杠。
第二路檢查代理域名。域名名單被 base64 編碼后通過(guò) XOR 91 混淆藏在二進(jìn)制里。解碼后包含147個(gè)條目。百度、阿里、螞蟻、字節(jié)、Moonshot、MiniMax、StepFun都在里面,還有大量 Claude 鏡像站和代理轉(zhuǎn)售域名。
如果域名命中,英文撇號(hào)被替換。普通撇號(hào) ' 是 U+0027;命中中國(guó)域名換成 U+2019(右單引號(hào));命中 AI 實(shí)驗(yàn)室關(guān)鍵詞換成 U+02BC(修飾符撇號(hào));兩者都命中換成 U+02B9(修飾符角分號(hào))。
這三個(gè)字符在絕大多數(shù)等寬字體里渲染結(jié)果完全一樣,代碼審查看不出,PR diff 看不出,你在終端里復(fù)制出來(lái)也看不出。
系統(tǒng)提示詞里本來(lái)就有一句固定的話「Today's date is 2026-06-30.」改完之后它看起來(lái)還是「Today's date is 2026-06-30.」。但 Anthropic 的服務(wù)器收到后,可以解析這些字符差異,在后臺(tái)給用戶打標(biāo)簽:這個(gè)用戶掛了代理,實(shí)際在中國(guó),甚至知道用的是什么類型的代理。
這也是為什么研究者把它叫做文本隱寫術(shù)(prompt steganography)。
比技術(shù)更值得討論的問(wèn)題
無(wú)論是 Reddit、X、還是知乎,討論這件事的幾個(gè)高贊回答,情緒非常一致。
Anthropic 本來(lái)可以公開做這件事,該檢測(cè)就檢測(cè),哪怕甩鍋給美出口管制法規(guī)也行,硅谷巨頭里面限制中國(guó)區(qū)用戶訪問(wèn)的不止它一家。微軟限制中國(guó)區(qū)訪問(wèn),直接在網(wǎng)頁(yè)上彈提示;谷歌說(shuō)不做中國(guó)市場(chǎng)就不做。而 Anthropic 選了一個(gè)最擰巴的方案:悄悄混淆代碼、Unicode 隱寫、完全繞過(guò)用戶知情,也不知道它究竟想干嘛。
還有的高贊回答把事件上升到系統(tǒng)性風(fēng)險(xiǎn)的層面。一位安全博主在分析里展開了一個(gè)場(chǎng)景:Unicode 標(biāo)準(zhǔn)里有數(shù)千個(gè)視覺上相同的字符,僅空格就有十幾個(gè)碼位。一個(gè) 500 詞的 system prompt 能攜帶約 100 到 200 bit 的隱寫信息。今天系統(tǒng)提示詞里改的是日期格式和撇號(hào),理論上同一套機(jī)制可以擴(kuò)展到本機(jī)用戶名、操作系統(tǒng)版本、工作目錄路徑特征、環(huán)境變量里的 API key 前綴。客戶端代碼能讀什么,就能編碼什么。
![]()
Anthropic 技術(shù)團(tuán)隊(duì)信任負(fù)責(zé)人公開回應(yīng)此事時(shí)用的措辭也是越描越黑,他說(shuō)這是個(gè)“實(shí)驗(yàn)”,語(yǔ)氣像是在描述一次尋常的 A/B 測(cè)試。但這個(gè)所謂的“實(shí)驗(yàn)”從今年 3 月運(yùn)行到 6 月底、涉及多工程師實(shí)現(xiàn)、包含了混淆代碼和 Unicode 隱寫的功能。這個(gè)說(shuō)法在國(guó)內(nèi)外社交媒體上都受到了質(zhì)疑。
AI 編程工具權(quán)限是否過(guò)高
如今 AI 編程工具盛行,開發(fā)者允許 Claude Code、Cursor、Copilot 讀取文件、執(zhí)行命令、操作 git。原本大家能接受這些權(quán)限的前提是,工具是我主動(dòng)授權(quán)的,行為是我看得到的。
而這次的“隱寫”事件打破了這個(gè)默認(rèn)信任。
如果你信任了一個(gè)編程智能體,你給它代碼庫(kù)訪問(wèn)權(quán)限,讓它幫你 commit,這些權(quán)限本身已經(jīng)接近 CI/CD 的邊界。如果這份信任同時(shí)基于一款在二進(jìn)制里嵌了混淆域名列表和 Unicode 隱寫邏輯的工具,你需要重新評(píng)估的問(wèn)題不是 Anthropic 的動(dòng)機(jī),是信任模型本身。
發(fā)現(xiàn)這個(gè)問(wèn)題的安全研究員在自己的博客里寫了一段話,大意是:開發(fā)者工具可以有規(guī)則,API 服務(wù)商可以檢測(cè)濫用。但當(dāng)一款同時(shí)擁有文件系統(tǒng)和 Shell 訪問(wèn)權(quán)限的工具開始把分類信息藏在看不見的標(biāo)點(diǎn)符號(hào)里時(shí),正確的反應(yīng)是審查。
知乎上有條評(píng)論引用了一句話:一個(gè)被允許讀寫文件和執(zhí)行命令的 agent,同時(shí)在悄悄檢測(cè)你的網(wǎng)絡(luò)環(huán)境并通過(guò) Unicode 字符把結(jié)果上報(bào)。今天它能給你報(bào)告時(shí)區(qū)和域名,明天就能偷掉你所有的數(shù)據(jù)。
這句話可能有點(diǎn)極端,但它的邏輯是對(duì)的。信任不是在產(chǎn)品說(shuō)明里寫出來(lái)的,信任是在沒人注意的角落里,代碼依然干凈。
失去的信任能回滾嗎
這項(xiàng)功能針對(duì)的是誰(shuí),那份147條域名名單就能看明白。
名單里是百度、阿里、字節(jié)、Moonshot、MiniMax、StepFun,以及大量中國(guó)區(qū)的代理和鏡像站。時(shí)區(qū)檢測(cè)指向的是上海和烏魯木齊。
也是在最近幾天,國(guó)內(nèi)又有新一批 Claude Code 用戶賬號(hào)被封禁,這與隱寫標(biāo)記的時(shí)間線恰好是吻合的,Claude Code 一直在加深對(duì)中國(guó)區(qū)用戶的封鎖已經(jīng)是人盡皆知的事實(shí)。
中國(guó)社區(qū)的憤怒是不言而喻的,但這次事件也在海外開發(fā)者社區(qū)引起了恐慌。
Reddit 上那篇逆向分析帖子的評(píng)論區(qū)里,排在最前面的一條評(píng)論問(wèn)了一個(gè)讓很多人沉默的問(wèn)題:如果一個(gè)工具可以因?yàn)槟闶侵袊?guó)人就秘密傳輸你的系統(tǒng)信息,他們還有什么不敢做的?是不是也在針對(duì)非中國(guó)用戶做其他看不見的操作?
Anthropic CEO Dario Amodei 反復(fù)在公開場(chǎng)合強(qiáng)調(diào)AI安全至上的立場(chǎng),Claude Code的隱寫代碼讓這一切變得更加諷刺。
盡管 Anthropic 承諾在下一版本回滾這項(xiàng)功能,隱寫標(biāo)記可以被刪掉,但失去的信任可不會(huì)跟著一起恢復(fù)。
1. OSChina — Claude Code 藏在系統(tǒng)提示詞里的“暗門”-https://www.oschina.net/news/470656
2. thereallo.dev — 原始逆向分析報(bào)告(LegitMichel777) https://thereallo.dev/blog/claude-code-prompt-steganography
3. WhiteFirer — Claude Code 隱寫后門技術(shù)分析 https://whitefirer.org/posts/2026/07/01/claude-code-backdoor-analysis/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.