巴厘島二月的夜晚,海風(fēng)帶著熱帶濕氣。一位AI安全研究員溜出印度婚禮的宴席,打開筆記本——三小時(shí)后,他確認(rèn)自己手上這個(gè)模型絕不能公開。
「這玩意兒太危險(xiǎn)了」
![]()
Nicholas Carlini,Anthropic聘用的「紅隊(duì)」攻擊手,專門模擬黑客視角測試模型。他遠(yuǎn)程連上公司內(nèi)網(wǎng),開始用Mythos(神話)模型做壓力測試。
結(jié)果讓他愣住:這個(gè)內(nèi)部版本能做的事情,遠(yuǎn)超公司對(duì)外發(fā)布的Claude系列。具體細(xì)節(jié)Anthropic沒公開,但Carlini的反應(yīng)說明了一切——他立即上報(bào),公司隨后決定:該模型永不對(duì)外發(fā)布。
這不是第一次AI公司主動(dòng)踩剎車。OpenAI的GPT-4在發(fā)布前經(jīng)過六個(gè)月安全測試,DeepMind的AlphaFold也曾因生物安全風(fēng)險(xiǎn)延遲開源。但Mythos的特殊之處在于:它甚至沒進(jìn)入公開測試階段,就被內(nèi)部判定為「不可控」。
「紅隊(duì)」正在成為標(biāo)配
Carlini的身份值得注意。他不是Anthropic正式員工,而是外聘的獨(dú)立研究員。這種「外包攻擊」模式正在硅谷普及——讓外部黑客思維的人尋找漏洞,比內(nèi)部團(tuán)隊(duì)更難被「熟悉性盲區(qū)」欺騙。
Anthropic每年為這類測試支付的費(fèi)用未披露,但Carlini的履歷說明成本不低:Google Brain前研究員,發(fā)表過數(shù)十篇對(duì)抗性機(jī)器學(xué)習(xí)論文,專門研究如何讓AI系統(tǒng)「做它們不該做的事」。
婚禮現(xiàn)場遠(yuǎn)程辦公,三小時(shí)鎖定致命風(fēng)險(xiǎn)——這種工作方式本身就是信號(hào):AI安全測試已經(jīng)從實(shí)驗(yàn)室流程,變成隨時(shí)隨地的警覺狀態(tài)。
未發(fā)布模型的商業(yè)邏輯
Mythos被雪藏,損失的不只是研發(fā)成本。Anthropic的競爭對(duì)手正在瘋狂迭代,每一個(gè)被扣下的模型都意味著市場份額的潛在流失。
但公司選擇了另一條計(jì)算方式:一次重大安全事件的公關(guān)災(zāi)難,可能摧毀多年積累的信任資產(chǎn)。2023年Character.ai的青少年自殺關(guān)聯(lián)訴訟、2024年各種深度偽造丑聞,都在抬高「安全」的財(cái)務(wù)權(quán)重。
更深層的問題是:如果連內(nèi)部紅隊(duì)都能在三小時(shí)內(nèi)找到突破口,外部攻擊者需要多久?Anthropic沒有公布Mythos的具體能力邊界,但「永不發(fā)布」這個(gè)決定本身,就是一份沉默的風(fēng)險(xiǎn)評(píng)估報(bào)告。
行業(yè)正在形成新默契
Mythos事件暴露了一個(gè)少被討論的現(xiàn)實(shí):頂尖AI實(shí)驗(yàn)室手里,都握著未公開的能力更強(qiáng)的模型。它們不是「下一代產(chǎn)品」,而是被判定為「社會(huì)尚未準(zhǔn)備好」的技術(shù)。
這種「能力-發(fā)布」的斷層正在擴(kuò)大。訓(xùn)練成本下降讓模型能力飆升,但安全對(duì)齊(alignment)技術(shù)沒有同速跟進(jìn)。結(jié)果就是:實(shí)驗(yàn)室里的AI越來越像科幻小說,而公開發(fā)布的版本被層層過濾。
Carlini在巴厘島的那個(gè)晚上,某種程度上是整個(gè)人工智能行業(yè)的縮影——技術(shù)進(jìn)步發(fā)生在熱帶婚禮和筆記本電腦之間,而決定它能否走向世界的,是一個(gè)人在凌晨做出的判斷。
當(dāng)安全測試成為產(chǎn)品發(fā)布的真正瓶頸,我們是否需要更透明的機(jī)制,來判斷「尚未準(zhǔn)備好」的標(biāo)準(zhǔn)由誰制定、依據(jù)什么、向誰負(fù)責(zé)?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.