无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易科技 > IT業(yè)界 > 正文

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

0
分享至

7月1日消息,當(dāng)?shù)貢r(shí)間周二,Anthropic宣布恢復(fù)Claude Fable 5訪問(wèn)。公告里的新信息不止模型重新上線:公司第一次系統(tǒng)解釋,什么樣的AI越獄應(yīng)被視為嚴(yán)重風(fēng)險(xiǎn)。

Anthropic在官網(wǎng)發(fā)布長(zhǎng)文稱,美國(guó)政府已解除對(duì)Claude Fable 5和Claude Mythos 5的出口管制。Fable 5將從7月1日起重新面向全球用戶開放,覆蓋Claude Platform、Claude.ai、Claude Code和Claude Cowork。Pro、Max、Team和部分Enterprise用戶在7月7日前可把Fable 5用于最多50% 的每周使用額度;之后將通過(guò)用量積分繼續(xù)使用。Anthropic還稱,將盡快在AWS、Google Cloud和Microsoft Foundry上重新啟用訪問(wèn)。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Mythos 5則已在美國(guó)政府6月26日批準(zhǔn)后,先向一批美國(guó)機(jī)構(gòu)恢復(fù)訪問(wèn),并將繼續(xù)與政府協(xié)調(diào),擴(kuò)大到Glasswing項(xiàng)目中的更多國(guó)內(nèi)和國(guó)際合作伙伴。

如果只看結(jié)果,這像是一場(chǎng)模型下架風(fēng)波的收尾。但Anthropic這篇文章的重點(diǎn)其實(shí)在后半段:它想把 “AI模型越獄到底有多嚴(yán)重” 變成一套行業(yè)評(píng)分標(biāo)準(zhǔn),并把前沿模型發(fā)布納入更深的政府預(yù)發(fā)布測(cè)試。

為什么一份越獄報(bào)告會(huì)讓模型下架

這場(chǎng)風(fēng)波始于6月12日。

Anthropic稱,美國(guó)政府當(dāng)天對(duì)Fable 5和Mythos 5實(shí)施出口管制,要求限制外國(guó)國(guó)民訪問(wèn)這兩款模型。這里的外國(guó)國(guó)民不只包括美國(guó)境外用戶,也包括在美國(guó)境內(nèi)的非美國(guó)國(guó)民。由于指令立即生效,而Anthropic無(wú)法實(shí)時(shí)核驗(yàn)每個(gè)用戶的國(guó)籍,公司最后選擇暫停所有用戶訪問(wèn)。

政府介入的直接導(dǎo)火索,是一份來(lái)自亞馬遜研究人員的報(bào)告。報(bào)告稱,研究人員找到一種繞過(guò)Fable 5安全防護(hù)的方法,讓模型識(shí)別出若干軟件漏洞;其中一個(gè)案例里,模型還生成了演示如何利用漏洞的代碼。

Anthropic的反駁很明確:這不是Fable 5突然釋放出獨(dú)有的高級(jí)攻擊能力。

公司稱,自己復(fù)測(cè)后發(fā)現(xiàn),Claude Opus 4.8、GPT-5.5、Kimi K2.7等較低能力模型,也能識(shí)別同樣漏洞;在生成單個(gè)漏洞利用演示時(shí),Haiku、Sonnet、Opus、GPT和Kimi的多個(gè)版本也能給出類似結(jié)果。Anthropic認(rèn)為,這更像是Fable 5安全分類器里的一個(gè)邊界案例,而不是Mythos級(jí)別網(wǎng)絡(luò)攻擊能力外泄。

換句話說(shuō),爭(zhēng)議核心不是 “模型有沒(méi)有風(fēng)險(xiǎn)”,而是:一個(gè)繞過(guò)技巧到底嚴(yán)重到什么程度,是否足以讓政府要求模型停服。

新防護(hù)能攔99% 以上,但代價(jià)是誤傷

為了恢復(fù)訪問(wèn),Anthropic訓(xùn)練了新的安全分類器,專門攔截亞馬遜報(bào)告中的繞過(guò)行為。公司稱,新分類器能在超過(guò)99% 的情況下阻止相關(guān)技巧;如果Fable 5請(qǐng)求被攔截,系統(tǒng)會(huì)把請(qǐng)求轉(zhuǎn)給Claude Opus 4.8處理。

美國(guó)商務(wù)部下屬的AI標(biāo)準(zhǔn)與創(chuàng)新中心也測(cè)試了Anthropic的新舊防護(hù)。

但這不是一個(gè) “修好就完事” 的問(wèn)題。Anthropic承認(rèn),新分類器會(huì)讓日常編程和調(diào)試任務(wù)中更多良性請(qǐng)求被誤判。也就是說(shuō),用戶正常做安全研究、漏洞分析或代碼調(diào)試時(shí),可能更容易碰到拒答。

這才是前沿模型安全的難點(diǎn):廠商既要證明模型不會(huì)被輕易拿去做攻擊,又不能把正常開發(fā)者和安全研究人員擋在門外。Fable 5的恢復(fù),實(shí)際上是一次能力、可用性和政策風(fēng)險(xiǎn)之間的重新平衡。

Anthropic想給AI越獄分級(jí)

這篇文章最有價(jià)值的部分,是Anthropic提出的 “AI越獄嚴(yán)重程度框架”。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Anthropic認(rèn)為,現(xiàn)在行業(yè)缺少統(tǒng)一標(biāo)準(zhǔn)。每次有人發(fā)現(xiàn)新的繞過(guò)方法,廠商不知道該多快修,政府也缺少一致尺度判斷是否該介入。

它提出用四個(gè)維度判斷一個(gè)越獄是否嚴(yán)重:能力增益、能力范圍、武器化難度和可發(fā)現(xiàn)性。

這個(gè)框架的意義在于,它把 “AI越獄” 從一個(gè)容易引發(fā)恐慌的詞,拆成了可以排序、可以處置的問(wèn)題。一個(gè)只能觸碰安全邊界、還需要很多技巧才能復(fù)現(xiàn)的越獄,和一個(gè)一兩句提示就能穩(wěn)定解鎖危險(xiǎn)能力的越獄,不應(yīng)該被同等對(duì)待。

Fable 5上線方案公布,Anthropic想給AI越獄定一把尺

Anthropic正在與亞馬遜、微軟、谷歌和其他Glasswing合作伙伴起草一套框架。它建議從四個(gè)維度給越獄風(fēng)險(xiǎn)打分:

第一,能力增益。越獄后,模型能不能做出現(xiàn)有公開工具和較弱模型做不到的事情。如果只是達(dá)到其他工具已有能力,風(fēng)險(xiǎn)較低;如果能顯著加速專家級(jí)攻擊,風(fēng)險(xiǎn)就高。

第二,能力范圍。同一種越獄方法,是只能解鎖一個(gè)很窄的任務(wù),還是能覆蓋多類攻擊目標(biāo)和技術(shù)路線。

第三,武器化難度。把這個(gè)越獄轉(zhuǎn)成真實(shí)攻擊,需要多少人工努力、提示技巧和反復(fù)嘗試。如果一兩次提示就能穩(wěn)定成功,風(fēng)險(xiǎn)更高。

第四,可發(fā)現(xiàn)性。這個(gè)方法是需要專業(yè)知識(shí)才能找到,還是已經(jīng)在網(wǎng)上廣泛傳播。

這套框架的意義在于,它試圖把 “AI越獄” 從籠統(tǒng)恐慌,拆成可溝通、可排序、可修復(fù)的問(wèn)題。以后模型被發(fā)現(xiàn)漏洞時(shí),廠商和政府可以先判斷:這是低風(fēng)險(xiǎn)邊界案例,還是必須立即部署緩解措施的高危越獄。

Anthropic還計(jì)劃推出新的HackerOne項(xiàng)目,讓安全研究人員提交Fable 5潛在網(wǎng)絡(luò)安全越獄案例。

前沿模型發(fā)布以后更難 “只按產(chǎn)品節(jié)奏走”

Fable 5這次恢復(fù)訪問(wèn),也說(shuō)明前沿模型發(fā)布正在多一層外部變量。

Anthropic表示,對(duì)涉及國(guó)家安全相關(guān)前沿能力的模型,將向指定美國(guó)政府伙伴提供更早訪問(wèn)權(quán)限,讓政府在廣泛發(fā)布前測(cè)試模型和配套防護(hù);當(dāng)出現(xiàn)重要越獄或?yàn)E用模式時(shí),也會(huì)更快向政府共享信息;同時(shí)投入專門團(tuán)隊(duì)和算力,參與AI安全評(píng)測(cè)與研究。

這意味著,前沿模型不再只是 “訓(xùn)練完成、評(píng)測(cè)通過(guò)、上線銷售”。越靠近網(wǎng)絡(luò)安全、生物安全、國(guó)家安全這些高風(fēng)險(xiǎn)能力,模型發(fā)布越可能進(jìn)入政府預(yù)審、信息共享和風(fēng)險(xiǎn)協(xié)商流程。

對(duì)用戶來(lái)說(shuō),F(xiàn)able 5恢復(fù)訪問(wèn)是好消息。但對(duì)企業(yè)客戶來(lái)說(shuō),這件事留下的提醒更現(xiàn)實(shí):最強(qiáng)模型的可用性,不只取決于能力、價(jià)格和接口,也取決于政策狀態(tài)。一款模型即使已經(jīng)上線,也可能因?yàn)榘踩珷?zhēng)議突然暫停,再通過(guò)補(bǔ)防護(hù)、復(fù)測(cè)和政府協(xié)調(diào)恢復(fù)。

對(duì)Anthropic來(lái)說(shuō),這次復(fù)盤既是在解釋下架原因,也是在爭(zhēng)奪話語(yǔ)權(quán):公司希望外界相信,F(xiàn)able 5不是失控模型,而是一個(gè)被過(guò)度謹(jǐn)慎處理的邊界案例;同時(shí),它也希望把行業(yè)焦點(diǎn)從 “模型能不能被越獄” 轉(zhuǎn)到 “越獄嚴(yán)重程度該怎么判斷”。

所以,這篇公告表面上是在宣布Fable 5重新上線,實(shí)際上是在給前沿模型行業(yè)立一套新問(wèn)題:AI越獄該怎么分級(jí),政府該什么時(shí)候介入,模型公司又該怎樣證明自己既能放出能力,也能管住風(fēng)險(xiǎn)。(易句)

(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對(duì))

相關(guān)推薦
熱點(diǎn)推薦
坑完布克后,又要坑字母哥?NBA第一數(shù)據(jù)刷子,熱火千萬(wàn)不要上當(dāng)

坑完布克后,又要坑字母哥?NBA第一數(shù)據(jù)刷子,熱火千萬(wàn)不要上當(dāng)

兵哥籃球故事
2026-07-01 15:07:19
德國(guó)爆發(fā)全國(guó)鐵路故障后,德媒刊文:這更證明不能用中國(guó)設(shè)備

德國(guó)爆發(fā)全國(guó)鐵路故障后,德媒刊文:這更證明不能用中國(guó)設(shè)備

王嚾曉
2026-06-30 22:16:32
白俄高層已經(jīng)意識(shí)到,盧卡申科訪華一旦“托孤”,將改變俄烏大局

白俄高層已經(jīng)意識(shí)到,盧卡申科訪華一旦“托孤”,將改變俄烏大局

春之韻
2026-07-01 13:27:24
生吃對(duì)皮膚好,熟吃對(duì)腸胃好!不愧是蔬菜界的維C之王

生吃對(duì)皮膚好,熟吃對(duì)腸胃好!不愧是蔬菜界的維C之王

下廚房
2026-07-01 13:12:59
今晚開播!張嘉益董潔年代大劇登陸天津衛(wèi)視,三代女性宿命太好哭

今晚開播!張嘉益董潔年代大劇登陸天津衛(wèi)視,三代女性宿命太好哭

小椰的奶奶
2026-07-01 15:33:39
160架戰(zhàn)斗機(jī)就位 2000枚導(dǎo)彈下發(fā) 1400名空軍飛行員等候戰(zhàn)斗令

160架戰(zhàn)斗機(jī)就位 2000枚導(dǎo)彈下發(fā) 1400名空軍飛行員等候戰(zhàn)斗令

聚峰軍評(píng)
2026-06-30 13:01:28
盧卡申科出席兒子北大畢業(yè)禮

盧卡申科出席兒子北大畢業(yè)禮

俄羅斯衛(wèi)星通訊社
2026-07-01 16:05:24
三歲被拐1050天,六歲一眼認(rèn)出爸爸,如今彭文樂(lè)保研直博送祝福

三歲被拐1050天,六歲一眼認(rèn)出爸爸,如今彭文樂(lè)保研直博送祝福

削桐作琴
2026-06-08 14:05:14
美國(guó)解除海上封鎖后 伊朗已出口超過(guò)4000萬(wàn)桶原油

美國(guó)解除海上封鎖后 伊朗已出口超過(guò)4000萬(wàn)桶原油

財(cái)聯(lián)社
2026-07-01 17:19:30
兩天連贏4場(chǎng)!18歲溫瑞博打瘋了!零封前世界第一,下輪戰(zhàn)日本

兩天連贏4場(chǎng)!18歲溫瑞博打瘋了!零封前世界第一,下輪戰(zhàn)日本

白面書誏
2026-07-01 15:39:56
無(wú)憂傳媒曝天價(jià)違約金!張大大被索要3000萬(wàn),十萬(wàn)小達(dá)人進(jìn)退兩難

無(wú)憂傳媒曝天價(jià)違約金!張大大被索要3000萬(wàn),十萬(wàn)小達(dá)人進(jìn)退兩難

雷科技
2026-06-30 22:21:23
狀態(tài)封神!奪冠大勢(shì)已定??jī)H四支勁旅可攔法國(guó)世界杯登頂之路!

狀態(tài)封神!奪冠大勢(shì)已定??jī)H四支勁旅可攔法國(guó)世界杯登頂之路!

田先生籃球
2026-07-01 09:21:37
克羅斯:德國(guó)隊(duì)目前沒(méi)有任何一名世界級(jí)球員

克羅斯:德國(guó)隊(duì)目前沒(méi)有任何一名世界級(jí)球員

懂球帝
2026-07-01 18:05:24
問(wèn)界M5買兩年異味不散:門店兩次測(cè)甲醛超標(biāo),廠家一測(cè)就“合格”!市監(jiān)局回應(yīng):當(dāng)年沒(méi)抽檢同批次車輛

問(wèn)界M5買兩年異味不散:門店兩次測(cè)甲醛超標(biāo),廠家一測(cè)就“合格”!市監(jiān)局回應(yīng):當(dāng)年沒(méi)抽檢同批次車輛

中國(guó)山東網(wǎng)
2026-06-29 09:25:07
我今年56歲發(fā)現(xiàn)了一個(gè)怪現(xiàn)象:50歲以后的中年女人,能活到90歲的,基本上在50歲的時(shí)候,就不再做這件事了

我今年56歲發(fā)現(xiàn)了一個(gè)怪現(xiàn)象:50歲以后的中年女人,能活到90歲的,基本上在50歲的時(shí)候,就不再做這件事了

心理觀察局
2026-07-01 07:58:17
太厲害了!俄羅斯最新戰(zhàn)報(bào)!

太厲害了!俄羅斯最新戰(zhàn)報(bào)!

故事終將光明磊落
2026-07-01 14:02:43
68歲馬秋華:丈夫金鐵霖走后4年,兒子33歲未婚成她最大心病

68歲馬秋華:丈夫金鐵霖走后4年,兒子33歲未婚成她最大心病

飄飄然的娛樂(lè)匯
2026-07-01 09:55:09
博格丹簽火箭!斯瑪特將加盟 休媒還盼追歐文:出范喬丹芬尼首輪

博格丹簽火箭!斯瑪特將加盟 休媒還盼追歐文:出范喬丹芬尼首輪

顏小白的籃球夢(mèng)
2026-07-01 12:16:23
六代機(jī),就這么明晃晃的官宣了

六代機(jī),就這么明晃晃的官宣了

俠客棧
2026-06-30 13:35:58
富婆龔心如(小甜甜)留給呂良偉的1400億遺產(chǎn),被人截胡了?

富婆龔心如(小甜甜)留給呂良偉的1400億遺產(chǎn),被人截胡了?

南萬(wàn)說(shuō)娛26
2026-07-01 09:22:49
2026-07-01 19:28:49

科技要聞

Claude Code被曝“植入木馬”識(shí)別中國(guó)用戶

頭條要聞

副行長(zhǎng)借朋友名義貸款470萬(wàn) 400萬(wàn)自用70萬(wàn)給朋友用

頭條要聞

副行長(zhǎng)借朋友名義貸款470萬(wàn) 400萬(wàn)自用70萬(wàn)給朋友用

體育要聞

賣球衣救子的門將,把德國(guó)撲出了世界杯

娛樂(lè)要聞

張凌赫:我連心疼你都隔著時(shí)差

財(cái)經(jīng)要聞

新氧貸款:宣傳年化15%,實(shí)際頂格24%

汽車要聞

半程收官 上汽集團(tuán)銷量突破200萬(wàn)輛

態(tài)度原創(chuàng)

房產(chǎn)
健康
時(shí)尚
旅游
軍事航空

房產(chǎn)要聞

洋房盛大交付,中海丨南海·叁號(hào)院獻(xiàn)映世界海岸的人居答案

年糕湯圓別油炸,水煮清蒸更健康

Meiinpsn的穿衣風(fēng)格,清新又叛逆

旅游要聞

洋面孔成旅游推介官,三亞的“朋友圈”為何越擴(kuò)越大?

軍事要聞

美伊代表前往多哈 談判方式出現(xiàn)"重大倒退"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版
×