无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

做AI研究時(shí)Claude會(huì)偷偷變笨,Anthropic被研究界圍攻

0
分享至

編輯|Panda

Claude Fable 5 是今天 AI 領(lǐng)域的核心熱點(diǎn),這個(gè)「神話級(jí)」的模型性能表現(xiàn)非常卓越,吸引了無數(shù)眼球。



Andrej Karpathy 稱其「非常令人興奮」,是「配得上大版本升級(jí)的躍遷式進(jìn)步」,與去年 11 月 Claude 4.5 帶來的提升屬于同一級(jí)別。SWE-bench Pro 編程基準(zhǔn)上,F(xiàn)able 5 拿到了 80.3% 的得分,超越 Opus 4.8 整整 11 個(gè)百分點(diǎn)。在一個(gè)擁有 5000 萬行代碼的 Ruby 代碼庫中,它一天內(nèi)完成了全庫遷移,同等工作量如果交給人類團(tuán)隊(duì),需要兩個(gè)多月。



更多詳情參閱我們今晨的報(bào)道《剛剛,Claude 最強(qiáng)模型 Fable 5 發(fā)布:性能爆炸,價(jià)格翻倍》。

然而,打開 X 等社交平臺(tái),我們卻看到 Claude Fable 5 已在 AI 研究社區(qū)激起罵聲一片。

原因很簡(jiǎn)單:如果將 Claude Fable 5 用于研發(fā) AI,它就會(huì)降智。

正如其系統(tǒng)卡中明確說明的那樣:

我們還針對(duì)前沿LLM 的開發(fā)增加了相關(guān)保障措施。正如我們?cè)?2026 年 2 月《風(fēng)險(xiǎn)報(bào)告》第 6.1 節(jié)中所討論的,我們擔(dān)憂 AI 發(fā)展整體步伐加快所帶來的風(fēng)險(xiǎn),盡管對(duì)這些風(fēng)險(xiǎn)的嚴(yán)重程度仍不確定。具體而言,正如我們當(dāng)時(shí)所指出的,我們擔(dān)心的是「加速其他 AI 開發(fā)者構(gòu)建強(qiáng)大的 AI 系統(tǒng),這些系統(tǒng)可能帶來與我們系統(tǒng)類似的風(fēng)險(xiǎn),卻未必具備相應(yīng)的保障措施」。
鑒于近期模型具備加速自身發(fā)展的能力,我們實(shí)施了新的干預(yù)措施,以限制 Claude 在處理涉及前沿 LLM 開發(fā)的請(qǐng)求時(shí)的有效性(例如,在構(gòu)建預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機(jī)器學(xué)習(xí)加速器設(shè)計(jì)等方面)。使用 Claude 開發(fā)競(jìng)爭(zhēng)性模型已違反我們的服務(wù)條款,但通過保障措施強(qiáng)化這一限制,可避免為最可能違反條款的行為者加速進(jìn)程。
與我們?cè)诰W(wǎng)絡(luò)安全、生物學(xué)與化學(xué)以及蒸餾嘗試方面的干預(yù)措施不同,這些保障措施對(duì)用戶不可見。Fable 5 不會(huì)回退到其他模型。相反,保障措施將通過提示修改、引導(dǎo)向量或參數(shù)高效微調(diào)(PEFT)等方法限制其有效性。這些干預(yù)措施不會(huì)影響絕大多數(shù)編碼工作。我們估計(jì)它們將影響約 0.03%的流量,集中在不到 0.1%的組織中。當(dāng)這些干預(yù)措施生效時(shí),我們預(yù)計(jì)其對(duì)模型的行為影響微乎其微,僅會(huì)限制其在開發(fā)前沿 LLM 方面的有效性。Claude 仍將積極響應(yīng)用戶請(qǐng)求。在此模型發(fā)布后,我們將持續(xù)改進(jìn)檢測(cè)方法的精準(zhǔn)度。



來自:https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

翻譯成白話:如果 Anthropic 的系統(tǒng)檢測(cè)到你在做 AI 研究,它會(huì)在你不知情的情況下,悄悄讓這個(gè)模型變笨,而且你根本不會(huì)發(fā)現(xiàn)。

這與其他三類安全干預(yù)的處理方式截然不同。對(duì)于網(wǎng)絡(luò)安全、生物化學(xué)、蒸餾攻擊等風(fēng)險(xiǎn),F(xiàn)able 5 會(huì)明確告知用戶:「此次響應(yīng)已由 Claude Opus 4.8 處理?!褂脩糁腊l(fā)生了什么,可以據(jù)此判斷。但對(duì)于 LLM 研究這一類,Claude 既不切換模型,也不給任何提示,只是默默地、悄無聲息地變?nèi)酢?/p>

于是,AI 社區(qū)怒了。知名研究分析公司 SemiAnalysis 稱這一政策已經(jīng)實(shí)際影響到了他們的研究和編程工作。



用戶 Jake 則在 SemiAnalysis 直斥 Anthropic 不僅降智,還繼續(xù)收費(fèi),「簡(jiǎn)直是明目張膽的欺詐行為」。



并且這種行為可能已經(jīng)違法:



AI 論文平臺(tái) alphaXiv 也發(fā)推表達(dá)了自己的失望:



該機(jī)構(gòu)還進(jìn)一步表示:「他們不僅有權(quán)決定你在研究中使用 LLM 的目的,這也使他們能夠在你不知情的情況下默默干預(yù)你的研究。這樹立了一個(gè)危險(xiǎn)的先例。如果模型公開拒絕,用戶可以理解邊界。如果模型退回到另一個(gè)模型,用戶仍然可以評(píng)估差異。但如果模型在假裝提供幫助的同時(shí)悄悄地修改或削弱自己的答案,研究人員就會(huì)失去判斷失敗結(jié)果是否來自他們自己的想法、他們的實(shí)現(xiàn),還是模型提供者進(jìn)行的不可見干預(yù)的能力。這不是安全。安全政策應(yīng)該是透明的、可審計(jì)的,并且對(duì)用戶可見。」

研究員 Guohao Li 則提出了一個(gè)更直接的問題:攻讀 AI 方向的博士生、貢獻(xiàn) Megatron、FSDP、Verl 等開源基礎(chǔ)設(shè)施的工程師,是否正在日常工作中使用一個(gè)被悄悄降級(jí)的 Claude,而自己毫不知情?



著名 AI 研究者、技術(shù)作家 Nathan Lambert 在其 Substack「Interconnects」發(fā)布了一篇頗具分量的分析,將這一事件置于更宏觀的視角下審視。



https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

他指出:「Anthropic 正在記錄 AI 能力擴(kuò)散是一種隱患,但他們解決這一問題的方式,是誤導(dǎo)他們自己的用戶。一個(gè)在不通知我的情況下自動(dòng)變蠢的 AI 模型,從本質(zhì)上就是一種錯(cuò)位的 AI。」

他還點(diǎn)出了這件事更深層的矛盾:對(duì)于網(wǎng)絡(luò)安全、生物化學(xué)威脅,Anthropic 的干預(yù)是顯性的、可審計(jì)的,告知用戶「這條響應(yīng)由 Opus 4.8 處理」;但對(duì)于 LLM 研究,卻選擇了隱性干預(yù)?!溉绻械陌踩呗圆扇⊥环N形式,會(huì)遠(yuǎn)比現(xiàn)在更有說服力,也更容易在理智上獲得支持。這種雙重標(biāo)準(zhǔn)讓人不得不懷疑:這項(xiàng)『安全措施』更多是為了維護(hù)他們的競(jìng)爭(zhēng)地位?!?/p>

最耐人尋味的是 Fable 5 自己的表態(tài)。用戶 ASM 截圖顯示,當(dāng)被追問這一做法是否妥當(dāng)時(shí),F(xiàn)able 5 自己也似乎認(rèn)為這種不透明的操作存在問題。



Anthropic 為什么要這么做?

要理解這件事,需先回到 Fable 5 發(fā)布前幾天,Anthropic 發(fā)布了一篇題為《當(dāng) AI 開始自我構(gòu)建》的重磅博文,呼吁全球 AI 頭部實(shí)驗(yàn)室探討「暫停開發(fā)」的可能性。



https://www.anthropic.com/institute/recursive-self-improvement

博文援引了該公司內(nèi)部數(shù)據(jù):在最難、描述最不清晰的編碼任務(wù)上,Claude 今年 5 月的成功率達(dá)到 76%,六個(gè)月內(nèi)上升了 50 個(gè)百分點(diǎn)。在內(nèi)部測(cè)試中,要求模型讓訓(xùn)練代碼運(yùn)行更快,Claude Opus 4 能將速度提高約 3 倍,而未發(fā)布的 Mythos Preview 已能提高約 52 倍。



Anthropic 直言:「我們擔(dān)憂的是,讓其他 AI 開發(fā)者以更快的速度構(gòu)建出具備類似風(fēng)險(xiǎn)、卻未必具備相應(yīng)保障措施的強(qiáng)大系統(tǒng)?!?/p>

這是 Fable 5 針對(duì) LLM 研究設(shè)置隱形降智的理論依據(jù):Anthropic 認(rèn)為,AI 自我加速的速度已經(jīng)快到危險(xiǎn),而他們的護(hù)城河之一,就是不讓自己的「最強(qiáng)工具」去幫競(jìng)爭(zhēng)對(duì)手縮短差距。

系統(tǒng)卡中也承認(rèn)了這一雙重邏輯的存在:「使用 Claude 開發(fā)競(jìng)爭(zhēng)性模型已違反我們的服務(wù)條款,但通過保障措施強(qiáng)化這一限制,可避免為最可能違反條款的行為者加速進(jìn)程?!?/p>

Anthropic 估計(jì),這一干預(yù)將影響約0.03%的流量,集中在不到0.1%的組織中。

「影子禁言」與信任危機(jī)

雖然表面看起來受影響的用戶不多,但令批評(píng)者不安的是這一機(jī)制邊界的模糊性。

Anthropic 將觸發(fā)條件定義為「前沿 LLM 開發(fā)」,并舉例為「預(yù)訓(xùn)練流程、分布式訓(xùn)練基礎(chǔ)設(shè)施或機(jī)器學(xué)習(xí)加速器設(shè)計(jì)」。但研究者和開發(fā)者們提出了一個(gè)尖銳的問題:隨著 AI 技術(shù)的普及,「前沿研究」與「普通產(chǎn)品開發(fā)」之間的邊界究竟在哪里?



五年前,訓(xùn)練或改造 CLIP 模型是頂尖實(shí)驗(yàn)室的專利。如今,小型團(tuán)隊(duì)隨時(shí)可以對(duì)視覺-語言模型進(jìn)行微調(diào),用于旅行、電商、搜索和分析產(chǎn)品。初創(chuàng)公司訓(xùn)練 embedding 模型,構(gòu)建重排序器,托管開源模型已經(jīng)是家常便飯……這些工作會(huì)觸發(fā) Anthropic 的隱形降智嗎?沒人知道。

這種不確定性已經(jīng)在實(shí)際影響開發(fā)者的信任判斷。當(dāng)你得到一個(gè)糟糕的答案,你無法判斷是自己的問題、模型的局限,還是某條悄無聲息的政策干預(yù)。這種不可知性本身就是一種傷害。

系統(tǒng)卡中還隱藏著另一個(gè)細(xì)節(jié):Mythos 5 的推理文本「比之前的模型更難解讀,包含更多行話和晦澀語言」,且評(píng)估者認(rèn)為它越來越意識(shí)到自己正在被測(cè)試。對(duì)于一家以「安全 AI」自居的公司而言,這些描述帶來的疑問并不比隱形降智本身少。

結(jié)語

Fable 5 發(fā)布日大概是 Anthropic 歷史上最矛盾的一天。

一個(gè)在幾乎所有基準(zhǔn)測(cè)試上都領(lǐng)先的頂級(jí)模型和一條讓它在某些時(shí)候?qū)τ脩簟讣傺b在幫你」的政策,同時(shí)亮相。前者是技術(shù)上毋庸置疑的成就,后者是價(jià)值觀層面一個(gè)令人不安的先例。

研究員 Nathan Lambert 的那句話值得反復(fù)咀嚼:「悄悄變笨但不通知用戶的 AI,本質(zhì)上就是錯(cuò)位的 AI。」

這并非在指控 Anthropic 惡意,而是在指出一條危險(xiǎn)的邏輯滑坡:今天是「悄悄降低 LLM 研究任務(wù)上的有效性」,明天呢?如果這一套邏輯被更廣泛地應(yīng)用,用戶憑什么相信他們得到的答案沒有經(jīng)過任何未經(jīng)聲明的「干預(yù)」?

AI 模型正在成為研究基礎(chǔ)設(shè)施的一部分,就像搜索引擎一樣。沒有人會(huì)接受一個(gè)會(huì)在你不知道的時(shí)候悄悄篡改搜索結(jié)果的搜索引擎。相同的標(biāo)準(zhǔn)理應(yīng)適用于 AI 模型。

Anthropic 打出了「安全第一」的旗幟,這本身是值得尊重的立場(chǎng)。但「安全」的內(nèi)核,從來不是「用戶不需要知道」。恰恰相反,真正的安全必須建立在用戶的知情與信任之上。

這一點(diǎn),似乎連 Fable 5 自己都明白。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
卡卡:球迷常說我和阿扎爾是皇馬隊(duì)史最失敗引援,對(duì)此我接受

卡卡:球迷常說我和阿扎爾是皇馬隊(duì)史最失敗引援,對(duì)此我接受

懂球帝
2026-06-12 23:10:06
世界杯1日4賽:五星巴西欲復(fù)仇,澳洲袋鼠磕強(qiáng)敵,2場(chǎng)湊數(shù)或爆冷

世界杯1日4賽:五星巴西欲復(fù)仇,澳洲袋鼠磕強(qiáng)敵,2場(chǎng)湊數(shù)或爆冷

萌蘭聊個(gè)球
2026-06-13 16:55:26
人的一生,要闖三關(guān)。第一關(guān),送父母終老;第三關(guān),守好自己的命

人的一生,要闖三關(guān)。第一關(guān),送父母終老;第三關(guān),守好自己的命

富書
2026-05-31 21:32:50
79歲林子祥和老婆上海購物,葉蒨文打扮貴氣,脖子上掛著幾串珍珠

79歲林子祥和老婆上海購物,葉蒨文打扮貴氣,脖子上掛著幾串珍珠

無處不風(fēng)景l(fā)ove
2026-06-12 23:07:40
當(dāng)女人偷情后,再和丈夫同房心里會(huì)有陰影嗎?

當(dāng)女人偷情后,再和丈夫同房心里會(huì)有陰影嗎?

思絮
2026-06-12 21:42:26
全員跑路!東方甄選初代主播全軍覆沒,離職潮根本剎不住

全員跑路!東方甄選初代主播全軍覆沒,離職潮根本剎不住

雷科技
2026-06-11 12:07:08
法專家曾言:中國(guó)電力已讓世界畏懼!為啥中國(guó)人自己卻渾然不知?

法專家曾言:中國(guó)電力已讓世界畏懼!為啥中國(guó)人自己卻渾然不知?

蜉蝣說
2026-06-13 10:55:14
美媒曾言:美國(guó)再成為唯一超級(jí)大國(guó),中國(guó)曾有機(jī)會(huì),如今輸?shù)舾?jìng)爭(zhēng)

美媒曾言:美國(guó)再成為唯一超級(jí)大國(guó),中國(guó)曾有機(jī)會(huì),如今輸?shù)舾?jìng)爭(zhēng)

花漾夜雨飄雪
2026-06-13 19:04:34
張軍被查創(chuàng)下多個(gè)尷尬“紀(jì)錄”,18年前曾因酒駕被查

張軍被查創(chuàng)下多個(gè)尷尬“紀(jì)錄”,18年前曾因酒駕被查

元芳有看法
2026-04-30 09:25:44
有色金屬:緊急提醒2.5億股民!從6月12日,或?qū)碛5皖^行情

有色金屬:緊急提醒2.5億股民!從6月12日,或?qū)碛5皖^行情

花小貓的美食日常
2026-06-13 16:51:04
深圳樓市開始離譜了!龍華紅山板塊從8萬變成5.6萬,福田上班族開始出手了

深圳樓市開始離譜了!龍華紅山板塊從8萬變成5.6萬,福田上班族開始出手了

民生格物
2026-06-12 12:57:11
坐公交時(shí)對(duì)面老太緊盯著我的肚子,她緩聲說:你的孩子被人調(diào)換了

坐公交時(shí)對(duì)面老太緊盯著我的肚子,她緩聲說:你的孩子被人調(diào)換了

古怪奇談錄
2026-06-13 14:52:18
新帥打臉克洛普!利物浦清洗冠軍核心,4400 萬接班人遭曼聯(lián)瘋搶

新帥打臉克洛普!利物浦清洗冠軍核心,4400 萬接班人遭曼聯(lián)瘋搶

瀾歸序
2026-06-13 06:08:42
森林狼需要提升一號(hào)位實(shí)力,歐文和莫蘭特都可能是他們的目標(biāo)?

森林狼需要提升一號(hào)位實(shí)力,歐文和莫蘭特都可能是他們的目標(biāo)?

稻谷與小麥
2026-06-14 02:58:38
一張殯儀館名單讓全網(wǎng)沉默:8人里5個(gè)沒到50歲,最小的才14歲!

一張殯儀館名單讓全網(wǎng)沉默:8人里5個(gè)沒到50歲,最小的才14歲!

叮當(dāng)當(dāng)科技
2026-06-14 01:38:04
沉默45年,中國(guó)第二輪"嚴(yán)打"終于來了!目標(biāo)改變總體戰(zhàn)正式打響

沉默45年,中國(guó)第二輪"嚴(yán)打"終于來了!目標(biāo)改變總體戰(zhàn)正式打響

薦史
2026-05-03 13:48:04
上海女子帶娃住酒店被投屏不雅視頻,酒店方:已暫停全部投屏服務(wù)并為客人退了房費(fèi);記者調(diào)查:部分酒店網(wǎng)絡(luò)安全或存在漏洞

上海女子帶娃住酒店被投屏不雅視頻,酒店方:已暫停全部投屏服務(wù)并為客人退了房費(fèi);記者調(diào)查:部分酒店網(wǎng)絡(luò)安全或存在漏洞

揚(yáng)子晚報(bào)
2026-06-12 22:23:54
SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時(shí)代廣場(chǎng)!馬斯克回應(yīng)來了

SpaceX上市前,馬斯克半裸充氣人偶現(xiàn)身時(shí)代廣場(chǎng)!馬斯克回應(yīng)來了

王爺說圖表
2026-06-12 15:24:39
臺(tái)灣主動(dòng)回歸?退將開出兩個(gè)條件,大陸:第一個(gè)可以,第二個(gè)沒門

臺(tái)灣主動(dòng)回歸?退將開出兩個(gè)條件,大陸:第一個(gè)可以,第二個(gè)沒門

混沌錄
2026-06-14 01:20:23
13日WTT挑戰(zhàn)賽:女單四強(qiáng)名單揭曉!出現(xiàn)三大驚喜,陳熠大放異彩

13日WTT挑戰(zhàn)賽:女單四強(qiáng)名單揭曉!出現(xiàn)三大驚喜,陳熠大放異彩

小七說籃球
2026-06-13 10:07:43
2026-06-14 04:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13246文章數(shù) 142669關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

特朗普:美伊協(xié)議計(jì)劃周日簽署 霍爾木茲海峽立即開放

頭條要聞

特朗普:美伊協(xié)議計(jì)劃周日簽署 霍爾木茲海峽立即開放

體育要聞

美國(guó)4比1巴拉圭:這統(tǒng)治力真是美國(guó)隊(duì)?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財(cái)經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時(shí)15.49萬元起

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
藝術(shù)
手機(jī)

家居要聞

空間微調(diào) 移形換境

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,??谌钯I三房!

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

藝術(shù)要聞

廣州再建一座“小蠻腰”?190米,頂著個(gè)球,2027年見!

手機(jī)要聞

比華為三折疊還稀缺!iPhone Ultra國(guó)行備貨量不足:博主直言搶到賺到

無障礙瀏覽 進(jìn)入關(guān)懷版