无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

Fable 5自帶反蒸餾機制!檢測到就降智,誤觸率高到離譜

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

都先別急著吹!

Claude剛剛發布的新模型Fable 5,很多人可能壓根就用不上!

有不少網友實測發現,Fable 5的安全護欄檢測機制的觸發幾率似乎比官方宣稱的不到5%嚴格得多。

無論是普通編碼任務。



還是簡單打個招呼,都有可能被自動路由回老模型Opus 4.8。



更離譜的是,我自己也中招了。我讓Claude幫我搜點資料,豐富一下背景。

結果它想了兩步,啪——切Opus了。



換句話說。你以為自己在用Anthropic剛發布的最強模型,實際上聊著聊著,對面已經偷偷換人了。

而且不光是安全檢測容易誤傷,更絕的還在后頭:

Anthropic還在長達319頁的系統卡里埋了一套防蒸餾機制。

如果系統懷疑你想拿Claude的輸出訓練自己的AI模型,它甚至不會告訴你發生了什么,而是直接降低Fable的回答質量。



可以說,前一手防你作惡,后一手防你抄作業,相當符合A社的一貫風格。

寓言怎么老變成章魚?

先給今天沒刷新聞的大伙補個課。

今天凌晨,Anthropic終于發布了預熱許久的兩款模型——

「神話」(Mythos)和「寓言」(Fable)。



其中,Fable 5最大的看點,是Anthropic第一次把Mythos級別能力向普通用戶開放。

而Fable與正式版Mythos的差別在于,多了一個安全護欄。

目前,Fable免費開放給所有人到22號(22號只能通過API用),Mythos則還是開放給Claude部分的合作伙伴。



在官方介紹里,Fable的軟件工程、知識工作、視覺理解能力全面增強,超過此前所有公開發布的Claude模型。

一句話速通理解就是,這倆就是現在的大模型天花板,各方面能力都已經到頂了。



新模型一經發出,剛入職A社的卡帕西第一時間夸了一波。



Claude Code之父Boris也對它贊不絕口。



不過,厲害歸厲害,真讓大伙用起來后,才發現,這寓言講著講著,老變成章魚(Opus)。

原因也簡單。

Anthropic給Fable裝了一套分類器,只要它覺得你聊的是網絡安全、生物、化學,或者想拿Claude蒸餾訓練自家模型,就會自動把會話切給Opus 4.8。

這條規則白紙黑字寫在系統卡第12頁。



實際體驗中,切換發生在Fable的思考過程中,當它自己感覺不對勁,也不會問你,就直接切了。

如果想繼續用?要么把提示詞改到它滿意,要么重開一個窗口。

官方在技術博客里說,這套檢測平均觸發率不到5%。但網友很快發現,這5%不像5%。



有人表示,自己就是分析個代碼,也被切了。



搞安全審計的更是直呼被針對,活兒沒法干了。



還有人說壓根用不了,審查代碼庫都會被Fable拒絕。



要說,最離譜的可能就是有網友把Fable自己的系統卡丟給它,讓他解讀一下,它也給你切了。



還有一名從事生物醫學的科學家表示,這壓根都沒法用Fable工作,因為詮釋違禁詞。



而這并不是孤例,不少生物學網友都反映,Fable壓根難以使用。



Boris在評論區承認了這個問題,表示正在處理。

這事兒真正微妙的地方在于,Fable在上面三種高風險場景下,至少會告訴你一聲:

“哥們兒,我給你換模型了。”

但如果它懷疑你在研究怎么訓練下一代大模型,那就進入另一個模式。

系統卡寫明,重點針對的場景包括:限制Claude在前沿LLM開發請求上的有效性,例如搭建預訓練流水線、分布式訓練基礎設施,或者ML加速器設計。



在這種場場景下,Claude不切模型,不彈提示,不通知用戶,而是坐在那里,悄悄把自己調笨一點。

Anthropic原文寫得很學術:Prompt Modification、Steering Vector、PEFT。(系統卡第12頁)

翻譯成人話就是你以為自己在跟滿血版Fable聊天,實際上對面已經偷偷開了省電模式。

A社這波,屬實是把護城河直接焊進推理鏈里了。

至于系統怎么判斷,系統卡第58-59頁也寫明白了。



Fable背后跑的是一套兩階段檢測系統:

第一層探針會直接檢查模型內部激活值(activation),篩查所有請求;第二層再交給獨立分類器判斷風險。

一旦命中,客戶端就會自動切換到Opus 4.8。

Anthropic甚至在報告里承認,由于分類器在網絡安全測試中幾乎總會觸發,因此Fable 5在網絡安全任務上的實際表現,基本等同于Opus 4.8。

一言以蔽之呢,就是Fable 5目前也還是一個有條件釋放的模型:

大部分場景享受Mythos 5級別能力,但在高風險領域自動降級為Opus 4.8的能力水平。

為啥Claude要這么干?

今天新模型上線,額度同步重置,大家上手之后越用越覺得不對勁,吐槽也越來越多,主要集中在兩件事上。

第一件事,是前面提到的安全護欄觸發頻率。Anthropic說平均不到5%的會話會觸發回退,但不少用戶的體感顯然不是5%。





第二件事,則是Fable的使用策略。

這次Anthropic并沒有完全放開,而是采用了限量開放的方式。

與此同時,Fable的token消耗成本也明顯高于Opus,接近后者兩倍。



這就讓不少訂閱用戶有點犯嘀咕:

如果最好的模型既有額度限制,又不一定能穩定用到,那以后會不會走向按量收費?

當然,也有人把原因歸結到商業層面。

有網友認為,Anthropic現在正處在IPO前的關鍵階段,需要向投資人證明自己依然掌握著最前沿的模型能力。



所以最強模型可以放出來展示,但不能毫無保留地放出來。

還有研究人員擔心另一件事。

如果模型一旦識別到前沿LLM研發相關內容,就主動降低回答質量,那對學術研究和技術交流顯然不是個好消息。

更關鍵的是,用戶根本不知道這一切正在發生。它不會彈窗,不會提醒,不會告訴你答案為什么突然變差。

你只會覺得:今天的Claude,好像突然沒那么聰明了。



對此,AI研究員Nathan Lambert的評價也很直接:

模型廠商給能力加護欄或許不可避免。

但至少應該告訴用戶,前沿能力是什么時候被撤掉的。




[1]https://www.anthropic.com/news/claude-fable-5-mythos-5
[2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世界杯 48 支球隊,韓國和墨西哥第一輪小組賽就出線了!懵逼了!

世界杯 48 支球隊,韓國和墨西哥第一輪小組賽就出線了!懵逼了!

寶哥精彩賽事
2026-06-13 18:09:01
齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

齊達內力挺C羅:他說世界杯只有7場比賽,因為他就瞄準了決賽!

體育閑話說
2026-06-13 11:53:49
一手好牌打個稀爛,直到張軍被調查,才明白,林丹的選擇有多清醒

一手好牌打個稀爛,直到張軍被調查,才明白,林丹的選擇有多清醒

舍長阿爺談事
2026-04-30 19:58:35
14歲小將戴佑澤,當場被董路踢出巴西參賽大名單。

14歲小將戴佑澤,當場被董路踢出巴西參賽大名單。

阿振觀點
2026-06-13 14:53:04
簽證到手!白云機場這波攔人操作,讓多少“說走就走”當場卡殼?

簽證到手!白云機場這波攔人操作,讓多少“說走就走”當場卡殼?

水泥土的搞笑
2026-06-14 01:25:22
【世界杯】卡塔爾VS瑞士 世界杯開賽以來最良心的一場比賽!

【世界杯】卡塔爾VS瑞士 世界杯開賽以來最良心的一場比賽!

朝天門足球
2026-06-13 11:23:08
美加墨世界杯神級反轉!亞洲強勢崛起,歐洲開賽至今一勝難求!

美加墨世界杯神級反轉!亞洲強勢崛起,歐洲開賽至今一勝難求!

田先生籃球
2026-06-14 07:17:02
如何評價鄧公改革開放政策?

如何評價鄧公改革開放政策?

生命可以承受之輕
2026-06-13 07:21:27
總決賽G5裁判名單出爐,哈珀迎來神級里程碑,文班亞馬放狠話

總決賽G5裁判名單出爐,哈珀迎來神級里程碑,文班亞馬放狠話

世界體育圈
2026-06-13 21:56:16
總統不干了!武契奇宣布辭職,但反對派發現白高興了一場

總統不干了!武契奇宣布辭職,但反對派發現白高興了一場

阿傖說事
2026-06-13 16:44:30
貝克漢姆慶祝好萊塢摘星,好大兒住隔壁都不愿來!14歲小女兒登門求和慘被哥嫂拒之門外?

貝克漢姆慶祝好萊塢摘星,好大兒住隔壁都不愿來!14歲小女兒登門求和慘被哥嫂拒之門外?

英國報姐
2026-06-13 21:09:08
周鴻祎套現離場,利潤腰斬至8.8億,留下5.8萬投訴

周鴻祎套現離場,利潤腰斬至8.8億,留下5.8萬投訴

嘴角上翹
2026-06-10 03:20:40
編制外崗也要管!“當時不懂,就和朋友玩了”,女生政審被刷不服

編制外崗也要管!“當時不懂,就和朋友玩了”,女生政審被刷不服

蝴蝶花雨話教育
2026-06-03 00:05:13
哈登因非法攜帶武器被捕 將因此缺席賽季剩余比賽

哈登因非法攜帶武器被捕 將因此缺席賽季剩余比賽

體育硬核說
2026-06-14 01:25:55
“泥水父親”還原考場接女兒經過,回應質疑:我只做好我自己

“泥水父親”還原考場接女兒經過,回應質疑:我只做好我自己

極目新聞
2026-06-12 22:51:06
賽后采訪孟新藝,問他指著外國球員說了什么,他的回答讓全場沸騰

賽后采訪孟新藝,問他指著外國球員說了什么,他的回答讓全場沸騰

童叔不飆車
2026-06-13 00:43:03
1950年,聶榮臻含淚下令槍決沙飛,臨行特囑為其做最愛吃的魚

1950年,聶榮臻含淚下令槍決沙飛,臨行特囑為其做最愛吃的魚

嘮叨說歷史
2026-03-27 16:29:16
曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

曾任正部級干部馬天水,撤職后回老家弟弟不愿收留,死因令人唏噓

元哥說歷史
2026-06-13 13:45:05
女人不管年紀多大,“正式場合”打扮切記:裙不配運動鞋、發盤起

女人不管年紀多大,“正式場合”打扮切記:裙不配運動鞋、發盤起

時尚穿搭生活館
2026-06-07 23:51:07
1936年,江清和唐納的結婚照,看江清的長相,有點不一樣

1936年,江清和唐納的結婚照,看江清的長相,有點不一樣

人間頌
2026-06-13 10:59:47
2026-06-14 09:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12787文章數 176495關注度
往期回顧 全部

科技要聞

Anthropic最強模型被禁,傳亞馬遜通風報信

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

頭條要聞

“五星”巴西首戰戰平 德國“戰車”凌晨登場

體育要聞

美國4比1巴拉圭:這統治力真是美國隊?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋全網!

財經要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍S07華為乾崑激光版增程車型上市 限時15.49萬元起

態度原創

教育
房產
數碼
本地
公開課

教育要聞

整體思想求值,一個視頻學會!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

數碼要聞

綠聯推出DXP 6800/8800 Ultra NAS:雙萬兆雙雷電4,PCIe擴展

本地新聞

AK劉彰邂逅河北南大港濕地

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版