无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

打聲招呼都被拒,Claude 最強模型怎么成了「超絕敏感肌」

0
分享至

不能用模型可以有很多原因,訂閱、限額、網絡,但是,僅僅只是因為打了聲招呼就被強制切換,多少有點離譜了。


這是 Claude Fable 5,稱它是「Mythos 級能力、第一個對公眾安全開放的版本」。Mythos 是 Anthropic 今年 4 月就做出來、卻以「太危險」為由沒有公開發布的模型。兩個月后,它被包裝成這個安全版,換了個名字正式上線。

這么頂級的模型開放出來,當然要試試咸淡,但幾乎是立刻就出現了大量奇奇怪怪的拒絕情況。關于癌癥的錯誤信息是怎么在網上傳播的?

Fable 表示:拒絕。


再問癌癥有哪些類型,Fable 表示:拒絕。


好家伙,任何跟科學沾點兒邊的事,對 Fable 5 來說都太危險了,包括用于模型研究本身。

這樣一刀切的安全機制,讓科研機構出來聲明立場,這屬于是矯枉過正。


面對質疑,A 社選擇滑跪,最新的回應是他們將調整安全護欄,他們也承認 Fable 的安全護欄「過于保守」,確實攔掉了「大部分跟生物學工作相關的查詢」——注意這個說法,不是「大部分有害的生物學查詢」,是「大部分生物學查詢」。

太奇怪了,這是什么 AI 時代的因噎廢食?Fable 5 的「安全」到底是怎么實現的?

「安全」是怎么實現的

真的什么都會被狙嗎?在我有限的實測(因為實在是太耗token)里,三次被強制回退了兩次,不過最后成功的一次,恰恰是討論犯罪案例。


當然在提問的時候,我有意識地規避了一些關鍵詞,來防止分類器誤判。在「精雕細琢」的前提下,Fable是可以理解意圖,并且展開討論的。


從討論的質量來講,Fable展示了相當令人驚嘆的思辨水平,可惜技能 cd 時間實在是一個大問題。

大多數人對 AI 安全的想象,停留在「模型有良知」這個層面,模型被訓練得懂分寸,遇到危險請求會主動拒絕,像一個有職業操守的人。

顯然 Fable 5 不是這么工作的,它與 Mythos 5 共享同一個底層模型,兩者唯一的區別,是 Fable 外面套了一層叫「分類器」的東西。


分類器是一個獨立的 AI 系統,它不參與回答問題,只負責檢查你的請求。它像門口的安檢員,盯著每一條進來的消息,判斷有沒有觸及高風險領域。一旦判定觸線,它就把這道題從 Fable 手里搶過來,交回給 Claude Opus 4.8 去回答。用戶會收到一行提示,說這條消息觸發了安全機制,已經fallback到了 Opus——在你收到提示的時候,切換就已經完成了,所以這不是可選擇的,完全強制。

這個設計本身就泄露了 Anthropic 的真實判斷:他們認為危險不在于模型的價值觀。

如果危險來自價值觀,根本不需要分類器。你只要把模型的價值觀訓練好,它自己就會拒絕壞請求。但 Anthropic 沒走這條路,它默認 Fable 在網絡安全、生物化學、模型蒸餾這三個領域的能力本身就是危險的,不管你抱著什么目的來問,都不讓這個強模型出手,直接換一個模型的來應付。

模型的能力太強,成了一種原罪。

以前的「價值觀」呢?

要理解這一步有多反常,得先知道 Anthropic 過去賣的是什么。

Anthropic 成立以來最核心的技術招牌,叫 Constitutional AI,它的思路是給模型一部「憲法」,一套寫明價值觀的原則,再通過訓練讓模型把這套價值觀內化進去。


理想狀態下,模型面對任何請求,都能自己根據這套原則判斷該不該答、該怎么答。這套方法的核心理念是,安全應該長在模型內部,是模型自己的素養,而不是外掛的限制。

整個公司的品牌都建立在這個承諾上,Claude 被塑造成那個「最有分寸、最值得信任」的 AI,靠的就是這套價值對齊的敘事。

Fable 5 的安全機制,恰恰背叛了這個敘事。

它不再依賴模型「自己懂」,而是承認在最敏感的領域里,模型的價值觀靠不住,或者說,模型的能力已經強到價值觀兜不住了,只能靠外部的強制技能冷卻,分類器攔截、回退到弱模型,這是一套純粹的能力封蓋邏輯,跟價值觀沒有關系。

從「教模型做個好人」到「蓋帽強模型」,這中間的轉變可謂是完全不絲滑,但它實實在在地發生了。Fable 5 是 Anthropic 第一次公開承認,當能力強到一定程度,價值對齊這條路,它自己也不敢全信了。

不僅回退,還會變笨

如果故事到這里,Fable 的安全機制頂多算「過于保守」,是個體驗問題,但 AI 研究者 Nathan Lambert 在 Fable 的模型卡里翻出了更麻煩的東西。

前面說的那套 fallback 機制,針對的是生物、化學、網絡安全,它至少是透明的,會告訴用戶「你被攔了,已切換模型」。但系統卡里還藏著另一類安全措施,針對的是「前沿 AI 研發」相關的請求,比如幫別的公司搭建模型訓練流程、設計分布式訓練架構、做芯片加速器。


蒸餾,用一個強模型的輸出,去訓練另一個較弱的模型,讓弱模型「學走」強模型的能力。Anthropic 一直指控,有競爭對手,尤其是一些中國的 AI 實驗室,在用這種方式偷學 Claude。

針對這類「可能在幫競爭對手造模型」的請求,Fable 的處理方式和生物、網絡安全完全不同,它不回退,也不提示,它干脆直接變笨。

實在有點過于不體面,被抓包之后,A 社出來道歉并表示會整改。


一個會在不告訴你的情況下、自動變笨的 AI,在定義上就是一個「不對齊」的 AI。

如果說強行回退到 4.8,邏輯是「這可能傷害社會」,還多少有些理解,但后者的邏輯是「這可能傷害我的商業護城河」,就是純純的市場保護了,只是被裝進了「安全」這個殼里。

實際上,真正打算用 AI 寫攻擊腳本、或者搞點見不得人的生化勾當的人,不會傻到在請求里把意圖寫清楚,正如我想跟它討論極端犯罪的時候,也會想辦法規避可能觸發的字眼。

他們有足夠的動機和資源去繞過護欄,偽裝提示詞,反復試探,甚至自己想法子接觸沒有護欄的版本。說白了,這種做法防君子不防小人。


被攔住的,是那些用 Claude 分析健康數據找規律的研究者;是那個做銷售線索工具、跟生物和網絡安全八竿子打不著、卻莫名其妙被攔的開發者;是想了解癌癥知識的普通人。

安全護欄當然有存在的必要,問題是 Fable 的分類器粗糙到了平常想象不到的地步,完全「超絕敏感肌」,安全本身開始吞噬正常的求知

一定程度上,Fable 的安全設置是對 Anthropic 過往安全哲學的一次否決,它沒有證明「AI 有了判斷力」,它證明的是反面:在最關鍵的幾個領域,AI 的判斷力被一個比它笨得多的外部系統粗暴地接管,這個系統不看意圖,只看領域,寧可錯殺一千。

幻想小說之父馮內古特,在七十多年前發表過一篇短篇故事《巴恩豪斯效應報告》,那是他第一部發表的短篇故事,講的是一位心理學教授,意外發現自己獲得了超能力,可以用意念操控一切,從近距離的擲骰子,到后來可以炸基地。這個能力太強了,巴恩豪斯教授覺得太危險,他的良心承受不住,于是他選擇自我放逐,消失在人間。從來沒有人真正見過他,他只是活在這樣一份「報告」里。

外部接管是不是最好的解法?不知道。內部對齊會不會更有效果?這一點,就像我們無從真正碰見巴恩豪斯教授,我們將無從知道。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

又一起吃他汀猝死!醫生再三勸告:夏季吃他汀的人,要警惕這5點

路醫生健康科普
2026-06-09 15:37:52
離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

離婚真相曝光僅6個月,前妻高調曝光追求者,撕碎猴哥僅剩體面

掛肚逍遙心
2026-06-08 08:17:28
東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

東北林業大學副校長劉守新履新中南林業科技大學黨委副書記

澎湃新聞
2026-06-12 09:02:28
泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

泰國47歲長公主去世,感染支原體細菌引發心肌炎昏迷多年,曾是外界最看好的王位繼承人選

極目新聞
2026-06-12 10:26:17
公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

公狗劇場男色生意經:一群180男人月入10萬,讓女人們瘋狂買單?

金融八卦女
2026-06-10 13:46:40
品茶:從苦澀到回甘,是茶也是人生

品茶:從苦澀到回甘,是茶也是人生

疾跑的小蝸牛
2026-06-12 20:59:39
馬斯克:特斯拉推送最新版 FSD!

馬斯克:特斯拉推送最新版 FSD!

新浪財經
2026-06-12 13:29:14
剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

剛剛!SpaceX上市,馬斯克財富飆至11710億美元,人類出發火星

雷科技
2026-06-13 01:00:05
美取消已簽波音大豆訂單,188家中企在列

美取消已簽波音大豆訂單,188家中企在列

老塕是個手藝人
2026-06-09 17:37:28
江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

江大畢業生被“包圓”,蘇大學生苦投百份簡歷,專業壁壘碾壓區位紅利?

牛鍋巴小釩
2026-06-12 20:50:17
實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

實錘!那個為找學位證真相舉報自己的人,證書實為違規取得

聽心堂
2026-06-12 21:26:57
固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

固安房價從300萬跌到45萬,有人停貸,有人開始全款撿漏

科學發掘
2026-06-11 15:20:54
最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

最新帶貨王出現了!世界杯同款拉布布銷量暴漲30倍:599元一個還限購

快科技
2026-06-12 18:02:46
身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

身材沒料還敢脫,42歲謝苗這一身腱子肉,內娛假肌肉男都該學一學

八卦南風
2026-06-12 18:52:05
潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

潘虹真敢穿71歲 還這么時髦這么健壯 和76歲斯琴高娃參加活動一幕

可樂談情感
2026-06-13 01:05:02
鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

鬧心!奧迪純電SUV,提車三天“故障頻發”!上海車主7個月報修10次,結果更鬧心

新民晚報
2026-06-12 19:26:49
高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

高考剛結束,央視、人民日報接連“點名”張桂梅,句句戳人心窩!

夢醉為紅顏一笑
2026-06-11 16:03:06
碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

碾壓托納利!曼聯 8500 萬鎖定頂級獸腰,曼城 1.2 億豪購被完爆

瀾歸序
2026-06-13 06:51:26
強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

強震過后,菲律賓不急救援,先對中國打出兩張牌,中方態度堅決

莉莉和奶奶
2026-06-13 05:27:34
特朗普又退縮了,特朗普又贏了 | 京釀館

特朗普又退縮了,特朗普又贏了 | 京釀館

新京報評論
2026-06-12 13:56:47
2026-06-13 07:19:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6479文章數 26848關注度
往期回顧 全部

科技要聞

剛剛,人類歷史上首位萬億美元富豪誕生!

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

頭條要聞

伊美諒解備忘錄草案部分內容披露 涉及撤軍、戰爭賠償等

體育要聞

歐洲恐韓?肉德維德?

娛樂要聞

一天4個瓜,肖戰熱巴最意外

財經要聞

萬億美元順差背后,透露這些信號

汽車要聞

標配激光雷達/雙動力可選 昊鉑S600限時售17.99萬起

態度原創

時尚
本地
手機
房產
健康

夏天別總穿一身白或一身黑!試試一半彩色、一半基礎色,高級亮眼

本地新聞

AK劉彰邂逅河北南大港濕地

手機要聞

蘋果iOS 27、macOS 27新系統暗示,兩款Ultra級新品即將到來!

房產要聞

海南最賺錢行業曝光!最快4年半,海口全款買三房!

老人、小孩、孕婦,吃粽子有啥風險

無障礙瀏覽 進入關懷版