![]()
機器之心編輯部
在輿論發酵了一整天后,Anthropic 新模型降智事件似乎迎來了反轉。
就在昨天,Anthropic 發布了他們的新模型 Claude Fable 5。模型很強,實力毋庸置疑,但很快便在 AI 研究社區激起罵聲一片。原因很簡單:如果將 Claude Fable 5 用于研發 AI,它就會降智。
而且這種降智是悄悄進行的。也就是說,如果 Anthropic 的系統檢測到你在做 AI 研究,它會在你不知情的情況下,悄悄讓這個模型變笨,而且你根本不會發現。
對此,Anthropic 稱這是為了防止外國對手利用模型加速 AI 研發,同時保護自身領先優勢。
這一舉動徹底惹怒了整個社區,逼得 Anthropic 不得不緊急應對。
壓力之下,剛剛,《連線》記者 Max Zeff 爆料稱,Anthropic 正在撤銷這一政策。該媒體從 Anthropic 獲得了一份聲明,其中寫到:「我們正在調整 Fable 5 針對前沿 LLM 開發的安全限制,使其變得可見。」
更具體而言,Claude Fable 5 針對 AI 開發的保護措施將對用戶可見。如果該公司懷疑用戶試圖使用 Claude 構建高能力 AI,它會向用戶發出警報,表明它要么拒絕該請求,要么將用戶引導至能力較弱的模型。
也就是說,如果 Claude Fable 5 檢測到用戶在研發 AI,還是會降智,只不過這一次會通知用戶已經降智了,而不再是「悄悄」降智。
此外,Anthropic 還在這份聲明中進行了道歉:「我們做出了錯誤的取舍,對于未能把握好平衡,我們深表歉意。」
![]()
而就在《連線》這篇文章在 X 引爆熱議時,Anthropic 也通過 Claude Devs 帳號發布了一份正式聲明。
![]()
具體內容如下:
我們正在推出一些變更,以使 Fable 5 針對前沿 LLM 開發的安全限制變得可見。
從本周開始,被標記的請求將明顯退回到 Opus 4.8,這與我們針對網絡和生物領域的安全限制相同。每次發生這種情況時你都會看到。在 API 上,任何被標記的請求都將返回其被拒絕的原因(服務器端的回退機制將在未來幾天內上線)。
我們希望快速安全地向用戶部署 Fable 5。可見的安全限制可能會被探測,因此它們必須足夠健壯,而要做到這一點需要時間。不可見的安全限制可以更精準地針對特定目標,使我們能夠快速發布,且誤報率極低。我們正是出于這個原因選擇了不可見的安全限制,但這并非正確的取舍。你應該了解我們設置了哪些安全限制及其背后的原因。對于未能把握好平衡,我們深表歉意。
使安全限制可見會讓它們更容易被繞過,因此為了保持其對「越獄」攻擊的抵御能力,在我們改進分類器期間,不可避免地會產生更多的誤報。我們也在調整我們的生物和網絡分類器,以減少在無害請求上的觸發頻率。我們知道這令人沮喪,我們將盡最大努力將這一時期縮到最短。
如果你認為某個請求被錯誤標記:請在 Claude Code 中運行 /feedback,在 http://Claude.ai 或 Cowork 的回退提示上點擊向下的大拇指圖標,或者針對 API 請求填寫安全限制申訴表單。你的報告有助于我們調整這些分類器,感謝你的反饋。
然而,用戶的信任已經收到損害。如今,即便 Anthropic 道歉了,也已經做出了撤回政策的承諾,但也有不少人在社交網絡上表達了自己的不信任。
![]()
![]()
![]()
一些人認為,Anthropic 甚至依然有可能悄悄執行這一政策,畢竟這是在難以檢測。
![]()
與此同時,競爭對手 OpenAI 那邊走的是另一條路線:考慮大幅降低 token 價格,以期與 Anthropic 爭奪客戶。
![]()
Anthropic 最近在收入、估值和某些領域(如編碼工具)超越了 OpenAI,雙方都在為 IPO 做準備,計算成本高企是共同痛點。
與此同時,昨天,OpenAI 的 Codex 的邀請好友功能也已經開始灰度測試,聽說邀請好友還能重置額度。
兩家公司互相施壓,或許還能給用戶帶來其他一些意想不到的實惠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.