講真,我苦苦等了整整一個春節(jié)長假,也沒有等到DeepSeek V4發(fā)布。
可是,開工第一天,就出大事了。
國外大模型公司Anthropic直接跳出來一記暴擊,炮轟包括DeepSeek在內(nèi)的三家中國公司對其進(jìn)行「蒸餾攻擊」。
![]()
Anthropic把這則檄文《蒸餾攻擊的檢測和防范》,直接放到了官網(wǎng)上。
單從它的一面之詞看,還挺嚴(yán)重的。
![]()
究竟是怎么一回事呢,我們就先基于這些一面之詞,掰扯下來龍去脈。
Anthropic檄文中的蒸餾攻擊(distillation attack),是指↓
名詞解釋【蒸餾攻擊】:用海量、結(jié)構(gòu)化的API調(diào)用,把Claude當(dāng)老師,批量出題+批量抄答案,最后把答案拿回去訓(xùn)練自己的模型。
對于這種行為,Anthropic稱之為「工業(yè)化能力抽取」。
![]()
具體怎么干呢?
▋第一步:繞過地域與風(fēng)控,獲取大規(guī)模Claude訪問通道
因?yàn)锳nthropic這鳥公司明確不在國內(nèi)提供商業(yè)訪問(以及部分關(guān)聯(lián)主體的訪問),所以想大規(guī)模用Claude,得先解決怎么連上,怎么不被封。
據(jù)其公開的信息,違規(guī)大模型廠商是這么干的↓
注冊大量偽造賬號:約2.4萬個欺詐賬戶;
使用商業(yè)代理/轉(zhuǎn)售服務(wù):通過這些馬甲把Claude等模型的訪問批發(fā)出來;
九頭蛇集群架構(gòu):成千上萬個賬號+多條接入路徑分發(fā)流量,封一個立馬補(bǔ)一個,不會單點(diǎn)失敗。
更夸張的是,有人還搞出一個代理網(wǎng)絡(luò)同時管理2W+欺詐賬號,把蒸餾流量混在正常客戶請求里,從而來隱藏真實(shí)用途。
這就好比攻擊方搭出了一個自動化問答工廠,通過流水線對Claude轟炸式的提取答案。
![]()
▋第二步:通過精心設(shè)計(jì)提示詞,把聊天變成訓(xùn)練數(shù)據(jù)生產(chǎn)線
蒸餾的要點(diǎn)是「把問題問得像訓(xùn)練集」。
按照Anthropic說法,區(qū)分正常使用與蒸餾攻擊的特征是這樣的↓
高重復(fù)結(jié)構(gòu)+極窄能力域聚焦+跨大量賬號同步出現(xiàn),而且內(nèi)容恰好對應(yīng)「高價值能力」,比如↓
agentic reasoning(智能體推理)、tool use(工具調(diào)用)、coding(編程)
攻擊者會讓Claude輸出大量高質(zhì)量「問→答」,回去直接拿來做SFT對齊。
甚至不光要答案,還要評分標(biāo)準(zhǔn)和評審結(jié)果,從而把Claude變成裁判,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。
比如檄文中,Anthropic說DeepSeek的一部分流量就是「rubric-based grading」,即基于量表的打分。
讓Claude像獎勵模型一樣給答案打分,以此完成后續(xù)強(qiáng)化學(xué)習(xí)ok。
![]()
▋第三步:圖窮匕見,這是最狠的一環(huán),獲取推理過程
如果你只蒸餾最終答案,學(xué)生模型學(xué)到的是外顯行為,但如果你能蒸餾到推理軌跡,學(xué)習(xí)效率會更高。
也就是說抄作業(yè)不止抄答案,還要把學(xué)霸解題思路也抄走。
Anthropic明確提到一個典型手法:
讓Claude「想象并寫出完成該回答的內(nèi)部推理」,逐步寫出step-by-step,等于在規(guī)模化生成思維鏈訓(xùn)練數(shù)據(jù)。
▋第四步:通過規(guī)模化運(yùn)營,完成組織層面的并發(fā)調(diào)度與反封禁工程
所謂工業(yè)化蒸餾,就是像跑廣告投放、爬蟲、DDoS那樣工程化,Anthropic控訴說,這幾個家伙是這么干的↓
跨賬號同步流量:同一套提示詞模板在不同賬號同時跑,就像負(fù)載均衡
共享支付方式:表明是同一組織在運(yùn)營,也成為被抓包的證據(jù)
快速迭代策略:Anthropic說他們觀察到了MiniMax攻擊的完整生命周期,當(dāng)Anthropic發(fā)布新模型后,對方24小時內(nèi)就把近一半流量切去抓新模型能力。
![]()
▋第五步:把抽取到的能力灌回自家模型
拿到數(shù)據(jù)后,典型訓(xùn)練路徑是:?清洗與去重→?SFT對齊→?RL強(qiáng)化學(xué)習(xí)建投→?專項(xiàng)訓(xùn)練(智能體、工具調(diào)用、多步推理等)
Anthropic控訴說,這種路徑能讓競爭者用遠(yuǎn)低于從零訓(xùn)練的成本補(bǔ)齊關(guān)鍵能力。
![]()
▋第六步:憑什么說是這三家?Anthropic是怎么發(fā)現(xiàn)的?
在檄文里,Anthropic也進(jìn)行了舉證,并提到了一些檢測手段↓
API流量里的行為指紋與分類器;
識別思維鏈誘導(dǎo)這種用于構(gòu)造推理訓(xùn)練數(shù)據(jù)的模式;
跨大量賬號的協(xié)同檢測,同模板、同節(jié)奏、同目標(biāo)能力域;
與云廠商、行業(yè)伙伴共享指標(biāo)進(jìn)行歸因,IP、元數(shù)據(jù)、基礎(chǔ)設(shè)施痕跡等等…
并且,也給出了三家涉嫌蒸餾攻擊的大模型公司的具體“收益”↓
包括交互規(guī)模和抽取的能力,其中Minimax的涉嫌違規(guī)交互次數(shù)高達(dá)1300萬,而DeepSeek則為15萬次。
![]()
截止目前為止,涉事的三家大模型公司均未給出回應(yīng)。
但馬斯克第一時間跳出來轉(zhuǎn)發(fā)調(diào)侃Anthropic:他們怎么敢偷走Anthropic從人類程序員那里偷來的東西?
暗指A家本身就不干凈,還好意思賊喊捉賊,諷刺感拉滿。
![]()
講真,看完Aopic的炮轟全文,心里挺不舒服的,這叼毛公司措辭一如既往的極其囂張。
只希望國貨自強(qiáng),早日把它拉下神壇,別讓這貨一口一個“支持出口管制政策,幫助維持大遼國在AI領(lǐng)域的領(lǐng)先地位”。
真特么傷害不大,侮辱性極強(qiáng)。
![]()
好了,這事兒就是這么個事。
那么問題來了,最近該上新的模型可都上新了,壓力給到DeepSeek了,V4,究竟什么時候發(fā),能不能給Anthropic來一記暴擊?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.