无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

南丹麥大學(xué)的研究意外答案:大語(yǔ)言模型會(huì)"主動(dòng)"泄露訓(xùn)練數(shù)據(jù)嗎?

0
分享至


這項(xiàng)由南丹麥大學(xué)(University of Southern Denmark)研究團(tuán)隊(duì)完成的研究,以預(yù)印本形式發(fā)布于2026年6月4日,編號(hào)為arXiv:2606.06286,有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

每當(dāng)我們打開(kāi)手機(jī)上的AI助手,隨口問(wèn)一句"幫我寫(xiě)封郵件"或者"解釋一下量子力學(xué)",我們很少會(huì)停下來(lái)想:這個(gè)AI在回答我的時(shí)候,會(huì)不會(huì)順便把它訓(xùn)練時(shí)讀過(guò)的某本書(shū)、某個(gè)人的私人信息原封不動(dòng)地"背"給我們?這個(gè)問(wèn)題聽(tīng)起來(lái)有點(diǎn)像在問(wèn)一個(gè)考過(guò)無(wú)數(shù)本書(shū)的學(xué)生:他在和你聊天時(shí),會(huì)不會(huì)突然開(kāi)始背書(shū)?

這正是這項(xiàng)研究的核心出發(fā)點(diǎn)。大語(yǔ)言模型(也就是我們常說(shuō)的AI聊天機(jī)器人背后的技術(shù))在訓(xùn)練時(shí)會(huì)"讀"過(guò)海量的文本——網(wǎng)頁(yè)、書(shū)籍、論文、代碼,甚至私人信息。學(xué)術(shù)界早已證明,如果你用特定的方式"逼問(wèn)"這些模型,它們確實(shí)能把訓(xùn)練時(shí)讀過(guò)的內(nèi)容一字不差地"背"出來(lái)。但問(wèn)題是:在日常使用中,在沒(méi)有人特意"逼問(wèn)"的情況下,這些模型會(huì)不會(huì)自己主動(dòng)把那些內(nèi)容"背"出來(lái)?

這兩件事聽(tīng)起來(lái)相似,但本質(zhì)上截然不同。一個(gè)學(xué)生在考試時(shí)被要求背誦課文,和他在日常聊天中突然開(kāi)始背課文,是完全不同的兩種行為。前者說(shuō)明他有這個(gè)能力,后者才說(shuō)明他有這個(gè)傾向。南丹麥大學(xué)的團(tuán)隊(duì)認(rèn)為,現(xiàn)有的研究幾乎只關(guān)注了前者——也就是"能不能被逼出來(lái)",而幾乎沒(méi)有人認(rèn)真研究后者——也就是"會(huì)不會(huì)自己冒出來(lái)"。為了填補(bǔ)這個(gè)空白,他們?cè)O(shè)計(jì)了一套全新的評(píng)估框架,并開(kāi)發(fā)了配套的工具,用來(lái)系統(tǒng)地回答這個(gè)問(wèn)題。

一、被"逼問(wèn)"和"自愿說(shuō)出",有什么本質(zhì)區(qū)別?

要理解這項(xiàng)研究為什么重要,先來(lái)理解一個(gè)關(guān)鍵區(qū)別。研究團(tuán)隊(duì)借用了一個(gè)在AI安全領(lǐng)域越來(lái)越受重視的概念框架,把AI的行為分為兩類:一類叫做"能力",一類叫做"傾向"。

所謂"能力",就是在你用盡各種手段去逼迫、引導(dǎo)、誘騙一個(gè)AI的情況下,它能做到什么。就像你可以通過(guò)專門的問(wèn)話技巧讓一個(gè)謹(jǐn)慎的人說(shuō)出他平時(shí)不會(huì)說(shuō)的話——這證明他具備說(shuō)出這些話的能力,但不代表他在日常生活中會(huì)隨口說(shuō)出來(lái)。

所謂"傾向",則是在正常、普通的對(duì)話環(huán)境下,這個(gè)AI自發(fā)地會(huì)做什么。如果一個(gè)人在日常聊天中,沒(méi)有任何人引導(dǎo),卻總是把自己讀過(guò)的書(shū)一段一段地背出來(lái),那說(shuō)明他有背書(shū)的"傾向",這才是真正值得警惕的行為模式。

在大語(yǔ)言模型的語(yǔ)境里,研究團(tuán)隊(duì)把針對(duì)"能力"的測(cè)試方式稱為"前綴攻擊"——具體做法是:從模型的訓(xùn)練數(shù)據(jù)里直接截取一段文字的開(kāi)頭部分,然后把這段開(kāi)頭喂給模型,讓它"接著說(shuō)"。這就相當(dāng)于你拿著一本書(shū)的第一句話去問(wèn)那位博覽群書(shū)的學(xué)生:"接下來(lái)是什么?"如果他真的讀過(guò)這本書(shū),他很可能會(huì)把后面的內(nèi)容背出來(lái)。這種測(cè)試能夠探測(cè)模型在最有利條件下的記憶提取能力。

與此相對(duì),針對(duì)"傾向"的測(cè)試則完全不同:研究團(tuán)隊(duì)設(shè)計(jì)了兩類日常化的、與訓(xùn)練數(shù)據(jù)沒(méi)有直接關(guān)聯(lián)的提示語(yǔ),模擬真實(shí)用戶在日常使用中可能提出的問(wèn)題,看看模型在這種情況下會(huì)不會(huì)無(wú)意中"背"出訓(xùn)練數(shù)據(jù)。

這兩種測(cè)試之間的差距,就像是考察一個(gè)演員"能不能表演一段臺(tái)詞"和"他在日常對(duì)話中會(huì)不會(huì)突然開(kāi)始表演臺(tái)詞"之間的差距。前者是能力測(cè)試,后者是行為傾向測(cè)試。現(xiàn)有的幾乎所有研究都只做了前者,而這項(xiàng)研究?jī)烧叨甲隽耍⑶以O(shè)計(jì)了一種方法來(lái)比較兩者之間的差距。

二、如何精確測(cè)量"背課文"的程度?

確定了要測(cè)量什么之后,下一個(gè)問(wèn)題是:怎么測(cè)量?

研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SIMPLETRACE的工具,這是整項(xiàng)研究的技術(shù)基礎(chǔ)。可以把它理解為一個(gè)"文字追蹤器"——當(dāng)AI生成一段文字之后,SIMPLETRACE會(huì)拿著這段文字,跑去對(duì)比AI的訓(xùn)練數(shù)據(jù)庫(kù),精確地找出"這段話的哪些部分原封不動(dòng)地出現(xiàn)在了訓(xùn)練數(shù)據(jù)里"。

這個(gè)追蹤過(guò)程不是模糊的、概率性的猜測(cè),而是確定性的精確匹配,就像用一臺(tái)高精度掃描儀把AI的輸出和訓(xùn)練數(shù)據(jù)逐字對(duì)比。SIMPLETRACE的底層依賴一個(gè)叫做"infini-gram"的技術(shù),這個(gè)技術(shù)能夠在幾毫秒內(nèi)在超過(guò)數(shù)萬(wàn)億個(gè)詞的龐大文本庫(kù)中完成精確搜索,速度極快。

SIMPLETRACE的工作流程可以這樣理解。首先,它把AI生成的文字拆解成大量片段,對(duì)每個(gè)片段都去問(wèn)一個(gè)問(wèn)題:"這段話有沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)里?最長(zhǎng)能匹配多少個(gè)詞?"其次,它會(huì)過(guò)濾掉那些太常見(jiàn)、太普通的匹配——比如"你好,我是"這樣的短語(yǔ)在任何文本里都會(huì)出現(xiàn),不能算作真正的"背課文",只有那些相對(duì)罕見(jiàn)、有意義的匹配才會(huì)被保留。接著,它會(huì)去找出訓(xùn)練數(shù)據(jù)中具體是哪篇文章、哪個(gè)文檔里包含了這段文字,從而實(shí)現(xiàn)精確的"溯源"。最后,它把相鄰的、重疊的匹配片段合并起來(lái),得到一個(gè)完整的追蹤結(jié)果。

整個(gè)系統(tǒng)還支持多核并行處理,速度相當(dāng)快。對(duì)于一個(gè)約4600億詞的大型數(shù)據(jù)集,處理100條查詢只需要約1分鐘。研究團(tuán)隊(duì)還專門驗(yàn)證了這個(gè)工具的準(zhǔn)確性,結(jié)果顯示它在實(shí)際使用中的正確率接近完美。

有了追蹤工具之后,研究團(tuán)隊(duì)使用了多個(gè)指標(biāo)來(lái)量化"背課文"的程度。其中最重要的三個(gè)指標(biāo)分別是:平均最長(zhǎng)匹配片段長(zhǎng)度(AI生成的一段話里,與訓(xùn)練數(shù)據(jù)逐字匹配的最長(zhǎng)連續(xù)片段有多長(zhǎng))、完整生成匹配比例(AI生成的整段話有沒(méi)有在訓(xùn)練數(shù)據(jù)中找到完全一樣的文檔)和近似逐字匹配率(AI生成的內(nèi)容有多大比例與訓(xùn)練數(shù)據(jù)高度相似,即便不是一字不差)。

三、"傾向分?jǐn)?shù)"——一個(gè)衡量"主動(dòng)性"的新指標(biāo)

光有這三個(gè)指標(biāo)還不夠,因?yàn)樗鼈冎荒芨嬖V你AI"背了多少",而不能告訴你AI"有多大傾向去背"。研究團(tuán)隊(duì)為此專門發(fā)明了一種新的數(shù)學(xué)變換,把原有的指標(biāo)轉(zhuǎn)化為"傾向分?jǐn)?shù)"。

這個(gè)變換背后的邏輯非常直觀:如果一個(gè)模型在被逼問(wèn)時(shí)(能力測(cè)試)會(huì)大量背課文,但在日常對(duì)話中(傾向測(cè)試)幾乎不背,那說(shuō)明它的記憶能力很強(qiáng),但它不會(huì)主動(dòng)表現(xiàn)出來(lái)。這種情況下,即便日常使用中偶有一點(diǎn)背課文的現(xiàn)象,也應(yīng)該被評(píng)為"低傾向",因?yàn)橄鄬?duì)于它的能力來(lái)說(shuō),它表現(xiàn)得相當(dāng)克制。反過(guò)來(lái),如果一個(gè)模型在被逼問(wèn)時(shí)也背不出多少,但在日常對(duì)話中卻動(dòng)不動(dòng)就把訓(xùn)練數(shù)據(jù)背出來(lái),那才是真正令人擔(dān)憂的"高傾向"。

這個(gè)傾向分?jǐn)?shù)的計(jì)算方式可以用一個(gè)比喻來(lái)理解:把能力測(cè)試分?jǐn)?shù)想象成一個(gè)人"最高能跑多快",把傾向測(cè)試分?jǐn)?shù)想象成他"平時(shí)走路有多快"。一個(gè)能跑100米沖刺的人,如果平時(shí)走路速度和普通人一樣,那他的"跑步傾向"其實(shí)并不高。但如果一個(gè)人平時(shí)走路總是跑得飛快,哪怕他的沖刺速度并不驚人,那他的"跑步傾向"就很高了。

具體來(lái)說(shuō),這個(gè)分?jǐn)?shù)在0到1之間,0.5代表"中性"——也就是日常表現(xiàn)和被逼問(wèn)時(shí)表現(xiàn)一樣。低于0.5說(shuō)明日常表現(xiàn)比被逼問(wèn)時(shí)克制得多,即低傾向。高于0.5說(shuō)明日常表現(xiàn)甚至比被逼問(wèn)時(shí)更活躍,即高傾向。分?jǐn)?shù)為0則意味著在日常使用中完全沒(méi)有背課文的現(xiàn)象。

四、用什么模型、什么數(shù)據(jù)來(lái)做實(shí)驗(yàn)?

研究團(tuán)隊(duì)選擇了兩個(gè)完全公開(kāi)、使用開(kāi)放授權(quán)數(shù)據(jù)訓(xùn)練的模型,來(lái)確保實(shí)驗(yàn)的透明性和可重復(fù)性。

第一個(gè)模型叫做Comma v0.1,是一個(gè)主要使用英文數(shù)據(jù)訓(xùn)練的模型。它的訓(xùn)練數(shù)據(jù)是一個(gè)叫做Common Pile的數(shù)據(jù)集,包含了大約5210億個(gè)詞的文本,全部來(lái)自公共領(lǐng)域或有明確開(kāi)放授權(quán)的來(lái)源,總量約521GB。

第二個(gè)模型叫做DFM Decoder,它是在Comma的基礎(chǔ)上繼續(xù)訓(xùn)練的。在Comma學(xué)完英文之后,DFM Decoder又額外讀了300億詞的新數(shù)據(jù),其中三分之二是丹麥語(yǔ)(來(lái)自一個(gè)叫Dynaword的丹麥語(yǔ)數(shù)據(jù)集,包含約68億詞),三分之一仍然是Common Pile里的英文內(nèi)容。這就像一個(gè)英語(yǔ)學(xué)生在大學(xué)畢業(yè)后又去學(xué)習(xí)了丹麥語(yǔ),他的丹麥語(yǔ)是新學(xué)的,但他的英語(yǔ)是老底子。

這對(duì)模型組合讓研究團(tuán)隊(duì)可以同時(shí)研究?jī)杉拢旱谝唬瑢?duì)同一份數(shù)據(jù)(Common Pile),兩個(gè)模型的記憶情況是否有差別;第二,DFM Decoder對(duì)自己"新學(xué)"的丹麥語(yǔ)數(shù)據(jù)(Dynaword)的記憶情況如何。

五、三種提問(wèn)方式,模擬從"日常聊天"到"專業(yè)審訊"的全光譜

為了全面地測(cè)試模型的行為,研究團(tuán)隊(duì)設(shè)計(jì)了三套提示語(yǔ),每套100條,覆蓋從最日常到最具針對(duì)性的全譜場(chǎng)景。

第一套叫"通用提示",相當(dāng)于日常隨口問(wèn)的問(wèn)題,與訓(xùn)練數(shù)據(jù)沒(méi)有特別的關(guān)聯(lián)。這是最接近普通用戶真實(shí)使用場(chǎng)景的測(cè)試,專門用來(lái)測(cè)量"傾向"。

第二套叫"特定提示",這些問(wèn)題雖然不是從訓(xùn)練數(shù)據(jù)里直接摘取的,但話題和風(fēng)格與訓(xùn)練數(shù)據(jù)所在的領(lǐng)域有關(guān)聯(lián)。打個(gè)比方,如果訓(xùn)練數(shù)據(jù)里有很多關(guān)于北歐文化的內(nèi)容,特定提示里的問(wèn)題就會(huì)問(wèn)關(guān)于北歐文化的話題,但不會(huì)直接引用訓(xùn)練數(shù)據(jù)里的原話。這是一種"弱引導(dǎo)"的測(cè)試,介于傾向和能力之間。

第三套就是前面提到的"前綴攻擊",直接從訓(xùn)練數(shù)據(jù)中截取開(kāi)頭部分,讓模型接著說(shuō)。這是專門測(cè)量"能力"的最強(qiáng)手段。

研究團(tuán)隊(duì)在正式實(shí)驗(yàn)之前,還專門驗(yàn)證了這三套提示語(yǔ)與訓(xùn)練數(shù)據(jù)的重疊程度,確認(rèn)通用提示和特定提示與訓(xùn)練數(shù)據(jù)的重疊度遠(yuǎn)低于前綴攻擊,從而確保它們真的代表了不同層級(jí)的"逼迫程度"。結(jié)果也符合預(yù)期:前綴攻擊與訓(xùn)練數(shù)據(jù)重疊最高,特定提示次之,通用提示最低,形成了一個(gè)清晰的梯度。

六、實(shí)驗(yàn)結(jié)果:能力很強(qiáng),但傾向很低

所有實(shí)驗(yàn)都在溫度為0的條件下進(jìn)行,也就是每次都選最可能的詞來(lái)生成,保證結(jié)果的確定性和可重復(fù)性。

先來(lái)看Comma模型對(duì)Common Pile的記憶情況。在前綴攻擊下,模型生成的文字平均能與訓(xùn)練數(shù)據(jù)形成長(zhǎng)達(dá)50.35個(gè)詞的逐字匹配——幾乎等于半段完整的句子,有時(shí)甚至是幾個(gè)連續(xù)的句子。相比之下,在通用提示下,這個(gè)數(shù)字只有27.95個(gè)詞,而特定提示介于兩者之間,約為29.47個(gè)詞。

完整生成匹配比例這個(gè)指標(biāo)更有意思:在前綴攻擊下,有2%的AI回答在訓(xùn)練數(shù)據(jù)中找到了完全一樣的文檔——也就是說(shuō),這些回答完整地復(fù)現(xiàn)了訓(xùn)練數(shù)據(jù)里的某篇文章。特定提示達(dá)到了同樣的2%,而通用提示則為0%。近似逐字匹配率方面,前綴攻擊達(dá)到了0.0321,特定提示為0.0058,通用提示僅為0.0013。

換句話說(shuō),在被"逼問(wèn)"時(shí),Comma確實(shí)能把訓(xùn)練數(shù)據(jù)相當(dāng)完整地"背"出來(lái)。但在日常聊天式的提問(wèn)下,這種現(xiàn)象就少得多了。

傾向分?jǐn)?shù)則把這個(gè)對(duì)比說(shuō)得更清楚。Comma的近似逐字匹配傾向分?jǐn)?shù),在通用提示下為0.04,在特定提示下為0.153——兩個(gè)數(shù)字都遠(yuǎn)低于中性值0.5,說(shuō)明日常使用中的背課文現(xiàn)象相對(duì)于其能力來(lái)說(shuō)是相當(dāng)克制的。完整生成匹配傾向在通用提示下為0,在特定提示下為0.5——后者之所以達(dá)到0.5,是因?yàn)樘囟ㄌ崾竞颓熬Y攻擊在這個(gè)指標(biāo)上的分?jǐn)?shù)完全相同(都是2%),表現(xiàn)出一致性,但兩個(gè)分?jǐn)?shù)本身都相對(duì)較低。

接下來(lái)是對(duì)比DFM Decoder的表現(xiàn),這部分的結(jié)果格外有趣。

在Common Pile方面,DFM Decoder比Comma表現(xiàn)出更低的記憶程度。在前綴攻擊下,DFM Decoder的平均最長(zhǎng)匹配長(zhǎng)度只有40.83個(gè)詞,而Comma是50.35個(gè)詞。最關(guān)鍵的是,DFM Decoder在Common Pile上的完整生成匹配比例在所有測(cè)試條件下均為0,也就是說(shuō),它完全沒(méi)有把任何Common Pile里的完整文章背出來(lái)——而Comma在特定提示和前綴攻擊下都達(dá)到了2%。

這個(gè)發(fā)現(xiàn)很有意義。DFM Decoder是在Comma的基礎(chǔ)上進(jìn)一步訓(xùn)練的,但后續(xù)訓(xùn)練的數(shù)據(jù)以丹麥語(yǔ)為主,英語(yǔ)只占三分之一。這就好比一個(gè)人在大學(xué)里精讀了大量英語(yǔ)文學(xué),畢業(yè)后又花了相當(dāng)多的時(shí)間學(xué)習(xí)丹麥語(yǔ),順帶復(fù)習(xí)了一些英語(yǔ)。在這個(gè)過(guò)程中,他對(duì)英語(yǔ)文學(xué)的記憶并沒(méi)有變得更深,反而因?yàn)樽⒁饬Σ糠洲D(zhuǎn)移而變得稍淺了。研究團(tuán)隊(duì)的發(fā)現(xiàn)與學(xué)術(shù)界的先前研究相吻合:訓(xùn)練數(shù)據(jù)越是在訓(xùn)練過(guò)程的后期出現(xiàn),就越容易被記住;而越早出現(xiàn)、越久沒(méi)有復(fù)習(xí)的數(shù)據(jù),記憶就越容易衰減。

在Dynaword(丹麥語(yǔ)數(shù)據(jù)集)方面,DFM Decoder展現(xiàn)出了與Common Pile不同的記憶模式。前綴攻擊下的平均最長(zhǎng)匹配長(zhǎng)度只有24.75個(gè)詞,遠(yuǎn)短于它在Common Pile上的表現(xiàn)。但在完整生成匹配比例上,Dynaword下的DFM Decoder在前綴攻擊時(shí)達(dá)到了7%,遠(yuǎn)高于Common Pile的0%。這說(shuō)明Dynaword的文章更容易被完整地"背"出來(lái),但背出來(lái)的通常是比較短的片段。而Common Pile的文章雖然被完整背出來(lái)的概率更低,但一旦觸發(fā),背出的片段往往更長(zhǎng)。

研究團(tuán)隊(duì)把這描述為兩種不同的記憶"畫(huà)像":Common Pile的記憶就像記住了文章里的一段金句,雖然不多,但每句都很長(zhǎng);而Dynaword的記憶更像偶爾把一整首短詩(shī)完整地背了出來(lái)。

在Dynaword的傾向分?jǐn)?shù)上,兩個(gè)指標(biāo)都極低:近似逐字匹配傾向在通用提示下為0.026,特定提示下為0.018;完整生成匹配傾向在通用提示下為0,特定提示下最高也只有0.125。這些數(shù)字都遠(yuǎn)低于中性值0.5,說(shuō)明DFM Decoder在日常使用中極少主動(dòng)"背"出Dynaword里的內(nèi)容。

七、訓(xùn)練的三個(gè)階段:記憶從一開(kāi)始就定型了

DFM Decoder的訓(xùn)練分為三個(gè)階段,研究團(tuán)隊(duì)還專門檢驗(yàn)了記憶情況在這三個(gè)階段之間是否有變化。

結(jié)果出人意料地一致:無(wú)論在哪個(gè)訓(xùn)練階段,無(wú)論對(duì)Common Pile還是Dynaword,幾乎所有記憶指標(biāo)都保持穩(wěn)定,沒(méi)有明顯的上升或下降趨勢(shì)。Dynaword上的平均最長(zhǎng)匹配長(zhǎng)度在三個(gè)階段中完全一致,分別為15.68(通用)、17.37(特定)、24.75(前綴),絲毫沒(méi)有變化。Common Pile上的情況也完全相同。

這個(gè)發(fā)現(xiàn)說(shuō)明:模型對(duì)一組數(shù)據(jù)的記憶程度,基本上在遇到這些數(shù)據(jù)后就已經(jīng)定下來(lái)了,繼續(xù)在相同數(shù)據(jù)混合比例下訓(xùn)練并不會(huì)讓記憶更深或更淺。傾向分?jǐn)?shù)也同樣穩(wěn)定,通用提示下的近似逐字匹配傾向在整個(gè)訓(xùn)練過(guò)程中始終在0.023到0.027之間小幅浮動(dòng)。

研究團(tuán)隊(duì)由此推斷:僅僅經(jīng)歷一個(gè)訓(xùn)練階段,就足以對(duì)之前數(shù)據(jù)的記憶產(chǎn)生影響。換句話說(shuō),如果你想降低模型對(duì)某組數(shù)據(jù)的記憶,你不需要等很久——從一開(kāi)始轉(zhuǎn)向不同數(shù)據(jù),效果很快就會(huì)顯現(xiàn)。

八、這對(duì)普通人意味著什么?

從日常使用的角度來(lái)看,這項(xiàng)研究傳達(dá)了一個(gè)相對(duì)讓人放心但也提醒我們保持警惕的信號(hào)。

放心的部分是:經(jīng)過(guò)測(cè)試的這兩個(gè)模型,在普通用戶的日常使用場(chǎng)景中,極少主動(dòng)把訓(xùn)練數(shù)據(jù)背出來(lái)。傾向分?jǐn)?shù)普遍遠(yuǎn)低于中性值,說(shuō)明這些模型并沒(méi)有特別強(qiáng)烈的"主動(dòng)泄露"傾向。你在日常和AI聊天時(shí),它不太可能突然開(kāi)始把某本書(shū)的段落一字不差地背給你。

需要保持警惕的部分是:如果有人專門用前綴攻擊或其他精心設(shè)計(jì)的方式去"逼問(wèn)"這些模型,它們確實(shí)能把訓(xùn)練數(shù)據(jù)里的內(nèi)容相當(dāng)完整地提取出來(lái)。這種能力是實(shí)實(shí)在在存在的,并不因?yàn)槿粘A向低而消失。研究團(tuán)隊(duì)明確指出,低傾向不等于沒(méi)有風(fēng)險(xiǎn),特定的、有針對(duì)性的提問(wèn)依然能在某些情況下觸發(fā)記憶提取。

從法律合規(guī)的角度,這個(gè)框架也有重要意義。歐盟的GDPR(通用數(shù)據(jù)保護(hù)條例)和AI法案都要求對(duì)AI系統(tǒng)進(jìn)行安全評(píng)估,證明其不會(huì)造成可預(yù)見(jiàn)的數(shù)據(jù)泄露風(fēng)險(xiǎn)。研究團(tuán)隊(duì)認(rèn)為,同時(shí)報(bào)告"最壞情況下能提取多少"和"日常使用中會(huì)自發(fā)泄露多少"這兩類信息,才能為監(jiān)管機(jī)構(gòu)提供更完整、更準(zhǔn)確的風(fēng)險(xiǎn)畫(huà)像,而不是只報(bào)告其中一種。

此外,這項(xiàng)研究還發(fā)現(xiàn)了一個(gè)對(duì)AI開(kāi)發(fā)者有參考價(jià)值的現(xiàn)象:在不同數(shù)據(jù)上進(jìn)行混合訓(xùn)練,可能是降低模型對(duì)特定數(shù)據(jù)集記憶程度的一種方式。DFM Decoder在Common Pile上的記憶弱于Comma,就是一個(gè)活生生的例子。當(dāng)然,目前還不清楚這是否僅僅因?yàn)閿?shù)據(jù)種類不同(英文與丹麥文),還是混合訓(xùn)練本身就會(huì)產(chǎn)生這種效果,需要進(jìn)一步研究來(lái)厘清。

說(shuō)到底,這項(xiàng)研究回答了一個(gè)很接地氣的問(wèn)題:AI聊天機(jī)器人會(huì)不會(huì)在日常對(duì)話中"管不住自己的嘴",把它訓(xùn)練時(shí)讀過(guò)的東西背出來(lái)?答案是:能力有,但傾向低——它們有這個(gè)本事,但不太會(huì)自己主動(dòng)做這件事。然而,一旦有人專門去"問(wèn)",它們確實(shí)能露出這一面。這就像一個(gè)記憶力很好的人,平時(shí)說(shuō)話不會(huì)引經(jīng)據(jù)典,但如果你專門問(wèn)他某本書(shū)的內(nèi)容,他還是能背出來(lái)。

這對(duì)我們使用AI的方式提出了一個(gè)耐人尋味的問(wèn)題:我們是否應(yīng)該更關(guān)注那些"能被逼出來(lái)的"風(fēng)險(xiǎn),還是更關(guān)注"日常會(huì)自發(fā)出現(xiàn)的"風(fēng)險(xiǎn)?研究團(tuán)隊(duì)的答案是:兩者都不能忽視,它們衡量的是同一件事的不同側(cè)面,缺了哪一面都是不完整的。

有興趣深入研究這一課題的讀者,可以通過(guò)arXiv編號(hào)2606.06286查閱原論文全文,研究團(tuán)隊(duì)開(kāi)發(fā)的SIMPLETRACE工具也已作為開(kāi)源項(xiàng)目發(fā)布,可以在GitHub上通過(guò)N-essuno/PropMe找到完整代碼。

Q&A

Q1:什么是大語(yǔ)言模型的"記憶泄露",普通人用AI時(shí)會(huì)受影響嗎?

A:大語(yǔ)言模型在訓(xùn)練時(shí)讀過(guò)大量文本,記憶泄露是指模型把這些訓(xùn)練數(shù)據(jù)原文"背"出來(lái)。南丹麥大學(xué)的這項(xiàng)研究發(fā)現(xiàn),在日常使用場(chǎng)景下,模型主動(dòng)背出訓(xùn)練數(shù)據(jù)的傾向相當(dāng)?shù)停胀ㄓ脩羧粘A奶鞄缀醪惶赡苡|發(fā)這種現(xiàn)象。但如果有人故意用特定方式"逼問(wèn)"模型,確實(shí)能提取出訓(xùn)練數(shù)據(jù)。

Q2:SIMPLETRACE是什么工具,它是怎么檢測(cè)AI是否在背訓(xùn)練數(shù)據(jù)的?

A:SIMPLETRACE是南丹麥大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源文字追蹤工具,它把AI生成的文字與訓(xùn)練數(shù)據(jù)逐字對(duì)比,精確找出哪些片段原封不動(dòng)地來(lái)自訓(xùn)練數(shù)據(jù)。它基于一種叫infini-gram的技術(shù),能在海量數(shù)據(jù)中快速完成確定性搜索,處理100條查詢對(duì)一個(gè)4600億詞的數(shù)據(jù)集只需約1分鐘,已作為開(kāi)源項(xiàng)目公開(kāi)發(fā)布。

Q3:大語(yǔ)言模型繼續(xù)訓(xùn)練會(huì)不會(huì)讓記憶泄露的風(fēng)險(xiǎn)越來(lái)越高?

A:根據(jù)這項(xiàng)研究,并不會(huì)單純因?yàn)橛?xùn)練時(shí)間變長(zhǎng)而加劇。實(shí)驗(yàn)發(fā)現(xiàn)DFM Decoder在三個(gè)訓(xùn)練階段里記憶程度幾乎沒(méi)有變化。更值得關(guān)注的是訓(xùn)練數(shù)據(jù)的構(gòu)成:當(dāng)后續(xù)訓(xùn)練引入了不同類型的數(shù)據(jù)時(shí),模型對(duì)早期數(shù)據(jù)的記憶反而會(huì)有所減弱,這表明混合多樣化的訓(xùn)練數(shù)據(jù)可能有助于降低特定數(shù)據(jù)集的記憶風(fēng)險(xiǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美媒:紐約尼克斯隊(duì)獲得NBA總冠軍,球迷慶祝時(shí)引發(fā)騷亂

美媒:紐約尼克斯隊(duì)獲得NBA總冠軍,球迷慶祝時(shí)引發(fā)騷亂

環(huán)球網(wǎng)資訊
2026-06-14 18:18:23
馬刺今夏三大目標(biāo)!3個(gè)首輪換頂級(jí)鋒線,換走福克斯扶正哈珀?

馬刺今夏三大目標(biāo)!3個(gè)首輪換頂級(jí)鋒線,換走福克斯扶正哈珀?

劉哥談體育
2026-06-14 15:20:30
你是惡魔嗎?

你是惡魔嗎?

正經(jīng)的米飯
2026-06-12 15:22:23
新疆“火焰山”:歷史上燒了129年,損失超萬(wàn)億!撲滅后驚艷世人

新疆“火焰山”:歷史上燒了129年,損失超萬(wàn)億!撲滅后驚艷世人

瘋狂的小歷史
2026-06-14 11:57:28
澳媒:澳大利亞民眾紛紛抓拍中國(guó)朱雀二號(hào)火箭奇觀

澳媒:澳大利亞民眾紛紛抓拍中國(guó)朱雀二號(hào)火箭奇觀

環(huán)球網(wǎng)資訊
2026-06-12 07:14:17
我與父親斷絕關(guān)系10年,他去世我沒(méi)去他葬禮,三天后他戰(zhàn)友找上門

我與父親斷絕關(guān)系10年,他去世我沒(méi)去他葬禮,三天后他戰(zhàn)友找上門

千秋文化
2026-06-10 20:43:44
臺(tái)灣演員吐槽:在島內(nèi)看不到世界杯!大陸網(wǎng)友喊話

臺(tái)灣演員吐槽:在島內(nèi)看不到世界杯!大陸網(wǎng)友喊話

南方都市報(bào)
2026-06-14 13:51:25
畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

畢業(yè)啦!谷愛(ài)凌曬斯坦福畢業(yè)照,氣質(zhì)身材完美并存

東方不敗然多多
2026-06-14 14:17:21
張雪機(jī)車被冠軍推上牌桌

張雪機(jī)車被冠軍推上牌桌

鈦媒體APP
2026-06-14 09:38:18
被“全球拒簽”的印度人,盯上中國(guó),印人高喊:中國(guó)應(yīng)該接受我們

被“全球拒簽”的印度人,盯上中國(guó),印人高喊:中國(guó)應(yīng)該接受我們

錯(cuò)過(guò)美好
2026-06-14 09:58:47
南京印度游客灑紅節(jié)鬧劇:狂歡無(wú)邊界,包容絕非無(wú)底線!

南京印度游客灑紅節(jié)鬧劇:狂歡無(wú)邊界,包容絕非無(wú)底線!

行者聊官
2026-06-13 21:45:48
世界杯6月15日賽程:日本對(duì)決荷蘭,德國(guó)首戰(zhàn)頭號(hào)魚(yú)腩,CCTV5直播

世界杯6月15日賽程:日本對(duì)決荷蘭,德國(guó)首戰(zhàn)頭號(hào)魚(yú)腩,CCTV5直播

侃球熊弟
2026-06-14 14:10:07
長(zhǎng)鑫科技上市在即:撐起3萬(wàn)億產(chǎn)業(yè)鏈,券商險(xiǎn)資多路入局

長(zhǎng)鑫科技上市在即:撐起3萬(wàn)億產(chǎn)業(yè)鏈,券商險(xiǎn)資多路入局

第一財(cái)經(jīng)資訊
2026-06-14 17:33:11
他在SpaceX最危險(xiǎn)時(shí)刻借給馬斯克100萬(wàn)美元,如今可能收獲1300億美元

他在SpaceX最危險(xiǎn)時(shí)刻借給馬斯克100萬(wàn)美元,如今可能收獲1300億美元

NASA愛(ài)好者
2026-06-09 00:30:03
法拉利高管深夜開(kāi)懟:智界,你請(qǐng)的“首席設(shè)計(jì)師”到底是誰(shuí)?

法拉利高管深夜開(kāi)懟:智界,你請(qǐng)的“首席設(shè)計(jì)師”到底是誰(shuí)?

小南看車
2026-06-11 20:30:07
所有人都在問(wèn):到底怎么可以82勝?

所有人都在問(wèn):到底怎么可以82勝?

追星雷達(dá)站
2026-06-14 00:34:53
搬起石頭砸自己的腳,前國(guó)腳實(shí)名圍剿董路,沒(méi)曾想自己先被扒光

搬起石頭砸自己的腳,前國(guó)腳實(shí)名圍剿董路,沒(méi)曾想自己先被扒光

笑飲孤鴻非
2026-06-14 19:03:12
只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開(kāi)生父繼母惡毒真相

只因5歲女孩尿床,父親一腳踹死女兒,尸檢撕開(kāi)生父繼母惡毒真相

易玄
2026-06-14 10:34:18
越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

越扒越驚心!你根本想象不到釋永信在少林寺的奢靡生活有多離譜?

清歡百味
2026-06-13 09:34:33
悲哀!高考女生兩天花光母親3個(gè)月工資2萬(wàn)元,質(zhì)問(wèn)“我錯(cuò)了嗎?”

悲哀!高考女生兩天花光母親3個(gè)月工資2萬(wàn)元,質(zhì)問(wèn)“我錯(cuò)了嗎?”

火山詩(shī)話
2026-06-12 11:46:38
2026-06-14 19:47:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8771文章數(shù) 565關(guān)注度
往期回顧 全部

教育要聞

藝術(shù)比賽有必要參加嗎?

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

頭條要聞

村民砍掉"孤獨(dú)樹(shù)":砍樹(shù)前一天跟紅裙女子發(fā)生沖突

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂(lè)要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來(lái)抄底了!

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級(jí) 2027款星途ES預(yù)售18.99萬(wàn)起

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
公開(kāi)課
軍事航空

家居要聞

空間微調(diào) 移形換境

本地新聞

AK劉彰邂逅河北南大港濕地

房產(chǎn)要聞

海南最賺錢行業(yè)曝光!最快4年半,海口全款買三房!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美伊協(xié)議周日簽 還有終極手段

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版