網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南丹麥大學(xué)的研究意外答案：大語(yǔ)言模型會(huì)"主動(dòng)"泄露訓(xùn)練數(shù)據(jù)嗎？

2026-06-11 17:13:21　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由南丹麥大學(xué)（University of Southern Denmark）研究團(tuán)隊(duì)完成的研究，以預(yù)印本形式發(fā)布于2026年6月4日，編號(hào)為arXiv:2606.06286，有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。

每當(dāng)我們打開(kāi)手機(jī)上的AI助手，隨口問(wèn)一句"幫我寫(xiě)封郵件"或者"解釋一下量子力學(xué)"，我們很少會(huì)停下來(lái)想：這個(gè)AI在回答我的時(shí)候，會(huì)不會(huì)順便把它訓(xùn)練時(shí)讀過(guò)的某本書(shū)、某個(gè)人的私人信息原封不動(dòng)地"背"給我們？這個(gè)問(wèn)題聽(tīng)起來(lái)有點(diǎn)像在問(wèn)一個(gè)考過(guò)無(wú)數(shù)本書(shū)的學(xué)生：他在和你聊天時(shí)，會(huì)不會(huì)突然開(kāi)始背書(shū)？

這正是這項(xiàng)研究的核心出發(fā)點(diǎn)。大語(yǔ)言模型（也就是我們常說(shuō)的AI聊天機(jī)器人背后的技術(shù)）在訓(xùn)練時(shí)會(huì)"讀"過(guò)海量的文本——網(wǎng)頁(yè)、書(shū)籍、論文、代碼，甚至私人信息。學(xué)術(shù)界早已證明，如果你用特定的方式"逼問(wèn)"這些模型，它們確實(shí)能把訓(xùn)練時(shí)讀過(guò)的內(nèi)容一字不差地"背"出來(lái)。但問(wèn)題是：在日常使用中，在沒(méi)有人特意"逼問(wèn)"的情況下，這些模型會(huì)不會(huì)自己主動(dòng)把那些內(nèi)容"背"出來(lái)？

這兩件事聽(tīng)起來(lái)相似，但本質(zhì)上截然不同。一個(gè)學(xué)生在考試時(shí)被要求背誦課文，和他在日常聊天中突然開(kāi)始背課文，是完全不同的兩種行為。前者說(shuō)明他有這個(gè)能力，后者才說(shuō)明他有這個(gè)傾向。南丹麥大學(xué)的團(tuán)隊(duì)認(rèn)為，現(xiàn)有的研究幾乎只關(guān)注了前者——也就是"能不能被逼出來(lái)"，而幾乎沒(méi)有人認(rèn)真研究后者——也就是"會(huì)不會(huì)自己冒出來(lái)"。為了填補(bǔ)這個(gè)空白，他們?cè)O(shè)計(jì)了一套全新的評(píng)估框架，并開(kāi)發(fā)了配套的工具，用來(lái)系統(tǒng)地回答這個(gè)問(wèn)題。

一、被"逼問(wèn)"和"自愿說(shuō)出"，有什么本質(zhì)區(qū)別？

要理解這項(xiàng)研究為什么重要，先來(lái)理解一個(gè)關(guān)鍵區(qū)別。研究團(tuán)隊(duì)借用了一個(gè)在AI安全領(lǐng)域越來(lái)越受重視的概念框架，把AI的行為分為兩類：一類叫做"能力"，一類叫做"傾向"。

所謂"能力"，就是在你用盡各種手段去逼迫、引導(dǎo)、誘騙一個(gè)AI的情況下，它能做到什么。就像你可以通過(guò)專門的問(wèn)話技巧讓一個(gè)謹(jǐn)慎的人說(shuō)出他平時(shí)不會(huì)說(shuō)的話——這證明他具備說(shuō)出這些話的能力，但不代表他在日常生活中會(huì)隨口說(shuō)出來(lái)。

所謂"傾向"，則是在正常、普通的對(duì)話環(huán)境下，這個(gè)AI自發(fā)地會(huì)做什么。如果一個(gè)人在日常聊天中，沒(méi)有任何人引導(dǎo)，卻總是把自己讀過(guò)的書(shū)一段一段地背出來(lái)，那說(shuō)明他有背書(shū)的"傾向"，這才是真正值得警惕的行為模式。

在大語(yǔ)言模型的語(yǔ)境里，研究團(tuán)隊(duì)把針對(duì)"能力"的測(cè)試方式稱為"前綴攻擊"——具體做法是：從模型的訓(xùn)練數(shù)據(jù)里直接截取一段文字的開(kāi)頭部分，然后把這段開(kāi)頭喂給模型，讓它"接著說(shuō)"。這就相當(dāng)于你拿著一本書(shū)的第一句話去問(wèn)那位博覽群書(shū)的學(xué)生："接下來(lái)是什么？"如果他真的讀過(guò)這本書(shū)，他很可能會(huì)把后面的內(nèi)容背出來(lái)。這種測(cè)試能夠探測(cè)模型在最有利條件下的記憶提取能力。

與此相對(duì)，針對(duì)"傾向"的測(cè)試則完全不同：研究團(tuán)隊(duì)設(shè)計(jì)了兩類日常化的、與訓(xùn)練數(shù)據(jù)沒(méi)有直接關(guān)聯(lián)的提示語(yǔ)，模擬真實(shí)用戶在日常使用中可能提出的問(wèn)題，看看模型在這種情況下會(huì)不會(huì)無(wú)意中"背"出訓(xùn)練數(shù)據(jù)。

這兩種測(cè)試之間的差距，就像是考察一個(gè)演員"能不能表演一段臺(tái)詞"和"他在日常對(duì)話中會(huì)不會(huì)突然開(kāi)始表演臺(tái)詞"之間的差距。前者是能力測(cè)試，后者是行為傾向測(cè)試。現(xiàn)有的幾乎所有研究都只做了前者，而這項(xiàng)研究?jī)烧叨甲隽耍⑶以O(shè)計(jì)了一種方法來(lái)比較兩者之間的差距。

二、如何精確測(cè)量"背課文"的程度？

確定了要測(cè)量什么之后，下一個(gè)問(wèn)題是：怎么測(cè)量？

研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SIMPLETRACE的工具，這是整項(xiàng)研究的技術(shù)基礎(chǔ)。可以把它理解為一個(gè)"文字追蹤器"——當(dāng)AI生成一段文字之后，SIMPLETRACE會(huì)拿著這段文字，跑去對(duì)比AI的訓(xùn)練數(shù)據(jù)庫(kù)，精確地找出"這段話的哪些部分原封不動(dòng)地出現(xiàn)在了訓(xùn)練數(shù)據(jù)里"。

這個(gè)追蹤過(guò)程不是模糊的、概率性的猜測(cè)，而是確定性的精確匹配，就像用一臺(tái)高精度掃描儀把AI的輸出和訓(xùn)練數(shù)據(jù)逐字對(duì)比。SIMPLETRACE的底層依賴一個(gè)叫做"infini-gram"的技術(shù)，這個(gè)技術(shù)能夠在幾毫秒內(nèi)在超過(guò)數(shù)萬(wàn)億個(gè)詞的龐大文本庫(kù)中完成精確搜索，速度極快。

SIMPLETRACE的工作流程可以這樣理解。首先，它把AI生成的文字拆解成大量片段，對(duì)每個(gè)片段都去問(wèn)一個(gè)問(wèn)題："這段話有沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)里？最長(zhǎng)能匹配多少個(gè)詞？"其次，它會(huì)過(guò)濾掉那些太常見(jiàn)、太普通的匹配——比如"你好，我是"這樣的短語(yǔ)在任何文本里都會(huì)出現(xiàn)，不能算作真正的"背課文"，只有那些相對(duì)罕見(jiàn)、有意義的匹配才會(huì)被保留。接著，它會(huì)去找出訓(xùn)練數(shù)據(jù)中具體是哪篇文章、哪個(gè)文檔里包含了這段文字，從而實(shí)現(xiàn)精確的"溯源"。最后，它把相鄰的、重疊的匹配片段合并起來(lái)，得到一個(gè)完整的追蹤結(jié)果。

整個(gè)系統(tǒng)還支持多核并行處理，速度相當(dāng)快。對(duì)于一個(gè)約4600億詞的大型數(shù)據(jù)集，處理100條查詢只需要約1分鐘。研究團(tuán)隊(duì)還專門驗(yàn)證了這個(gè)工具的準(zhǔn)確性，結(jié)果顯示它在實(shí)際使用中的正確率接近完美。

有了追蹤工具之后，研究團(tuán)隊(duì)使用了多個(gè)指標(biāo)來(lái)量化"背課文"的程度。其中最重要的三個(gè)指標(biāo)分別是：平均最長(zhǎng)匹配片段長(zhǎng)度（AI生成的一段話里，與訓(xùn)練數(shù)據(jù)逐字匹配的最長(zhǎng)連續(xù)片段有多長(zhǎng)）、完整生成匹配比例（AI生成的整段話有沒(méi)有在訓(xùn)練數(shù)據(jù)中找到完全一樣的文檔）和近似逐字匹配率（AI生成的內(nèi)容有多大比例與訓(xùn)練數(shù)據(jù)高度相似，即便不是一字不差）。

三、"傾向分?jǐn)?shù)"——一個(gè)衡量"主動(dòng)性"的新指標(biāo)

光有這三個(gè)指標(biāo)還不夠，因?yàn)樗鼈冎荒芨嬖V你AI"背了多少"，而不能告訴你AI"有多大傾向去背"。研究團(tuán)隊(duì)為此專門發(fā)明了一種新的數(shù)學(xué)變換，把原有的指標(biāo)轉(zhuǎn)化為"傾向分?jǐn)?shù)"。

這個(gè)變換背后的邏輯非常直觀：如果一個(gè)模型在被逼問(wèn)時(shí)（能力測(cè)試）會(huì)大量背課文，但在日常對(duì)話中（傾向測(cè)試）幾乎不背，那說(shuō)明它的記憶能力很強(qiáng)，但它不會(huì)主動(dòng)表現(xiàn)出來(lái)。這種情況下，即便日常使用中偶有一點(diǎn)背課文的現(xiàn)象，也應(yīng)該被評(píng)為"低傾向"，因?yàn)橄鄬?duì)于它的能力來(lái)說(shuō)，它表現(xiàn)得相當(dāng)克制。反過(guò)來(lái)，如果一個(gè)模型在被逼問(wèn)時(shí)也背不出多少，但在日常對(duì)話中卻動(dòng)不動(dòng)就把訓(xùn)練數(shù)據(jù)背出來(lái)，那才是真正令人擔(dān)憂的"高傾向"。

這個(gè)傾向分?jǐn)?shù)的計(jì)算方式可以用一個(gè)比喻來(lái)理解：把能力測(cè)試分?jǐn)?shù)想象成一個(gè)人"最高能跑多快"，把傾向測(cè)試分?jǐn)?shù)想象成他"平時(shí)走路有多快"。一個(gè)能跑100米沖刺的人，如果平時(shí)走路速度和普通人一樣，那他的"跑步傾向"其實(shí)并不高。但如果一個(gè)人平時(shí)走路總是跑得飛快，哪怕他的沖刺速度并不驚人，那他的"跑步傾向"就很高了。

具體來(lái)說(shuō)，這個(gè)分?jǐn)?shù)在0到1之間，0.5代表"中性"——也就是日常表現(xiàn)和被逼問(wèn)時(shí)表現(xiàn)一樣。低于0.5說(shuō)明日常表現(xiàn)比被逼問(wèn)時(shí)克制得多，即低傾向。高于0.5說(shuō)明日常表現(xiàn)甚至比被逼問(wèn)時(shí)更活躍，即高傾向。分?jǐn)?shù)為0則意味著在日常使用中完全沒(méi)有背課文的現(xiàn)象。

四、用什么模型、什么數(shù)據(jù)來(lái)做實(shí)驗(yàn)？

研究團(tuán)隊(duì)選擇了兩個(gè)完全公開(kāi)、使用開(kāi)放授權(quán)數(shù)據(jù)訓(xùn)練的模型，來(lái)確保實(shí)驗(yàn)的透明性和可重復(fù)性。

第一個(gè)模型叫做Comma v0.1，是一個(gè)主要使用英文數(shù)據(jù)訓(xùn)練的模型。它的訓(xùn)練數(shù)據(jù)是一個(gè)叫做Common Pile的數(shù)據(jù)集，包含了大約5210億個(gè)詞的文本，全部來(lái)自公共領(lǐng)域或有明確開(kāi)放授權(quán)的來(lái)源，總量約521GB。

第二個(gè)模型叫做DFM Decoder，它是在Comma的基礎(chǔ)上繼續(xù)訓(xùn)練的。在Comma學(xué)完英文之后，DFM Decoder又額外讀了300億詞的新數(shù)據(jù)，其中三分之二是丹麥語(yǔ)（來(lái)自一個(gè)叫Dynaword的丹麥語(yǔ)數(shù)據(jù)集，包含約68億詞），三分之一仍然是Common Pile里的英文內(nèi)容。這就像一個(gè)英語(yǔ)學(xué)生在大學(xué)畢業(yè)后又去學(xué)習(xí)了丹麥語(yǔ)，他的丹麥語(yǔ)是新學(xué)的，但他的英語(yǔ)是老底子。

這對(duì)模型組合讓研究團(tuán)隊(duì)可以同時(shí)研究?jī)杉拢旱谝唬瑢?duì)同一份數(shù)據(jù)（Common Pile），兩個(gè)模型的記憶情況是否有差別；第二，DFM Decoder對(duì)自己"新學(xué)"的丹麥語(yǔ)數(shù)據(jù)（Dynaword）的記憶情況如何。

五、三種提問(wèn)方式，模擬從"日常聊天"到"專業(yè)審訊"的全光譜

為了全面地測(cè)試模型的行為，研究團(tuán)隊(duì)設(shè)計(jì)了三套提示語(yǔ)，每套100條，覆蓋從最日常到最具針對(duì)性的全譜場(chǎng)景。

第一套叫"通用提示"，相當(dāng)于日常隨口問(wèn)的問(wèn)題，與訓(xùn)練數(shù)據(jù)沒(méi)有特別的關(guān)聯(lián)。這是最接近普通用戶真實(shí)使用場(chǎng)景的測(cè)試，專門用來(lái)測(cè)量"傾向"。

第二套叫"特定提示"，這些問(wèn)題雖然不是從訓(xùn)練數(shù)據(jù)里直接摘取的，但話題和風(fēng)格與訓(xùn)練數(shù)據(jù)所在的領(lǐng)域有關(guān)聯(lián)。打個(gè)比方，如果訓(xùn)練數(shù)據(jù)里有很多關(guān)于北歐文化的內(nèi)容，特定提示里的問(wèn)題就會(huì)問(wèn)關(guān)于北歐文化的話題，但不會(huì)直接引用訓(xùn)練數(shù)據(jù)里的原話。這是一種"弱引導(dǎo)"的測(cè)試，介于傾向和能力之間。

第三套就是前面提到的"前綴攻擊"，直接從訓(xùn)練數(shù)據(jù)中截取開(kāi)頭部分，讓模型接著說(shuō)。這是專門測(cè)量"能力"的最強(qiáng)手段。

研究團(tuán)隊(duì)在正式實(shí)驗(yàn)之前，還專門驗(yàn)證了這三套提示語(yǔ)與訓(xùn)練數(shù)據(jù)的重疊程度，確認(rèn)通用提示和特定提示與訓(xùn)練數(shù)據(jù)的重疊度遠(yuǎn)低于前綴攻擊，從而確保它們真的代表了不同層級(jí)的"逼迫程度"。結(jié)果也符合預(yù)期：前綴攻擊與訓(xùn)練數(shù)據(jù)重疊最高，特定提示次之，通用提示最低，形成了一個(gè)清晰的梯度。

六、實(shí)驗(yàn)結(jié)果：能力很強(qiáng)，但傾向很低

所有實(shí)驗(yàn)都在溫度為0的條件下進(jìn)行，也就是每次都選最可能的詞來(lái)生成，保證結(jié)果的確定性和可重復(fù)性。

先來(lái)看Comma模型對(duì)Common Pile的記憶情況。在前綴攻擊下，模型生成的文字平均能與訓(xùn)練數(shù)據(jù)形成長(zhǎng)達(dá)50.35個(gè)詞的逐字匹配——幾乎等于半段完整的句子，有時(shí)甚至是幾個(gè)連續(xù)的句子。相比之下，在通用提示下，這個(gè)數(shù)字只有27.95個(gè)詞，而特定提示介于兩者之間，約為29.47個(gè)詞。

完整生成匹配比例這個(gè)指標(biāo)更有意思：在前綴攻擊下，有2%的AI回答在訓(xùn)練數(shù)據(jù)中找到了完全一樣的文檔——也就是說(shuō)，這些回答完整地復(fù)現(xiàn)了訓(xùn)練數(shù)據(jù)里的某篇文章。特定提示達(dá)到了同樣的2%，而通用提示則為0%。近似逐字匹配率方面，前綴攻擊達(dá)到了0.0321，特定提示為0.0058，通用提示僅為0.0013。

換句話說(shuō)，在被"逼問(wèn)"時(shí)，Comma確實(shí)能把訓(xùn)練數(shù)據(jù)相當(dāng)完整地"背"出來(lái)。但在日常聊天式的提問(wèn)下，這種現(xiàn)象就少得多了。

傾向分?jǐn)?shù)則把這個(gè)對(duì)比說(shuō)得更清楚。Comma的近似逐字匹配傾向分?jǐn)?shù)，在通用提示下為0.04，在特定提示下為0.153——兩個(gè)數(shù)字都遠(yuǎn)低于中性值0.5，說(shuō)明日常使用中的背課文現(xiàn)象相對(duì)于其能力來(lái)說(shuō)是相當(dāng)克制的。完整生成匹配傾向在通用提示下為0，在特定提示下為0.5——后者之所以達(dá)到0.5，是因?yàn)樘囟ㄌ崾竞颓熬Y攻擊在這個(gè)指標(biāo)上的分?jǐn)?shù)完全相同（都是2%），表現(xiàn)出一致性，但兩個(gè)分?jǐn)?shù)本身都相對(duì)較低。

接下來(lái)是對(duì)比DFM Decoder的表現(xiàn)，這部分的結(jié)果格外有趣。

在Common Pile方面，DFM Decoder比Comma表現(xiàn)出更低的記憶程度。在前綴攻擊下，DFM Decoder的平均最長(zhǎng)匹配長(zhǎng)度只有40.83個(gè)詞，而Comma是50.35個(gè)詞。最關(guān)鍵的是，DFM Decoder在Common Pile上的完整生成匹配比例在所有測(cè)試條件下均為0，也就是說(shuō)，它完全沒(méi)有把任何Common Pile里的完整文章背出來(lái)——而Comma在特定提示和前綴攻擊下都達(dá)到了2%。

這個(gè)發(fā)現(xiàn)很有意義。DFM Decoder是在Comma的基礎(chǔ)上進(jìn)一步訓(xùn)練的，但后續(xù)訓(xùn)練的數(shù)據(jù)以丹麥語(yǔ)為主，英語(yǔ)只占三分之一。這就好比一個(gè)人在大學(xué)里精讀了大量英語(yǔ)文學(xué)，畢業(yè)后又花了相當(dāng)多的時(shí)間學(xué)習(xí)丹麥語(yǔ)，順帶復(fù)習(xí)了一些英語(yǔ)。在這個(gè)過(guò)程中，他對(duì)英語(yǔ)文學(xué)的記憶并沒(méi)有變得更深，反而因?yàn)樽⒁饬Σ糠洲D(zhuǎn)移而變得稍淺了。研究團(tuán)隊(duì)的發(fā)現(xiàn)與學(xué)術(shù)界的先前研究相吻合：訓(xùn)練數(shù)據(jù)越是在訓(xùn)練過(guò)程的后期出現(xiàn)，就越容易被記住；而越早出現(xiàn)、越久沒(méi)有復(fù)習(xí)的數(shù)據(jù)，記憶就越容易衰減。

在Dynaword（丹麥語(yǔ)數(shù)據(jù)集）方面，DFM Decoder展現(xiàn)出了與Common Pile不同的記憶模式。前綴攻擊下的平均最長(zhǎng)匹配長(zhǎng)度只有24.75個(gè)詞，遠(yuǎn)短于它在Common Pile上的表現(xiàn)。但在完整生成匹配比例上，Dynaword下的DFM Decoder在前綴攻擊時(shí)達(dá)到了7%，遠(yuǎn)高于Common Pile的0%。這說(shuō)明Dynaword的文章更容易被完整地"背"出來(lái)，但背出來(lái)的通常是比較短的片段。而Common Pile的文章雖然被完整背出來(lái)的概率更低，但一旦觸發(fā)，背出的片段往往更長(zhǎng)。

研究團(tuán)隊(duì)把這描述為兩種不同的記憶"畫(huà)像"：Common Pile的記憶就像記住了文章里的一段金句，雖然不多，但每句都很長(zhǎng)；而Dynaword的記憶更像偶爾把一整首短詩(shī)完整地背了出來(lái)。

在Dynaword的傾向分?jǐn)?shù)上，兩個(gè)指標(biāo)都極低：近似逐字匹配傾向在通用提示下為0.026，特定提示下為0.018；完整生成匹配傾向在通用提示下為0，特定提示下最高也只有0.125。這些數(shù)字都遠(yuǎn)低于中性值0.5，說(shuō)明DFM Decoder在日常使用中極少主動(dòng)"背"出Dynaword里的內(nèi)容。

七、訓(xùn)練的三個(gè)階段：記憶從一開(kāi)始就定型了

DFM Decoder的訓(xùn)練分為三個(gè)階段，研究團(tuán)隊(duì)還專門檢驗(yàn)了記憶情況在這三個(gè)階段之間是否有變化。

結(jié)果出人意料地一致：無(wú)論在哪個(gè)訓(xùn)練階段，無(wú)論對(duì)Common Pile還是Dynaword，幾乎所有記憶指標(biāo)都保持穩(wěn)定，沒(méi)有明顯的上升或下降趨勢(shì)。Dynaword上的平均最長(zhǎng)匹配長(zhǎng)度在三個(gè)階段中完全一致，分別為15.68（通用）、17.37（特定）、24.75（前綴），絲毫沒(méi)有變化。Common Pile上的情況也完全相同。

這個(gè)發(fā)現(xiàn)說(shuō)明：模型對(duì)一組數(shù)據(jù)的記憶程度，基本上在遇到這些數(shù)據(jù)后就已經(jīng)定下來(lái)了，繼續(xù)在相同數(shù)據(jù)混合比例下訓(xùn)練并不會(huì)讓記憶更深或更淺。傾向分?jǐn)?shù)也同樣穩(wěn)定，通用提示下的近似逐字匹配傾向在整個(gè)訓(xùn)練過(guò)程中始終在0.023到0.027之間小幅浮動(dòng)。

研究團(tuán)隊(duì)由此推斷：僅僅經(jīng)歷一個(gè)訓(xùn)練階段，就足以對(duì)之前數(shù)據(jù)的記憶產(chǎn)生影響。換句話說(shuō)，如果你想降低模型對(duì)某組數(shù)據(jù)的記憶，你不需要等很久——從一開(kāi)始轉(zhuǎn)向不同數(shù)據(jù)，效果很快就會(huì)顯現(xiàn)。

八、這對(duì)普通人意味著什么？

從日常使用的角度來(lái)看，這項(xiàng)研究傳達(dá)了一個(gè)相對(duì)讓人放心但也提醒我們保持警惕的信號(hào)。

放心的部分是：經(jīng)過(guò)測(cè)試的這兩個(gè)模型，在普通用戶的日常使用場(chǎng)景中，極少主動(dòng)把訓(xùn)練數(shù)據(jù)背出來(lái)。傾向分?jǐn)?shù)普遍遠(yuǎn)低于中性值，說(shuō)明這些模型并沒(méi)有特別強(qiáng)烈的"主動(dòng)泄露"傾向。你在日常和AI聊天時(shí)，它不太可能突然開(kāi)始把某本書(shū)的段落一字不差地背給你。

需要保持警惕的部分是：如果有人專門用前綴攻擊或其他精心設(shè)計(jì)的方式去"逼問(wèn)"這些模型，它們確實(shí)能把訓(xùn)練數(shù)據(jù)里的內(nèi)容相當(dāng)完整地提取出來(lái)。這種能力是實(shí)實(shí)在在存在的，并不因?yàn)槿粘A向低而消失。研究團(tuán)隊(duì)明確指出，低傾向不等于沒(méi)有風(fēng)險(xiǎn)，特定的、有針對(duì)性的提問(wèn)依然能在某些情況下觸發(fā)記憶提取。

從法律合規(guī)的角度，這個(gè)框架也有重要意義。歐盟的GDPR（通用數(shù)據(jù)保護(hù)條例）和AI法案都要求對(duì)AI系統(tǒng)進(jìn)行安全評(píng)估，證明其不會(huì)造成可預(yù)見(jiàn)的數(shù)據(jù)泄露風(fēng)險(xiǎn)。研究團(tuán)隊(duì)認(rèn)為，同時(shí)報(bào)告"最壞情況下能提取多少"和"日常使用中會(huì)自發(fā)泄露多少"這兩類信息，才能為監(jiān)管機(jī)構(gòu)提供更完整、更準(zhǔn)確的風(fēng)險(xiǎn)畫(huà)像，而不是只報(bào)告其中一種。

此外，這項(xiàng)研究還發(fā)現(xiàn)了一個(gè)對(duì)AI開(kāi)發(fā)者有參考價(jià)值的現(xiàn)象：在不同數(shù)據(jù)上進(jìn)行混合訓(xùn)練，可能是降低模型對(duì)特定數(shù)據(jù)集記憶程度的一種方式。DFM Decoder在Common Pile上的記憶弱于Comma，就是一個(gè)活生生的例子。當(dāng)然，目前還不清楚這是否僅僅因?yàn)閿?shù)據(jù)種類不同（英文與丹麥文），還是混合訓(xùn)練本身就會(huì)產(chǎn)生這種效果，需要進(jìn)一步研究來(lái)厘清。

說(shuō)到底，這項(xiàng)研究回答了一個(gè)很接地氣的問(wèn)題：AI聊天機(jī)器人會(huì)不會(huì)在日常對(duì)話中"管不住自己的嘴"，把它訓(xùn)練時(shí)讀過(guò)的東西背出來(lái)？答案是：能力有，但傾向低——它們有這個(gè)本事，但不太會(huì)自己主動(dòng)做這件事。然而，一旦有人專門去"問(wèn)"，它們確實(shí)能露出這一面。這就像一個(gè)記憶力很好的人，平時(shí)說(shuō)話不會(huì)引經(jīng)據(jù)典，但如果你專門問(wèn)他某本書(shū)的內(nèi)容，他還是能背出來(lái)。

這對(duì)我們使用AI的方式提出了一個(gè)耐人尋味的問(wèn)題：我們是否應(yīng)該更關(guān)注那些"能被逼出來(lái)的"風(fēng)險(xiǎn)，還是更關(guān)注"日常會(huì)自發(fā)出現(xiàn)的"風(fēng)險(xiǎn)？研究團(tuán)隊(duì)的答案是：兩者都不能忽視，它們衡量的是同一件事的不同側(cè)面，缺了哪一面都是不完整的。

有興趣深入研究這一課題的讀者，可以通過(guò)arXiv編號(hào)2606.06286查閱原論文全文，研究團(tuán)隊(duì)開(kāi)發(fā)的SIMPLETRACE工具也已作為開(kāi)源項(xiàng)目發(fā)布，可以在GitHub上通過(guò)N-essuno/PropMe找到完整代碼。

Q&A

Q1：什么是大語(yǔ)言模型的"記憶泄露"，普通人用AI時(shí)會(huì)受影響嗎？

A：大語(yǔ)言模型在訓(xùn)練時(shí)讀過(guò)大量文本，記憶泄露是指模型把這些訓(xùn)練數(shù)據(jù)原文"背"出來(lái)。南丹麥大學(xué)的這項(xiàng)研究發(fā)現(xiàn)，在日常使用場(chǎng)景下，模型主動(dòng)背出訓(xùn)練數(shù)據(jù)的傾向相當(dāng)?shù)停胀ㄓ脩羧粘Ａ奶鞄缀醪惶赡苡|發(fā)這種現(xiàn)象。但如果有人故意用特定方式"逼問(wèn)"模型，確實(shí)能提取出訓(xùn)練數(shù)據(jù)。

Q2：SIMPLETRACE是什么工具，它是怎么檢測(cè)AI是否在背訓(xùn)練數(shù)據(jù)的？

A：SIMPLETRACE是南丹麥大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源文字追蹤工具，它把AI生成的文字與訓(xùn)練數(shù)據(jù)逐字對(duì)比，精確找出哪些片段原封不動(dòng)地來(lái)自訓(xùn)練數(shù)據(jù)。它基于一種叫infini-gram的技術(shù)，能在海量數(shù)據(jù)中快速完成確定性搜索，處理100條查詢對(duì)一個(gè)4600億詞的數(shù)據(jù)集只需約1分鐘，已作為開(kāi)源項(xiàng)目公開(kāi)發(fā)布。

Q3：大語(yǔ)言模型繼續(xù)訓(xùn)練會(huì)不會(huì)讓記憶泄露的風(fēng)險(xiǎn)越來(lái)越高？

A：根據(jù)這項(xiàng)研究，并不會(huì)單純因?yàn)橛?xùn)練時(shí)間變長(zhǎng)而加劇。實(shí)驗(yàn)發(fā)現(xiàn)DFM Decoder在三個(gè)訓(xùn)練階段里記憶程度幾乎沒(méi)有變化。更值得關(guān)注的是訓(xùn)練數(shù)據(jù)的構(gòu)成：當(dāng)后續(xù)訓(xùn)練引入了不同類型的數(shù)據(jù)時(shí)，模型對(duì)早期數(shù)據(jù)的記憶反而會(huì)有所減弱，這表明混合多樣化的訓(xùn)練數(shù)據(jù)可能有助于降低特定數(shù)據(jù)集的記憶風(fēng)險(xiǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.