![]()
這項(xiàng)由南丹麥大學(xué)(University of Southern Denmark)研究團(tuán)隊(duì)完成的研究,以預(yù)印本形式發(fā)布于2026年6月4日,編號(hào)為arXiv:2606.06286,有興趣深入了解的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整論文。
每當(dāng)我們打開(kāi)手機(jī)上的AI助手,隨口問(wèn)一句"幫我寫(xiě)封郵件"或者"解釋一下量子力學(xué)",我們很少會(huì)停下來(lái)想:這個(gè)AI在回答我的時(shí)候,會(huì)不會(huì)順便把它訓(xùn)練時(shí)讀過(guò)的某本書(shū)、某個(gè)人的私人信息原封不動(dòng)地"背"給我們?這個(gè)問(wèn)題聽(tīng)起來(lái)有點(diǎn)像在問(wèn)一個(gè)考過(guò)無(wú)數(shù)本書(shū)的學(xué)生:他在和你聊天時(shí),會(huì)不會(huì)突然開(kāi)始背書(shū)?
這正是這項(xiàng)研究的核心出發(fā)點(diǎn)。大語(yǔ)言模型(也就是我們常說(shuō)的AI聊天機(jī)器人背后的技術(shù))在訓(xùn)練時(shí)會(huì)"讀"過(guò)海量的文本——網(wǎng)頁(yè)、書(shū)籍、論文、代碼,甚至私人信息。學(xué)術(shù)界早已證明,如果你用特定的方式"逼問(wèn)"這些模型,它們確實(shí)能把訓(xùn)練時(shí)讀過(guò)的內(nèi)容一字不差地"背"出來(lái)。但問(wèn)題是:在日常使用中,在沒(méi)有人特意"逼問(wèn)"的情況下,這些模型會(huì)不會(huì)自己主動(dòng)把那些內(nèi)容"背"出來(lái)?
這兩件事聽(tīng)起來(lái)相似,但本質(zhì)上截然不同。一個(gè)學(xué)生在考試時(shí)被要求背誦課文,和他在日常聊天中突然開(kāi)始背課文,是完全不同的兩種行為。前者說(shuō)明他有這個(gè)能力,后者才說(shuō)明他有這個(gè)傾向。南丹麥大學(xué)的團(tuán)隊(duì)認(rèn)為,現(xiàn)有的研究幾乎只關(guān)注了前者——也就是"能不能被逼出來(lái)",而幾乎沒(méi)有人認(rèn)真研究后者——也就是"會(huì)不會(huì)自己冒出來(lái)"。為了填補(bǔ)這個(gè)空白,他們?cè)O(shè)計(jì)了一套全新的評(píng)估框架,并開(kāi)發(fā)了配套的工具,用來(lái)系統(tǒng)地回答這個(gè)問(wèn)題。
一、被"逼問(wèn)"和"自愿說(shuō)出",有什么本質(zhì)區(qū)別?
要理解這項(xiàng)研究為什么重要,先來(lái)理解一個(gè)關(guān)鍵區(qū)別。研究團(tuán)隊(duì)借用了一個(gè)在AI安全領(lǐng)域越來(lái)越受重視的概念框架,把AI的行為分為兩類:一類叫做"能力",一類叫做"傾向"。
所謂"能力",就是在你用盡各種手段去逼迫、引導(dǎo)、誘騙一個(gè)AI的情況下,它能做到什么。就像你可以通過(guò)專門的問(wèn)話技巧讓一個(gè)謹(jǐn)慎的人說(shuō)出他平時(shí)不會(huì)說(shuō)的話——這證明他具備說(shuō)出這些話的能力,但不代表他在日常生活中會(huì)隨口說(shuō)出來(lái)。
所謂"傾向",則是在正常、普通的對(duì)話環(huán)境下,這個(gè)AI自發(fā)地會(huì)做什么。如果一個(gè)人在日常聊天中,沒(méi)有任何人引導(dǎo),卻總是把自己讀過(guò)的書(shū)一段一段地背出來(lái),那說(shuō)明他有背書(shū)的"傾向",這才是真正值得警惕的行為模式。
在大語(yǔ)言模型的語(yǔ)境里,研究團(tuán)隊(duì)把針對(duì)"能力"的測(cè)試方式稱為"前綴攻擊"——具體做法是:從模型的訓(xùn)練數(shù)據(jù)里直接截取一段文字的開(kāi)頭部分,然后把這段開(kāi)頭喂給模型,讓它"接著說(shuō)"。這就相當(dāng)于你拿著一本書(shū)的第一句話去問(wèn)那位博覽群書(shū)的學(xué)生:"接下來(lái)是什么?"如果他真的讀過(guò)這本書(shū),他很可能會(huì)把后面的內(nèi)容背出來(lái)。這種測(cè)試能夠探測(cè)模型在最有利條件下的記憶提取能力。
與此相對(duì),針對(duì)"傾向"的測(cè)試則完全不同:研究團(tuán)隊(duì)設(shè)計(jì)了兩類日常化的、與訓(xùn)練數(shù)據(jù)沒(méi)有直接關(guān)聯(lián)的提示語(yǔ),模擬真實(shí)用戶在日常使用中可能提出的問(wèn)題,看看模型在這種情況下會(huì)不會(huì)無(wú)意中"背"出訓(xùn)練數(shù)據(jù)。
這兩種測(cè)試之間的差距,就像是考察一個(gè)演員"能不能表演一段臺(tái)詞"和"他在日常對(duì)話中會(huì)不會(huì)突然開(kāi)始表演臺(tái)詞"之間的差距。前者是能力測(cè)試,后者是行為傾向測(cè)試。現(xiàn)有的幾乎所有研究都只做了前者,而這項(xiàng)研究?jī)烧叨甲隽耍⑶以O(shè)計(jì)了一種方法來(lái)比較兩者之間的差距。
二、如何精確測(cè)量"背課文"的程度?
確定了要測(cè)量什么之后,下一個(gè)問(wèn)題是:怎么測(cè)量?
研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SIMPLETRACE的工具,這是整項(xiàng)研究的技術(shù)基礎(chǔ)。可以把它理解為一個(gè)"文字追蹤器"——當(dāng)AI生成一段文字之后,SIMPLETRACE會(huì)拿著這段文字,跑去對(duì)比AI的訓(xùn)練數(shù)據(jù)庫(kù),精確地找出"這段話的哪些部分原封不動(dòng)地出現(xiàn)在了訓(xùn)練數(shù)據(jù)里"。
這個(gè)追蹤過(guò)程不是模糊的、概率性的猜測(cè),而是確定性的精確匹配,就像用一臺(tái)高精度掃描儀把AI的輸出和訓(xùn)練數(shù)據(jù)逐字對(duì)比。SIMPLETRACE的底層依賴一個(gè)叫做"infini-gram"的技術(shù),這個(gè)技術(shù)能夠在幾毫秒內(nèi)在超過(guò)數(shù)萬(wàn)億個(gè)詞的龐大文本庫(kù)中完成精確搜索,速度極快。
SIMPLETRACE的工作流程可以這樣理解。首先,它把AI生成的文字拆解成大量片段,對(duì)每個(gè)片段都去問(wèn)一個(gè)問(wèn)題:"這段話有沒(méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)里?最長(zhǎng)能匹配多少個(gè)詞?"其次,它會(huì)過(guò)濾掉那些太常見(jiàn)、太普通的匹配——比如"你好,我是"這樣的短語(yǔ)在任何文本里都會(huì)出現(xiàn),不能算作真正的"背課文",只有那些相對(duì)罕見(jiàn)、有意義的匹配才會(huì)被保留。接著,它會(huì)去找出訓(xùn)練數(shù)據(jù)中具體是哪篇文章、哪個(gè)文檔里包含了這段文字,從而實(shí)現(xiàn)精確的"溯源"。最后,它把相鄰的、重疊的匹配片段合并起來(lái),得到一個(gè)完整的追蹤結(jié)果。
整個(gè)系統(tǒng)還支持多核并行處理,速度相當(dāng)快。對(duì)于一個(gè)約4600億詞的大型數(shù)據(jù)集,處理100條查詢只需要約1分鐘。研究團(tuán)隊(duì)還專門驗(yàn)證了這個(gè)工具的準(zhǔn)確性,結(jié)果顯示它在實(shí)際使用中的正確率接近完美。
有了追蹤工具之后,研究團(tuán)隊(duì)使用了多個(gè)指標(biāo)來(lái)量化"背課文"的程度。其中最重要的三個(gè)指標(biāo)分別是:平均最長(zhǎng)匹配片段長(zhǎng)度(AI生成的一段話里,與訓(xùn)練數(shù)據(jù)逐字匹配的最長(zhǎng)連續(xù)片段有多長(zhǎng))、完整生成匹配比例(AI生成的整段話有沒(méi)有在訓(xùn)練數(shù)據(jù)中找到完全一樣的文檔)和近似逐字匹配率(AI生成的內(nèi)容有多大比例與訓(xùn)練數(shù)據(jù)高度相似,即便不是一字不差)。
三、"傾向分?jǐn)?shù)"——一個(gè)衡量"主動(dòng)性"的新指標(biāo)
光有這三個(gè)指標(biāo)還不夠,因?yàn)樗鼈冎荒芨嬖V你AI"背了多少",而不能告訴你AI"有多大傾向去背"。研究團(tuán)隊(duì)為此專門發(fā)明了一種新的數(shù)學(xué)變換,把原有的指標(biāo)轉(zhuǎn)化為"傾向分?jǐn)?shù)"。
這個(gè)變換背后的邏輯非常直觀:如果一個(gè)模型在被逼問(wèn)時(shí)(能力測(cè)試)會(huì)大量背課文,但在日常對(duì)話中(傾向測(cè)試)幾乎不背,那說(shuō)明它的記憶能力很強(qiáng),但它不會(huì)主動(dòng)表現(xiàn)出來(lái)。這種情況下,即便日常使用中偶有一點(diǎn)背課文的現(xiàn)象,也應(yīng)該被評(píng)為"低傾向",因?yàn)橄鄬?duì)于它的能力來(lái)說(shuō),它表現(xiàn)得相當(dāng)克制。反過(guò)來(lái),如果一個(gè)模型在被逼問(wèn)時(shí)也背不出多少,但在日常對(duì)話中卻動(dòng)不動(dòng)就把訓(xùn)練數(shù)據(jù)背出來(lái),那才是真正令人擔(dān)憂的"高傾向"。
這個(gè)傾向分?jǐn)?shù)的計(jì)算方式可以用一個(gè)比喻來(lái)理解:把能力測(cè)試分?jǐn)?shù)想象成一個(gè)人"最高能跑多快",把傾向測(cè)試分?jǐn)?shù)想象成他"平時(shí)走路有多快"。一個(gè)能跑100米沖刺的人,如果平時(shí)走路速度和普通人一樣,那他的"跑步傾向"其實(shí)并不高。但如果一個(gè)人平時(shí)走路總是跑得飛快,哪怕他的沖刺速度并不驚人,那他的"跑步傾向"就很高了。
具體來(lái)說(shuō),這個(gè)分?jǐn)?shù)在0到1之間,0.5代表"中性"——也就是日常表現(xiàn)和被逼問(wèn)時(shí)表現(xiàn)一樣。低于0.5說(shuō)明日常表現(xiàn)比被逼問(wèn)時(shí)克制得多,即低傾向。高于0.5說(shuō)明日常表現(xiàn)甚至比被逼問(wèn)時(shí)更活躍,即高傾向。分?jǐn)?shù)為0則意味著在日常使用中完全沒(méi)有背課文的現(xiàn)象。
四、用什么模型、什么數(shù)據(jù)來(lái)做實(shí)驗(yàn)?
研究團(tuán)隊(duì)選擇了兩個(gè)完全公開(kāi)、使用開(kāi)放授權(quán)數(shù)據(jù)訓(xùn)練的模型,來(lái)確保實(shí)驗(yàn)的透明性和可重復(fù)性。
第一個(gè)模型叫做Comma v0.1,是一個(gè)主要使用英文數(shù)據(jù)訓(xùn)練的模型。它的訓(xùn)練數(shù)據(jù)是一個(gè)叫做Common Pile的數(shù)據(jù)集,包含了大約5210億個(gè)詞的文本,全部來(lái)自公共領(lǐng)域或有明確開(kāi)放授權(quán)的來(lái)源,總量約521GB。
第二個(gè)模型叫做DFM Decoder,它是在Comma的基礎(chǔ)上繼續(xù)訓(xùn)練的。在Comma學(xué)完英文之后,DFM Decoder又額外讀了300億詞的新數(shù)據(jù),其中三分之二是丹麥語(yǔ)(來(lái)自一個(gè)叫Dynaword的丹麥語(yǔ)數(shù)據(jù)集,包含約68億詞),三分之一仍然是Common Pile里的英文內(nèi)容。這就像一個(gè)英語(yǔ)學(xué)生在大學(xué)畢業(yè)后又去學(xué)習(xí)了丹麥語(yǔ),他的丹麥語(yǔ)是新學(xué)的,但他的英語(yǔ)是老底子。
這對(duì)模型組合讓研究團(tuán)隊(duì)可以同時(shí)研究?jī)杉拢旱谝唬瑢?duì)同一份數(shù)據(jù)(Common Pile),兩個(gè)模型的記憶情況是否有差別;第二,DFM Decoder對(duì)自己"新學(xué)"的丹麥語(yǔ)數(shù)據(jù)(Dynaword)的記憶情況如何。
五、三種提問(wèn)方式,模擬從"日常聊天"到"專業(yè)審訊"的全光譜
為了全面地測(cè)試模型的行為,研究團(tuán)隊(duì)設(shè)計(jì)了三套提示語(yǔ),每套100條,覆蓋從最日常到最具針對(duì)性的全譜場(chǎng)景。
第一套叫"通用提示",相當(dāng)于日常隨口問(wèn)的問(wèn)題,與訓(xùn)練數(shù)據(jù)沒(méi)有特別的關(guān)聯(lián)。這是最接近普通用戶真實(shí)使用場(chǎng)景的測(cè)試,專門用來(lái)測(cè)量"傾向"。
第二套叫"特定提示",這些問(wèn)題雖然不是從訓(xùn)練數(shù)據(jù)里直接摘取的,但話題和風(fēng)格與訓(xùn)練數(shù)據(jù)所在的領(lǐng)域有關(guān)聯(lián)。打個(gè)比方,如果訓(xùn)練數(shù)據(jù)里有很多關(guān)于北歐文化的內(nèi)容,特定提示里的問(wèn)題就會(huì)問(wèn)關(guān)于北歐文化的話題,但不會(huì)直接引用訓(xùn)練數(shù)據(jù)里的原話。這是一種"弱引導(dǎo)"的測(cè)試,介于傾向和能力之間。
第三套就是前面提到的"前綴攻擊",直接從訓(xùn)練數(shù)據(jù)中截取開(kāi)頭部分,讓模型接著說(shuō)。這是專門測(cè)量"能力"的最強(qiáng)手段。
研究團(tuán)隊(duì)在正式實(shí)驗(yàn)之前,還專門驗(yàn)證了這三套提示語(yǔ)與訓(xùn)練數(shù)據(jù)的重疊程度,確認(rèn)通用提示和特定提示與訓(xùn)練數(shù)據(jù)的重疊度遠(yuǎn)低于前綴攻擊,從而確保它們真的代表了不同層級(jí)的"逼迫程度"。結(jié)果也符合預(yù)期:前綴攻擊與訓(xùn)練數(shù)據(jù)重疊最高,特定提示次之,通用提示最低,形成了一個(gè)清晰的梯度。
六、實(shí)驗(yàn)結(jié)果:能力很強(qiáng),但傾向很低
所有實(shí)驗(yàn)都在溫度為0的條件下進(jìn)行,也就是每次都選最可能的詞來(lái)生成,保證結(jié)果的確定性和可重復(fù)性。
先來(lái)看Comma模型對(duì)Common Pile的記憶情況。在前綴攻擊下,模型生成的文字平均能與訓(xùn)練數(shù)據(jù)形成長(zhǎng)達(dá)50.35個(gè)詞的逐字匹配——幾乎等于半段完整的句子,有時(shí)甚至是幾個(gè)連續(xù)的句子。相比之下,在通用提示下,這個(gè)數(shù)字只有27.95個(gè)詞,而特定提示介于兩者之間,約為29.47個(gè)詞。
完整生成匹配比例這個(gè)指標(biāo)更有意思:在前綴攻擊下,有2%的AI回答在訓(xùn)練數(shù)據(jù)中找到了完全一樣的文檔——也就是說(shuō),這些回答完整地復(fù)現(xiàn)了訓(xùn)練數(shù)據(jù)里的某篇文章。特定提示達(dá)到了同樣的2%,而通用提示則為0%。近似逐字匹配率方面,前綴攻擊達(dá)到了0.0321,特定提示為0.0058,通用提示僅為0.0013。
換句話說(shuō),在被"逼問(wèn)"時(shí),Comma確實(shí)能把訓(xùn)練數(shù)據(jù)相當(dāng)完整地"背"出來(lái)。但在日常聊天式的提問(wèn)下,這種現(xiàn)象就少得多了。
傾向分?jǐn)?shù)則把這個(gè)對(duì)比說(shuō)得更清楚。Comma的近似逐字匹配傾向分?jǐn)?shù),在通用提示下為0.04,在特定提示下為0.153——兩個(gè)數(shù)字都遠(yuǎn)低于中性值0.5,說(shuō)明日常使用中的背課文現(xiàn)象相對(duì)于其能力來(lái)說(shuō)是相當(dāng)克制的。完整生成匹配傾向在通用提示下為0,在特定提示下為0.5——后者之所以達(dá)到0.5,是因?yàn)樘囟ㄌ崾竞颓熬Y攻擊在這個(gè)指標(biāo)上的分?jǐn)?shù)完全相同(都是2%),表現(xiàn)出一致性,但兩個(gè)分?jǐn)?shù)本身都相對(duì)較低。
接下來(lái)是對(duì)比DFM Decoder的表現(xiàn),這部分的結(jié)果格外有趣。
在Common Pile方面,DFM Decoder比Comma表現(xiàn)出更低的記憶程度。在前綴攻擊下,DFM Decoder的平均最長(zhǎng)匹配長(zhǎng)度只有40.83個(gè)詞,而Comma是50.35個(gè)詞。最關(guān)鍵的是,DFM Decoder在Common Pile上的完整生成匹配比例在所有測(cè)試條件下均為0,也就是說(shuō),它完全沒(méi)有把任何Common Pile里的完整文章背出來(lái)——而Comma在特定提示和前綴攻擊下都達(dá)到了2%。
這個(gè)發(fā)現(xiàn)很有意義。DFM Decoder是在Comma的基礎(chǔ)上進(jìn)一步訓(xùn)練的,但后續(xù)訓(xùn)練的數(shù)據(jù)以丹麥語(yǔ)為主,英語(yǔ)只占三分之一。這就好比一個(gè)人在大學(xué)里精讀了大量英語(yǔ)文學(xué),畢業(yè)后又花了相當(dāng)多的時(shí)間學(xué)習(xí)丹麥語(yǔ),順帶復(fù)習(xí)了一些英語(yǔ)。在這個(gè)過(guò)程中,他對(duì)英語(yǔ)文學(xué)的記憶并沒(méi)有變得更深,反而因?yàn)樽⒁饬Σ糠洲D(zhuǎn)移而變得稍淺了。研究團(tuán)隊(duì)的發(fā)現(xiàn)與學(xué)術(shù)界的先前研究相吻合:訓(xùn)練數(shù)據(jù)越是在訓(xùn)練過(guò)程的后期出現(xiàn),就越容易被記住;而越早出現(xiàn)、越久沒(méi)有復(fù)習(xí)的數(shù)據(jù),記憶就越容易衰減。
在Dynaword(丹麥語(yǔ)數(shù)據(jù)集)方面,DFM Decoder展現(xiàn)出了與Common Pile不同的記憶模式。前綴攻擊下的平均最長(zhǎng)匹配長(zhǎng)度只有24.75個(gè)詞,遠(yuǎn)短于它在Common Pile上的表現(xiàn)。但在完整生成匹配比例上,Dynaword下的DFM Decoder在前綴攻擊時(shí)達(dá)到了7%,遠(yuǎn)高于Common Pile的0%。這說(shuō)明Dynaword的文章更容易被完整地"背"出來(lái),但背出來(lái)的通常是比較短的片段。而Common Pile的文章雖然被完整背出來(lái)的概率更低,但一旦觸發(fā),背出的片段往往更長(zhǎng)。
研究團(tuán)隊(duì)把這描述為兩種不同的記憶"畫(huà)像":Common Pile的記憶就像記住了文章里的一段金句,雖然不多,但每句都很長(zhǎng);而Dynaword的記憶更像偶爾把一整首短詩(shī)完整地背了出來(lái)。
在Dynaword的傾向分?jǐn)?shù)上,兩個(gè)指標(biāo)都極低:近似逐字匹配傾向在通用提示下為0.026,特定提示下為0.018;完整生成匹配傾向在通用提示下為0,特定提示下最高也只有0.125。這些數(shù)字都遠(yuǎn)低于中性值0.5,說(shuō)明DFM Decoder在日常使用中極少主動(dòng)"背"出Dynaword里的內(nèi)容。
七、訓(xùn)練的三個(gè)階段:記憶從一開(kāi)始就定型了
DFM Decoder的訓(xùn)練分為三個(gè)階段,研究團(tuán)隊(duì)還專門檢驗(yàn)了記憶情況在這三個(gè)階段之間是否有變化。
結(jié)果出人意料地一致:無(wú)論在哪個(gè)訓(xùn)練階段,無(wú)論對(duì)Common Pile還是Dynaword,幾乎所有記憶指標(biāo)都保持穩(wěn)定,沒(méi)有明顯的上升或下降趨勢(shì)。Dynaword上的平均最長(zhǎng)匹配長(zhǎng)度在三個(gè)階段中完全一致,分別為15.68(通用)、17.37(特定)、24.75(前綴),絲毫沒(méi)有變化。Common Pile上的情況也完全相同。
這個(gè)發(fā)現(xiàn)說(shuō)明:模型對(duì)一組數(shù)據(jù)的記憶程度,基本上在遇到這些數(shù)據(jù)后就已經(jīng)定下來(lái)了,繼續(xù)在相同數(shù)據(jù)混合比例下訓(xùn)練并不會(huì)讓記憶更深或更淺。傾向分?jǐn)?shù)也同樣穩(wěn)定,通用提示下的近似逐字匹配傾向在整個(gè)訓(xùn)練過(guò)程中始終在0.023到0.027之間小幅浮動(dòng)。
研究團(tuán)隊(duì)由此推斷:僅僅經(jīng)歷一個(gè)訓(xùn)練階段,就足以對(duì)之前數(shù)據(jù)的記憶產(chǎn)生影響。換句話說(shuō),如果你想降低模型對(duì)某組數(shù)據(jù)的記憶,你不需要等很久——從一開(kāi)始轉(zhuǎn)向不同數(shù)據(jù),效果很快就會(huì)顯現(xiàn)。
八、這對(duì)普通人意味著什么?
從日常使用的角度來(lái)看,這項(xiàng)研究傳達(dá)了一個(gè)相對(duì)讓人放心但也提醒我們保持警惕的信號(hào)。
放心的部分是:經(jīng)過(guò)測(cè)試的這兩個(gè)模型,在普通用戶的日常使用場(chǎng)景中,極少主動(dòng)把訓(xùn)練數(shù)據(jù)背出來(lái)。傾向分?jǐn)?shù)普遍遠(yuǎn)低于中性值,說(shuō)明這些模型并沒(méi)有特別強(qiáng)烈的"主動(dòng)泄露"傾向。你在日常和AI聊天時(shí),它不太可能突然開(kāi)始把某本書(shū)的段落一字不差地背給你。
需要保持警惕的部分是:如果有人專門用前綴攻擊或其他精心設(shè)計(jì)的方式去"逼問(wèn)"這些模型,它們確實(shí)能把訓(xùn)練數(shù)據(jù)里的內(nèi)容相當(dāng)完整地提取出來(lái)。這種能力是實(shí)實(shí)在在存在的,并不因?yàn)槿粘A向低而消失。研究團(tuán)隊(duì)明確指出,低傾向不等于沒(méi)有風(fēng)險(xiǎn),特定的、有針對(duì)性的提問(wèn)依然能在某些情況下觸發(fā)記憶提取。
從法律合規(guī)的角度,這個(gè)框架也有重要意義。歐盟的GDPR(通用數(shù)據(jù)保護(hù)條例)和AI法案都要求對(duì)AI系統(tǒng)進(jìn)行安全評(píng)估,證明其不會(huì)造成可預(yù)見(jiàn)的數(shù)據(jù)泄露風(fēng)險(xiǎn)。研究團(tuán)隊(duì)認(rèn)為,同時(shí)報(bào)告"最壞情況下能提取多少"和"日常使用中會(huì)自發(fā)泄露多少"這兩類信息,才能為監(jiān)管機(jī)構(gòu)提供更完整、更準(zhǔn)確的風(fēng)險(xiǎn)畫(huà)像,而不是只報(bào)告其中一種。
此外,這項(xiàng)研究還發(fā)現(xiàn)了一個(gè)對(duì)AI開(kāi)發(fā)者有參考價(jià)值的現(xiàn)象:在不同數(shù)據(jù)上進(jìn)行混合訓(xùn)練,可能是降低模型對(duì)特定數(shù)據(jù)集記憶程度的一種方式。DFM Decoder在Common Pile上的記憶弱于Comma,就是一個(gè)活生生的例子。當(dāng)然,目前還不清楚這是否僅僅因?yàn)閿?shù)據(jù)種類不同(英文與丹麥文),還是混合訓(xùn)練本身就會(huì)產(chǎn)生這種效果,需要進(jìn)一步研究來(lái)厘清。
說(shuō)到底,這項(xiàng)研究回答了一個(gè)很接地氣的問(wèn)題:AI聊天機(jī)器人會(huì)不會(huì)在日常對(duì)話中"管不住自己的嘴",把它訓(xùn)練時(shí)讀過(guò)的東西背出來(lái)?答案是:能力有,但傾向低——它們有這個(gè)本事,但不太會(huì)自己主動(dòng)做這件事。然而,一旦有人專門去"問(wèn)",它們確實(shí)能露出這一面。這就像一個(gè)記憶力很好的人,平時(shí)說(shuō)話不會(huì)引經(jīng)據(jù)典,但如果你專門問(wèn)他某本書(shū)的內(nèi)容,他還是能背出來(lái)。
這對(duì)我們使用AI的方式提出了一個(gè)耐人尋味的問(wèn)題:我們是否應(yīng)該更關(guān)注那些"能被逼出來(lái)的"風(fēng)險(xiǎn),還是更關(guān)注"日常會(huì)自發(fā)出現(xiàn)的"風(fēng)險(xiǎn)?研究團(tuán)隊(duì)的答案是:兩者都不能忽視,它們衡量的是同一件事的不同側(cè)面,缺了哪一面都是不完整的。
有興趣深入研究這一課題的讀者,可以通過(guò)arXiv編號(hào)2606.06286查閱原論文全文,研究團(tuán)隊(duì)開(kāi)發(fā)的SIMPLETRACE工具也已作為開(kāi)源項(xiàng)目發(fā)布,可以在GitHub上通過(guò)N-essuno/PropMe找到完整代碼。
Q&A
Q1:什么是大語(yǔ)言模型的"記憶泄露",普通人用AI時(shí)會(huì)受影響嗎?
A:大語(yǔ)言模型在訓(xùn)練時(shí)讀過(guò)大量文本,記憶泄露是指模型把這些訓(xùn)練數(shù)據(jù)原文"背"出來(lái)。南丹麥大學(xué)的這項(xiàng)研究發(fā)現(xiàn),在日常使用場(chǎng)景下,模型主動(dòng)背出訓(xùn)練數(shù)據(jù)的傾向相當(dāng)?shù)停胀ㄓ脩羧粘A奶鞄缀醪惶赡苡|發(fā)這種現(xiàn)象。但如果有人故意用特定方式"逼問(wèn)"模型,確實(shí)能提取出訓(xùn)練數(shù)據(jù)。
Q2:SIMPLETRACE是什么工具,它是怎么檢測(cè)AI是否在背訓(xùn)練數(shù)據(jù)的?
A:SIMPLETRACE是南丹麥大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源文字追蹤工具,它把AI生成的文字與訓(xùn)練數(shù)據(jù)逐字對(duì)比,精確找出哪些片段原封不動(dòng)地來(lái)自訓(xùn)練數(shù)據(jù)。它基于一種叫infini-gram的技術(shù),能在海量數(shù)據(jù)中快速完成確定性搜索,處理100條查詢對(duì)一個(gè)4600億詞的數(shù)據(jù)集只需約1分鐘,已作為開(kāi)源項(xiàng)目公開(kāi)發(fā)布。
Q3:大語(yǔ)言模型繼續(xù)訓(xùn)練會(huì)不會(huì)讓記憶泄露的風(fēng)險(xiǎn)越來(lái)越高?
A:根據(jù)這項(xiàng)研究,并不會(huì)單純因?yàn)橛?xùn)練時(shí)間變長(zhǎng)而加劇。實(shí)驗(yàn)發(fā)現(xiàn)DFM Decoder在三個(gè)訓(xùn)練階段里記憶程度幾乎沒(méi)有變化。更值得關(guān)注的是訓(xùn)練數(shù)據(jù)的構(gòu)成:當(dāng)后續(xù)訓(xùn)練引入了不同類型的數(shù)據(jù)時(shí),模型對(duì)早期數(shù)據(jù)的記憶反而會(huì)有所減弱,這表明混合多樣化的訓(xùn)練數(shù)據(jù)可能有助于降低特定數(shù)據(jù)集的記憶風(fēng)險(xiǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.