![]()
中國社會科學(xué)報(bào)綜合報(bào)道近日,學(xué)術(shù)預(yù)印本開放獲取平臺arXiv發(fā)布了一項(xiàng)對250萬篇論文、1.11億條參考文獻(xiàn)的系統(tǒng)性審核結(jié)果,提出僅2025年,在arXiv、bioRxiv兩大預(yù)印本發(fā)布平臺、SSRN開放獲取平臺和PubMed Central數(shù)據(jù)庫中就存在近15萬條由人工智能編造的虛假參考文獻(xiàn)。這些虛假參考文獻(xiàn)嚴(yán)重威脅科研成果的可靠性和科學(xué)知識獲取的公平性。
研究人員表示,學(xué)術(shù)論文引用的資料應(yīng)當(dāng)是可靠的,每篇論文的參考文獻(xiàn)都應(yīng)代表經(jīng)過同行評議的堅(jiān)實(shí)知識錨點(diǎn)。然而,隨著生成式人工智能工具在科學(xué)論文寫作中的普及,越來越多的讀者發(fā)現(xiàn),部分論文引用的參考文獻(xiàn)可能根本不存在,甚至論文本身、研究數(shù)據(jù)乃至作者身份都可能是偽造的。他們在此次審核中發(fā)現(xiàn)了大量虛假文獻(xiàn)。這些虛假文獻(xiàn)并非來自少數(shù)學(xué)者,而是分散在大量不同的論文中,即每篇問題論文通常只包含少量虛假文獻(xiàn)條目。這也意味著存在一種更普遍的現(xiàn)象:人們使用人工智能輔助寫作時,沒有對其輸出的內(nèi)容進(jìn)行事實(shí)核查。
生成式人工智能工具非常擅長生成看起來合情合理、真實(shí)可信,但實(shí)際上完全虛假或錯誤的信息。這些生成式人工智能工具利用海量數(shù)據(jù)集進(jìn)行訓(xùn)練,學(xué)習(xí)各種模式,然后利用這些模式預(yù)測下一個詞并生成新的內(nèi)容。因此,它們有時會根據(jù)模式創(chuàng)造而不是依賴實(shí)際事實(shí)來生成并輸出內(nèi)容。這些根據(jù)模式創(chuàng)造出來的內(nèi)容被稱為“幻覺內(nèi)容”,它們不只出現(xiàn)在科學(xué)文獻(xiàn)中,也出現(xiàn)在政府工作報(bào)告、法律文件甚至知名媒體發(fā)布的新聞中。科學(xué)家此前曾研究過人工智能生成的幻覺內(nèi)容,但大多數(shù)研究要么是在實(shí)驗(yàn)室條件下進(jìn)行的,要么僅限于小樣本或狹窄領(lǐng)域。幻覺內(nèi)容(尤其是科學(xué)文獻(xiàn)中的幻覺內(nèi)容)的實(shí)際規(guī)模及其產(chǎn)生的影響并沒有被真正系統(tǒng)性評估過。
通過對比生成式人工智能工具大規(guī)模普及前后的未匹配引用率,研究人員發(fā)現(xiàn):虛假文獻(xiàn)引用在2024年年中之后出現(xiàn)急劇增長,這與人工智能輔助寫作的爆發(fā)期高度吻合;在處于職業(yè)生涯早期的科學(xué)家和小型研究團(tuán)隊(duì)的論文中,虛假文獻(xiàn)引用的比例明顯更高。
研究人員還發(fā)現(xiàn),當(dāng)前的學(xué)術(shù)質(zhì)量審查機(jī)制具有脆弱性。預(yù)印本審核、期刊編輯審稿和同行評議本應(yīng)是虛假文獻(xiàn)審核的第一道防線,但數(shù)據(jù)顯示,他們只能發(fā)現(xiàn)極少量的虛假文獻(xiàn)引用。以arXiv為例,盡管在審核流程中已發(fā)現(xiàn)部分問題,但預(yù)計(jì)仍有78.8%的虛假引文成功通過審核并最終出現(xiàn)在平臺上。研究人員警告稱,幻覺內(nèi)容正在大規(guī)模滲透進(jìn)知識生產(chǎn)體系中。如果不加以干預(yù),其后果將從誤導(dǎo)未來的科學(xué)發(fā)現(xiàn),逐漸蔓延至影響政策制定和公眾對科學(xué)的信任等多個方面。
面對這一系統(tǒng)性風(fēng)險,部分?jǐn)?shù)據(jù)平臺已采取嚴(yán)厲措施。例如,arXiv規(guī)定:若有明確證據(jù)能夠證明,論文中存在來自生成式人工智能工具的幻覺內(nèi)容,作者將被禁止投稿一年;期滿后重新投稿必須通過同行評議,且首次投稿需有擔(dān)保人。與此同時,平臺也在開發(fā)技術(shù)應(yīng)對工具。但研究人員強(qiáng)調(diào),根本的解決方案仍在于確立學(xué)者本身的核心責(zé)任。人工智能只能是輔助工具,學(xué)者對每一條引文的真實(shí)性負(fù)有審核責(zé)任。此外,期刊編輯、同行評議和平臺審核人員也需要通過系統(tǒng)性的培訓(xùn),提升識別虛假文獻(xiàn)的能力。在人工智能技術(shù)快速發(fā)展的背景下,守住知識真實(shí)性的底線,需要整個學(xué)術(shù)界的共同努力。
趙琪/編譯
來源:中國社會科學(xué)報(bào)
責(zé)任編輯:姚曉丹
新媒體編輯:程可心
如需交流可聯(lián)系我們
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.