以ChatGPT、DeepSeek為代表的大模型采取“大數(shù)據(jù)、大算力、強(qiáng)算法”的技術(shù)路線,極大地推動了語言理解、意圖識別、內(nèi)容生成、問題求解等領(lǐng)域的進(jìn)展,成為當(dāng)前人工智能的主流和巔峰。然而,在令人矚目的能力躍遷背后,其固有缺陷與結(jié)構(gòu)性瓶頸也日益凸顯。
當(dāng)前大模型主要面臨四個方面的局限。其一,過度消耗數(shù)據(jù)與算力。參數(shù)規(guī)模動輒千億乃至萬億級,需要海量數(shù)據(jù)擬合并消耗巨大算力與能源;推理模型因生成大量“思考”Token,能耗進(jìn)一步攀升。其二,災(zāi)難性遺忘。在面向新任務(wù)微調(diào)時,模型通過全局參數(shù)更新適配新數(shù)據(jù),卻以犧牲既有知識為代價(jià),難以實(shí)現(xiàn)真正的持續(xù)學(xué)習(xí)。其三,抽象能力弱。模型更擅長從大數(shù)據(jù)中提取統(tǒng)計(jì)模式,而非形成對概念本質(zhì)的深層理解,推理魯棒性差,出現(xiàn)各類幻覺。其四,黑盒難解釋。復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)與高度非線性映射,使推理過程難以解釋與溯因,更難以“知錯就改”。
究其根源,在于當(dāng)前人工神經(jīng)網(wǎng)絡(luò)架構(gòu)、訓(xùn)練與推理機(jī)制的固有局限。首先,人工神經(jīng)網(wǎng)絡(luò)架構(gòu)缺乏可塑性,缺少與問題背后機(jī)理的聯(lián)系,難以刻畫因果關(guān)系。其次,訓(xùn)練時反向傳播機(jī)制以全局誤差為優(yōu)化目標(biāo),迭代更新所有參數(shù),消耗大量訓(xùn)練數(shù)據(jù)與算力,并導(dǎo)致遺忘。再次,推理時所有參數(shù)都參與正向傳播運(yùn)算,消耗大量算力。這些根源性問題進(jìn)一步導(dǎo)致大模型存在幻覺、可控性差、魯棒性不足等缺陷。更為嚴(yán)峻的是,大模型的原創(chuàng)概念、核心技術(shù)與算力生態(tài)是由美國打造和主導(dǎo),所做的是“延長線”式的工作。
回顧人工智能發(fā)展歷史,腦科學(xué)一直推動著人工智能的發(fā)展,今天的大模型正是借鑒了大腦在網(wǎng)絡(luò)拓?fù)洹⑿畔⒈碚饕约熬幋a機(jī)制方面的理論。因此,深度借鑒腦科學(xué)的研究成果,有望找到一條更加有效的機(jī)器智能發(fā)展路徑。
受此啟發(fā),我們提出了人腦記憶智能啟發(fā)的機(jī)器智能新思路。腦科學(xué)的研究表明:記憶是智能的基礎(chǔ),深刻影響人腦學(xué)習(xí)、抽象、聯(lián)想、推理等高級認(rèn)知活動。第一,記憶的稀疏激活、預(yù)測編碼等機(jī)制使人腦高度節(jié)能。人腦針對特定任務(wù)一般只激活約1%~4%的神經(jīng)元,預(yù)測編碼則減少了冗余信息處理,使得人腦高效提取記憶,快速學(xué)習(xí)新信息。第二,突觸可塑性與吸引子機(jī)制是人類持續(xù)學(xué)習(xí)的基礎(chǔ)。大腦采取局部學(xué)習(xí)策略,僅更新少量特定腦區(qū)的突觸連接;同時人腦吸引子具有良好的抗噪聲能力,能回憶出完整信息,避免了災(zāi)難性遺忘。第三,抽象?具象協(xié)同機(jī)制使得人腦能快速適應(yīng)新任務(wù)、新場景。大腦能從具象信息中提取抽象概念,并將二者關(guān)聯(lián),形成完整、靈活且高效的記憶表征。第四,抽象與聯(lián)想?yún)f(xié)同使得人腦推理更具邏輯性與可解釋性。抽象有助于人腦在不同場景中進(jìn)行類比和推理,聯(lián)想因其連貫思維使得推理可解釋。這些機(jī)制共同鑄就了人腦低功耗、小樣本、強(qiáng)泛化、可解釋的智能特征,為設(shè)計(jì)機(jī)器記憶智能提供了天然藍(lán)圖。
“機(jī)器記憶智能”的核心思想是:將人腦記憶機(jī)理引入機(jī)器智能的表征、學(xué)習(xí)與推理過程。以吸引子為機(jī)器記憶基本單元,構(gòu)建“層間抽象?層內(nèi)聯(lián)想”的表征結(jié)構(gòu);借鑒突觸可塑性與稀疏激活機(jī)制,形成低功耗、小樣本、強(qiáng)泛化的持續(xù)學(xué)習(xí)機(jī)制;將聯(lián)想?混沌的動力學(xué)引入記憶激活與推理過程,實(shí)現(xiàn)過程可解釋、結(jié)果能溯因并在不符合常識的環(huán)境下具有探索性推理的能力。機(jī)器記憶智能有望從根本上擺脫傳統(tǒng)數(shù)據(jù)驅(qū)動的路徑依賴,推動人工智能與腦科學(xué)深度交叉融合,走出一條不同于大模型的人工智能自主創(chuàng)新發(fā)展之路。
作者簡介
![]()
鄭慶華
中國工程院院士,同濟(jì)大學(xué)黨委書記,教育部科技委學(xué)部委員,教育部大學(xué)計(jì)算機(jī)教學(xué)指導(dǎo)委員會主任,國家自然科學(xué)基金創(chuàng)新群體負(fù)責(zé)人。研究領(lǐng)域?yàn)榇髷?shù)據(jù)知識工程、機(jī)器記憶智能。獲得國家科技進(jìn)步二等獎 3 項(xiàng),國家教學(xué)成果一等獎2 項(xiàng)、二等獎 3 項(xiàng),省部級科學(xué)技術(shù)一等獎 5 項(xiàng)、中國自動化學(xué)會科技進(jìn)步特等獎以及何梁何利基金“科學(xué)與技術(shù)進(jìn)步獎”、中國科協(xié)“求是”杰出青年獎、中國青年科技獎、國務(wù)院政府特殊津貼專家等獎項(xiàng)和榮譽(yù)。
來源:智能系統(tǒng)學(xué)報(bào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.