![]()
江西地名研究
關(guān)注我們,獲取更多地名資訊
![]()
![]()
摘要:該文針對(duì)地名地址匹配中由模糊、不完整與非標(biāo)準(zhǔn)化輸入帶來(lái)的挑戰(zhàn),提出一種以大模型驅(qū)動(dòng)的多路召回優(yōu)化方法。該方法融合4類(lèi)互補(bǔ)召回策略,關(guān)鍵詞與倒排索引保障基礎(chǔ)匹配效率與可解釋性;向量相似度增強(qiáng)語(yǔ)義變體的識(shí)別;地理鄰近度利用空間坐標(biāo)提升模糊地理參照處理;大模型生成式召回覆蓋非規(guī)范化輸入。基于廣州市標(biāo)準(zhǔn)地名庫(kù)并構(gòu)造含21300條擾動(dòng)地址的測(cè)試集,實(shí)驗(yàn)結(jié)果顯示該方法在準(zhǔn)確率、召回率、MRR及NDCG@10等指標(biāo)上均顯著優(yōu)于單一路徑基線,驗(yàn)證該策略在復(fù)雜輸入場(chǎng)景下的有效性與魯棒性,為高精度地名地址匹配提供可行技術(shù)路徑。
關(guān)鍵詞:地名地址匹配;多路召回;大模型;語(yǔ)義檢索;倒排索引
地名地址的精準(zhǔn)匹配是地理信息系統(tǒng)、智能導(dǎo)航、電子政務(wù)、應(yīng)急指揮與社會(huì)治理等領(lǐng)域的基礎(chǔ)性任務(wù)。隨著位置感知服務(wù)和大規(guī)模城市數(shù)據(jù)的快速發(fā)展,來(lái)自社交媒體、行業(yè)數(shù)據(jù)庫(kù)與開(kāi)放街圖等異構(gòu)數(shù)據(jù)源中大量非規(guī)范化地址的涌入,使得對(duì)匹配方法的魯棒性與可解釋性提出了更高要求。精準(zhǔn)匹配不僅關(guān)系到信息檢索與位置信息的可用性,更直接影響資源調(diào)配與公共服務(wù)效率。
當(dāng)前匹配任務(wù)面臨多重挑戰(zhàn):地名存在同名、別名與簡(jiǎn)稱(chēng),導(dǎo)致語(yǔ)義歧義;地址文本常伴隨缺失、口語(yǔ)化或拼寫(xiě)錯(cuò)誤,形式從標(biāo)準(zhǔn)化門(mén)牌到自由描述差異巨大;行政區(qū)劃調(diào)整、道路更名及區(qū)域語(yǔ)言差異加劇了匹配難度;在大規(guī)模候選與實(shí)時(shí)應(yīng)用場(chǎng)景下,需在召回率、精度與計(jì)算成本間取得平衡。傳統(tǒng)規(guī)則或字符串方法雖具可解釋性,但語(yǔ)義泛化不足;機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法則依賴(lài)大量標(biāo)注數(shù)據(jù),且在稀疏實(shí)體和空間約束下表現(xiàn)有限。
近年來(lái),大模型在語(yǔ)義理解與生成上的優(yōu)勢(shì)為模糊匹配提供了新可能;多路召回策略則通過(guò)融合詞法、語(yǔ)義、知識(shí)庫(kù)與空間通路提升覆蓋率。但如何解決生成可信度、跨通路去重沖突及空間約束融合,仍是關(guān)鍵問(wèn)題。基于此,本文提出一種大模型多路召回優(yōu)化驅(qū)動(dòng)的地名地址精準(zhǔn)匹配方法,旨在在保證高召回率的同時(shí)提升準(zhǔn)確性與可解釋性。
HOME
1 地名地址檢索多路召回機(jī)制優(yōu)化
![]()
![]()
為實(shí)現(xiàn)地名地址的高精度與高覆蓋率檢索,本研究在召回階段設(shè)計(jì)并優(yōu)化了多路召回機(jī)制。該機(jī)制綜合利用多類(lèi)互補(bǔ)策略,從不同維度提升候選集合的完整性與魯棒性。關(guān)鍵詞與倒排索引召回側(cè)重于基于詞法的高效匹配,確保基礎(chǔ)檢索的準(zhǔn)確性與可解釋性;向量相似度召回通過(guò)語(yǔ)義嵌入與相似度計(jì)算提升對(duì)語(yǔ)義變體與表達(dá)多樣性的適應(yīng)能力;地理空間鄰近度召回則利用地理坐標(biāo)與空間索引增強(qiáng)對(duì)含模糊空間參照查詢的處理能力;而大模型生成式召回依托預(yù)訓(xùn)練語(yǔ)言模型的生成與推理能力,實(shí)現(xiàn)查詢意圖補(bǔ)全與復(fù)雜語(yǔ)境下的智能擴(kuò)展。
1.1 關(guān)鍵詞與倒排索引召回
地名地址檢索的召回環(huán)節(jié)是保障結(jié)果全面性的基礎(chǔ),關(guān)鍵詞與倒排索引召回作為該環(huán)節(jié)的核心技術(shù)之一,其本質(zhì)是通過(guò)構(gòu)建檢索詞與地址記錄的映射關(guān)系,實(shí)現(xiàn)檢索詞與地址庫(kù)條目的高效匹配。該方法的技術(shù)流程可分為索引構(gòu)建與查詢匹配兩階段:在索引構(gòu)建階段,首先對(duì)地址庫(kù)中的每條記錄(記為文檔集合D={d1,d2,…,dn})進(jìn)行分詞處理,得到各文檔的檢索詞集合T(di)={ti1,ti2,…,tik},其中tij代表文檔di中的第j個(gè)關(guān)鍵詞;隨后構(gòu)建倒排索引結(jié)構(gòu)I
I={ i ,TF(t,d i ))|t∈T(d i )}>|t∈U diε D T(d i )},(1)式中:TF(t,d i )為關(guān)鍵詞t在文檔d i 中頻率,用于量化術(shù)語(yǔ)對(duì)文檔的表征權(quán)重,用于量化術(shù)語(yǔ)對(duì)文檔的表征貢獻(xiàn)。
在查詢匹配階段,系統(tǒng)對(duì)用戶查詢q進(jìn)行與索引構(gòu)建一致的預(yù)處理與分詞,得到查詢術(shù)語(yǔ)集合;借助倒排索引 I 快速定位包含相應(yīng)術(shù)語(yǔ)的地址候選,并通過(guò)術(shù)語(yǔ)權(quán)重聚合篩選初始候選集。為緩解地名在語(yǔ)義與書(shū)寫(xiě)層面的歧義,分詞與匹配環(huán)節(jié)引入規(guī)范化與消歧策略,常用方法包括同義詞/別名詞典、拼寫(xiě)校正、音近詞規(guī)則及基于語(yǔ)料的共現(xiàn)度量。利用互信息等共現(xiàn)指標(biāo)衡量詞對(duì)語(yǔ)義相關(guān)性,可優(yōu)先保留關(guān)聯(lián)度高的分詞組合,從而抑制因錯(cuò)誤分詞或低關(guān)聯(lián)序列導(dǎo)致的誤召回。
1.2 向量相似度召回
向量相似度召回突破了傳統(tǒng)關(guān)鍵詞召回依賴(lài)文本形式匹配的局限性,通過(guò)深度語(yǔ)義表示技術(shù)將地名地址文本與用戶查詢統(tǒng)一映射至低維稠密向量空間,從而實(shí)現(xiàn)語(yǔ)義層面的候選檢索。該方法的核心由向量嵌入與相似度計(jì)算構(gòu)成。
在向量嵌入階段,采用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型結(jié)合地名地址領(lǐng)域語(yǔ)料進(jìn)行微調(diào),構(gòu)建領(lǐng)域適配的嵌入函數(shù)f:X→Rm,其中X為地名地址文本集合,Rm為m維向量空間。對(duì)于任意地名地址文本x(含用戶查詢q與地址庫(kù)記錄d),其嵌入向量分別表示為vq=f(q)與vd=f(d)。為提升嵌入向量的領(lǐng)域表征能力,微調(diào)過(guò)程采用對(duì)比學(xué)習(xí)損失,通過(guò)構(gòu)建正負(fù)樣本對(duì)優(yōu)化模型參數(shù),損失函數(shù)定義為
![]()
式中:Vd+為與查詢q語(yǔ)義相關(guān)的正例向量,D-為負(fù)例集合(語(yǔ)義無(wú)關(guān)的地址記錄),Sim(,)為相似度度量函數(shù),τ為溫度參數(shù)(控制相似度分布的平滑程度)。通過(guò)優(yōu)化該損失函數(shù),模型能夠在嵌入空間中拉近正例對(duì)的距離、拉遠(yuǎn)負(fù)例對(duì)的距離,從而獲得良好的語(yǔ)義區(qū)分能力。
然而,地名地址庫(kù)規(guī)模龐大,若直接計(jì)算查詢向量與全部候選向量的相似度,將面臨顯著的效率瓶頸。為此,常引入近似最近鄰(Approximate Nearest Neighbor,ANN),如倒排分區(qū)、向量量化分桶與圖結(jié)構(gòu)搜索,以在保證高召回率的同時(shí)顯著降低延遲與計(jì)算開(kāi)銷(xiāo)。
向量相似度召回的核心優(yōu)勢(shì)在于可識(shí)別表述差異較大但語(yǔ)義等價(jià)或接近的地名地址。結(jié)合領(lǐng)域語(yǔ)料微調(diào)的嵌入模型與高效ANN索引,該方法在準(zhǔn)確性與覆蓋度方面優(yōu)于傳統(tǒng)關(guān)鍵詞召回,并在大規(guī)模數(shù)據(jù)環(huán)境下兼具魯棒性與可擴(kuò)展性。
1.3 地理空間鄰近度召回
地理空間鄰近度召回旨在從空間維度補(bǔ)充純文本匹配的局限性,其核心思想是利用地名地址的地理坐標(biāo)信息,通過(guò)空間關(guān)系計(jì)算篩選與用戶查詢相關(guān)的候選地址。這種方法尤其適用于包含模糊地理參照的檢索場(chǎng)景,例如“廣州塔附近”或“天河體育中心對(duì)面”。整體流程可劃分為地理編碼和空間索引優(yōu)化。
地理編碼是將文本地址轉(zhuǎn)換為地理坐標(biāo)的關(guān)鍵步驟。通過(guò)地理編碼函數(shù)將任意地址映射為經(jīng)緯度坐標(biāo)。如果查詢涉及區(qū)域范圍,則可將其映射為矩形邊界(Minimum Bounding Rectangle,MBR)。對(duì)于用戶查詢中包含地理參照信息(如“廣州塔附近5km”),首先通過(guò)反向地理編碼獲取參照實(shí)體的坐標(biāo),然后定義查詢空間范圍。
空間索引優(yōu)化用于提升大規(guī)模地理數(shù)據(jù)下的檢索效率。常用方法包括R樹(shù)、四叉樹(shù)等空間索引結(jié)構(gòu)。以R樹(shù)為例,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)MBR,葉子節(jié)點(diǎn)存儲(chǔ)具體地址的MBR與坐標(biāo)信息,非葉子節(jié)點(diǎn)存儲(chǔ)子節(jié)點(diǎn)的MBR集合。在查詢時(shí),首先通過(guò)節(jié)點(diǎn)MBR與查詢范圍Q的交集判斷篩選候選節(jié)點(diǎn),再遞歸遍歷子節(jié)點(diǎn)直至葉子節(jié)點(diǎn),最后結(jié)合空間距離計(jì)算確定符合條件的候選地址。此外,可結(jié)合行政區(qū)劃邊界(如省、市、區(qū)的MBR)對(duì)候選集進(jìn)行二次過(guò)濾,從而進(jìn)一步提高空間匹配的精度。
1.4 大模型生成怯召回
大模型生成式召回充分利用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的生成與推理能力,在召回階段對(duì)不完整、模糊或隱含用戶意圖的查詢實(shí)現(xiàn)語(yǔ)義補(bǔ)全與候選擴(kuò)展。形式化地,給定用戶查詢q及檢索背景知識(shí)K(如知識(shí)庫(kù)、地名別名表、地圖元數(shù)據(jù)等),生成模型以條件概率形式生成候選表述c,并將其納入候選集合C
生成式召回的顯著優(yōu)勢(shì)在于其能夠基于上下文進(jìn)行實(shí)體聯(lián)想與語(yǔ)義重構(gòu)。為盡量抑制幻覺(jué)并提升生成項(xiàng)的可驗(yàn)證性,常見(jiàn)優(yōu)化包括:一是基于提示工程設(shè)計(jì)結(jié)構(gòu)化輸出模板,使生成結(jié)果更易解析與對(duì)齊;二是結(jié)合知識(shí)圖譜或?qū)嶓w鏈接模塊對(duì)生成結(jié)果進(jìn)行后驗(yàn)證;三是采用受約束解碼或檢索增強(qiáng)生成模式,用外部索引約束模型采樣空間,減少不可驗(yàn)證的輸出。
在實(shí)際系統(tǒng)中,生成式召回通常與關(guān)鍵詞、向量和空間召回并行工作,以并集或融合評(píng)分的方式形成最終候選池。通過(guò)統(tǒng)一的多模態(tài)特征與學(xué)習(xí)到的排序器對(duì)候選進(jìn)行精排,以實(shí)現(xiàn)高精度、高覆蓋率與低誤召回率的地名地址檢索系統(tǒng)。生成式召回不僅擴(kuò)展了檢索的泛化能力,也為復(fù)雜場(chǎng)景下的用戶意圖理解提供了新的技術(shù)路徑。
HOME
2 系統(tǒng)設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證
![]()
![]()
2.1 系統(tǒng)架構(gòu)設(shè)計(jì)
本研究構(gòu)建的地名地址精準(zhǔn)匹配系統(tǒng),采用大模型多路召回優(yōu)化技術(shù),整體架構(gòu)自上而下劃分為6層,如圖1所示。各層通過(guò)服務(wù)化接口和數(shù)據(jù)流實(shí)現(xiàn)協(xié)同工作,形成從數(shù)據(jù)接入、候選生成、融合排序到最終匹配結(jié)果輸出的完整閉環(huán)。
![]()
2.2 實(shí)驗(yàn)數(shù)據(jù)集
本研究以經(jīng)系統(tǒng)治理的廣州市標(biāo)準(zhǔn)地名地址庫(kù)作為基礎(chǔ)數(shù)據(jù)集,共含2611788條記錄,覆蓋道路、小區(qū)、院落與門(mén)址等實(shí)體。數(shù)據(jù)治理包括冗余剔除、格式統(tǒng)一、要素補(bǔ)全與坐標(biāo)校驗(yàn),確保數(shù)據(jù)完整性與空間可靠性。數(shù)據(jù)以CSV格式存儲(chǔ),每條記錄含地址唯一標(biāo)識(shí)、行政區(qū)劃編碼、標(biāo)準(zhǔn)化文本及廣州2000坐標(biāo)系下的空間坐標(biāo)等核心字段。
為模擬真實(shí)應(yīng)用中的模糊與非規(guī)范輸入,研究在街道(鎮(zhèn))層面進(jìn)行分層抽樣,選取5000條基準(zhǔn)地址,覆蓋廣州市11區(qū)50個(gè)街道/鎮(zhèn),并基于3類(lèi)擾動(dòng)規(guī)則生成測(cè)試集:其一為語(yǔ)義要素缺失(如省略區(qū)/鎮(zhèn)或門(mén)牌號(hào));其二為語(yǔ)法結(jié)構(gòu)變動(dòng)(調(diào)整要素順序);其三為字符級(jí)擾動(dòng)(同音/形近字替換、冗余或缺失),并附加模糊空間描述(如“附近”“往東100m”)。
最終共生成21300條擾動(dòng)樣本,并與基準(zhǔn)地址ID建立映射,形成高質(zhì)量測(cè)試集,為地名地址匹配方法的準(zhǔn)確性與魯棒性評(píng)估提供可靠依據(jù)。
2.3 實(shí)驗(yàn)結(jié)果分析
為全面評(píng)估所提方法的有效性,本文選取了覆蓋詞法、語(yǔ)義、空間與生成4類(lèi)策略的代表性基線:倒排索引(基于詞項(xiàng)匹配的經(jīng)典文本檢索)、向量語(yǔ)義召回(基于深度語(yǔ)義表示的向量檢索)、地理鄰近度召回(基于經(jīng)緯度的最近鄰檢索)以及大模型生成式召回(利用預(yù)訓(xùn)練語(yǔ)言模型生成候選)。在評(píng)測(cè)指標(biāo)上,綜合考慮匹配準(zhǔn)確性與覆蓋性,本研究采用準(zhǔn)確率、召回率、平均倒數(shù)排名(MRR)和NDCG@10作為核心評(píng)價(jià)指標(biāo)。各召回方法在地名地址匹配任務(wù)中的性能對(duì)比見(jiàn)表1。
![]()
傳統(tǒng)倒排索引在規(guī)范化文本上表現(xiàn)尚可,但面對(duì)模糊、口語(yǔ)化或信息缺失的輸入時(shí)性能顯著下降。向量語(yǔ)義與地理鄰近召回分別在語(yǔ)義變異與空間約束方面提供了補(bǔ)償,但各自存在偏向性(向量召回弱化地理約束,空間召回難以消解語(yǔ)義歧義)。大模型生成式召回在理解非規(guī)范化輸入方面表現(xiàn)優(yōu)異,但單一生成策略在排序與約束融合上仍有短板。相比之下,多路召回優(yōu)化通過(guò)融合詞法、語(yǔ)義、空間與生成通路并輔以排序優(yōu)化(如加權(quán)融合與再排序),在4項(xiàng)核心指標(biāo)上均取得顯著提升——準(zhǔn)確率提升至90.3%、NDCG@10達(dá)0.843,表明該方法能在復(fù)雜輸入場(chǎng)景下有效整合多源證據(jù),實(shí)現(xiàn)高精度、高覆蓋率的地名地址匹配。
HOME
3 結(jié)束語(yǔ)
![]()
![]()
本文提出并驗(yàn)證了一種大模型驅(qū)動(dòng)的多路召回優(yōu)化框架,融合關(guān)鍵詞倒排、語(yǔ)義向量、地理鄰近、知識(shí)/生成式召回等多維信息,對(duì)基于廣州市261萬(wàn)條標(biāo)準(zhǔn)地址庫(kù)構(gòu)建的擾動(dòng)測(cè)試集進(jìn)行系統(tǒng)評(píng)估。實(shí)驗(yàn)顯示,該方法將準(zhǔn)確率提升至90.3%,并在召回率、MRR與NDCG等指標(biāo)上顯著優(yōu)于多種基線,證明了在模糊、口語(yǔ)化與非規(guī)范化輸入場(chǎng)景下的魯棒性與泛化能力。研究的主要局限包括測(cè)試數(shù)據(jù)以單一城市為主和召回融合仍依賴(lài)啟發(fā)式策略;后續(xù)可在跨區(qū)域、多語(yǔ)言場(chǎng)景中驗(yàn)證方法的通用性,并探索基于學(xué)習(xí)的動(dòng)態(tài)融合與在線自適應(yīng)優(yōu)化以進(jìn)一步提升性能與可擴(kuò)展性。
作者:唐振明
來(lái)源:《科技創(chuàng)新與應(yīng)用》2025年第36期
選稿:耿 曈
編輯:杜佳玲
校對(duì):楊 琪
審訂:宋柄燃
責(zé)編:杜佳玲
(由于版面內(nèi)容有限,文章注釋內(nèi)容請(qǐng)參照原文)
![]()
![]()
微信掃碼加入
中國(guó)地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來(lái)稿!歡迎交流!
轉(zhuǎn)載請(qǐng)注明來(lái)源:“江西地名研究”微信公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.