國產(chǎn)模型紫東太初：多模態(tài)RAG全新發(fā)布，準(zhǔn)確率提升33%（端到端

2025-03-18 14:23:47　來源: 親愛的數(shù)據(jù)

北京舉報

分享至

在產(chǎn)業(yè)智能化進程中，如何高效融合企業(yè)專有知識資產(chǎn)，構(gòu)建領(lǐng)域?qū)僬J(rèn)知引擎，是企業(yè)邁向智能決策與高效運營的關(guān)鍵。然而，傳統(tǒng)檢索增強生成（RAG）技術(shù)受限于語言單模態(tài)處理能力，僅能實現(xiàn)文本知識庫與文本查詢之間的淺層理解，難以滿足復(fù)雜業(yè)務(wù)場景的需求，在實際應(yīng)用中暴露出兩大缺陷：

信息表征缺失：忽略知識庫中多模態(tài)富文檔的視覺語義信息，如版面結(jié)構(gòu)、圖表關(guān)系、公式特征等；

模態(tài)交互受限：無法支持圖文混合查詢、跨模態(tài)關(guān)聯(lián)檢索等多樣化需求。

針對以上痛點，我們發(fā)布了紫東太初多模態(tài)檢索增強生成框架—Taichu-mRAG。該框架基于統(tǒng)一多模態(tài)細(xì)粒度檢索引擎和紫東太初多模態(tài)大模型，旨在提升內(nèi)容理解與生成質(zhì)量，實現(xiàn)對多模態(tài)信息的協(xié)同感知、精準(zhǔn)檢索與深度推理問答。

Taichu-mRAG 在多模態(tài)富文檔理解、多模態(tài)細(xì)粒度實體屬性問答兩大權(quán)威基準(zhǔn)上取得突破性進展：

在 M3DocVQA 數(shù)據(jù)集上端到端問答準(zhǔn)確率比開源SOTA M3DocRAG相對提升33%，多模態(tài)檢索召回率相對提升12%；
在 E-VQA 數(shù)據(jù)集上端到端問答準(zhǔn)確率比開源SOTA EchoSight相對提升9%，多模態(tài)檢索召回率相對提升9%。

3.1 Taichu-mRAG整體架構(gòu)

面向新一代智能問答場景，Taichu-mRAG 整體架構(gòu)包含四大核心模塊：Query理解模塊、多模態(tài)混合索引召回模塊、多模態(tài)精排模塊、多模態(tài)增強答案生成模塊。

Query理解模塊

該模塊根據(jù)用戶Query 及對話上下文深度挖掘用戶需求，判斷是否需要觸發(fā)全文理解，并結(jié)合對話歷史對用戶 Query 進行智能擴展、改寫，使得改寫后的 Query 可以更精準(zhǔn)地檢索到相關(guān)知識。

多模態(tài)混合索引與召回模塊

該模塊包含特征抽取、索引建庫及多路召回。在知識庫構(gòu)建過程中，我們先對富文檔進行多維度理解、分塊，抽取出子級檢索單元塊；包括基于版面識別的區(qū)域級分塊、基于純視覺信息的頁面級分塊、基于文本語義的滑窗分塊；之后，通過多模態(tài)Embedding模型抽取這些檢索分塊的語義特征，在統(tǒng)一語義空間內(nèi)進行 ANN 索引建庫。當(dāng)收到改寫的 Query 后，我們采用多路召回，并行執(zhí)行四路檢索：跨模態(tài)索引、關(guān)鍵Term倒排索引、基礎(chǔ)語義索引、知識擴展語義索引，高效召回和用戶需求最相關(guān)的 TopN 知識片段。

多模態(tài)精排模塊

多模態(tài)精排模塊負(fù)責(zé)對召回的 TopN 知識片段進行精細(xì)化排序，更加關(guān)注細(xì)粒度語義信息，有利于處理高難度場景，從而進一步提升多模態(tài)大模型的問答精準(zhǔn)度。該模塊采用單塔結(jié)構(gòu)，深度融合Query、文本、圖像、布局特征等信息，確保排序結(jié)果更加精準(zhǔn)穩(wěn)定。

多模態(tài)答案生成模塊

答案生成模塊根據(jù)前序模塊給出的相關(guān)參考知識和用戶原始Query，聯(lián)合生成最終的答案，并給出答案的參考片段，便于用戶進行答案溯源。當(dāng)候選片段無法覆蓋答案時，多模態(tài)大模型會根據(jù)用戶自定義配置選擇拒答或者依賴多模態(tài)大模型自身知識進行開放式回答。這一模塊不僅生成準(zhǔn)確的答案，還提供了答案的來源和依據(jù)，增強了答案的可信度和可解釋性。

3.2 Taichu-mRAG多模態(tài)檢索

Taichu-mRAG 的多模態(tài)檢索引擎采用了雙層級父子關(guān)聯(lián)索引機制和多路異構(gòu)特征聯(lián)合檢索技術(shù)：

雙層級父子關(guān)聯(lián)索引機制

基于多模態(tài)結(jié)構(gòu)感知的層級式分塊技術(shù)可有效解決多模態(tài)數(shù)據(jù)檢索中的粒度適配與上下文整合難題。雙層級父子索引技術(shù)核心是父級語義單元、子級檢索單元的智能分塊和關(guān)聯(lián)策略。

子級檢索單元為基礎(chǔ)單元，核心價值在于根據(jù)用戶 Query精準(zhǔn)召回語義最相關(guān)的細(xì)粒度語義片段，確保召回的精準(zhǔn)性；子級檢索單元可包含多種單元形式，如基于滑動窗口的文本片段單元、圖像單元、表格單元、圖文混合單元等。父級語義單元為跨模態(tài)知識容器，核心價值是為關(guān)聯(lián)的子級檢索單元提供完整的上下文信息輸入給大模型，提升大模型的回答精度和完整度。

父、子語義單元的切分及關(guān)聯(lián)映射核心在于對以下多種策略的靈活組合: (1)語義理解分塊：基于句子、段落、圖像、圖表多模態(tài) Embedding 計算相似度，當(dāng)連續(xù)內(nèi)容相似度低于特定閾值時則進行切割。（2）結(jié)構(gòu)化分塊：基于布局分析技術(shù)，對PDF、PPT、Markdown 等文檔按章節(jié)、標(biāo)題或頁面、語義塊邊界進行切割。（3）滑動窗口分塊：設(shè)置字符重疊范圍及滑動窗口大小，通過滑動窗口對文檔內(nèi)容進行切割。

多路異構(gòu)特征聯(lián)合檢索

Taichu-mRAG 檢索引擎采用多路異構(gòu)特征聯(lián)合索引的召回機制，在多模態(tài)、復(fù)雜富文檔理解場景下形成互補增強的檢索矩陣，保證了檢索系統(tǒng)的精準(zhǔn)性和產(chǎn)業(yè)落地可行性，多路異構(gòu)特征索引概況如下:

其中，多模態(tài)Embedding模型充分利用多模態(tài)大模型的語義理解能力，經(jīng)過多粒度多階段學(xué)習(xí)，實現(xiàn)多種模態(tài)在統(tǒng)一空間的語義表征，支持文本、圖像、圖表、公式等多種混合形式。模型有效緩解了模態(tài)偏差問題，同時也具備出色的單模態(tài)語義表征能力。

3.3 紫東太初多模態(tài)大模型

紫東太初多模態(tài)大模型（Taichu-MLLM）具備強大的視覺理解能力和若干特性，支持動態(tài)分辨率、圖文及多語言輸入、圖文混排模式等。同時為了更好促進Taichu-mRAG的產(chǎn)業(yè)落地應(yīng)用，針對落地應(yīng)用過程中的重點需求，我們對Taichu-MLLM 特定能力進行了重點優(yōu)化：

擴展上下文長度到128k，支持超長文本和多張高清圖片輸入；
優(yōu)化拒答指令遵循能力，提升拒答精度，具備準(zhǔn)確、穩(wěn)定的拒答能力；
優(yōu)化溯源能力，模型同時生成答案和引用來源，便于用戶溯源查證，提高答案可解釋性。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.