針對大數(shù)據(jù)審計的多源異構(gòu)數(shù)據(jù)質(zhì)量建設

2026-04-13 16:08:20　來源: 中國內(nèi)部審計協(xié)會

北京舉報

分享至

一、引言

近年來，黨中央、國務院高度重視審計信息化與數(shù)據(jù)治理能力建設。《“十四五”國家審計工作發(fā)展規(guī)劃》提出堅持科技強審，充分運用現(xiàn)代信息技術開展審計，提高審計質(zhì)量和效率；《數(shù)字中國建設整體布局規(guī)劃》則將數(shù)據(jù)治理提升至國家治理現(xiàn)代化的核心議程。

當前，審計數(shù)據(jù)呈現(xiàn)來源多元異構(gòu)、體量達百億級且持續(xù)快速增長、跨域跨模態(tài)語義深度關聯(lián)三重特征。多源異構(gòu)數(shù)據(jù)存在相應的質(zhì)量問題，已成為制約智能化轉(zhuǎn)型的關鍵瓶頸，而傳統(tǒng)人工清洗方法已難以滿足效率與準確性方面的要求。新一代信息技術的快速演進，正深度重塑審計數(shù)據(jù)生態(tài)。本文聚焦審計實踐中日益突出的“數(shù)據(jù)質(zhì)量痛點”問題，針對審計數(shù)據(jù)在源頭、結(jié)構(gòu)、語義等維度的復雜性，提出一套具備智能解析與治理能力的統(tǒng)一質(zhì)量建設體系。該體系主要涵蓋以下方面：（1）建立審計數(shù)據(jù)的多模態(tài)統(tǒng)一解析框架，提升結(jié)構(gòu)化轉(zhuǎn)換能力并確保語義一致性；（2）構(gòu)建字段標準化機制與指標口徑庫，從而解決數(shù)據(jù)冗余、字段歧義等問題；（3）實現(xiàn)數(shù)據(jù)質(zhì)量的動態(tài)評估與閉環(huán)治理，為審計智能分析與風險感知提供高質(zhì)量數(shù)據(jù)支撐。通過該體系，可有效突破傳統(tǒng)模式下存在的數(shù)據(jù)融合難、標準缺失、結(jié)構(gòu)不統(tǒng)一等問題，推動審計工作向數(shù)據(jù)驅(qū)動與智能協(xié)同方向深度發(fā)展。

二、審計數(shù)據(jù)的特點與難點

當前審計數(shù)據(jù)呈現(xiàn)出以下典型特征：（1）數(shù)據(jù)來源多元、模態(tài)高度異構(gòu)：審計對象已從傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)拓展至非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)，如合同文本、PDF標書、圖像票據(jù)與日志記錄，在部分審計項目中非結(jié)構(gòu)化數(shù)據(jù)占比甚至超過60%。（2）數(shù)據(jù)體量爆發(fā)式增長：多數(shù)省級審計平臺已管理百億級記錄，涵蓋財政、社保、金融等多個業(yè)務領域，年均增長率超過35%。（3）語義關聯(lián)性要求提升：如自然資源資產(chǎn)審計需融合國土、環(huán)保、林業(yè)等多個部門的結(jié)構(gòu)化與空間數(shù)據(jù)，對語義對齊與跨模態(tài)關聯(lián)提出更高要求。

多源異構(gòu)數(shù)據(jù)存在的質(zhì)量問題會對審計產(chǎn)生一定影響。表1總結(jié)了多源異構(gòu)數(shù)據(jù)的特征及其對審計質(zhì)量的影響。

審計實踐中，多源異構(gòu)多模態(tài)所導致的數(shù)據(jù)質(zhì)量問題已成為制約智能化轉(zhuǎn)型的重要瓶頸，主要表現(xiàn)在以下三個方面：（1）字段歧義與單位混亂問題：由于審計數(shù)據(jù)來源多樣，缺乏統(tǒng)一的指標定義與格式規(guī)范，不同部門或系統(tǒng)對同一指標的命名口徑存在差異（如“項目資金”“項目支出”“資金撥付金額”均指代相似概念），金額單位混雜（如元、萬元、億元并存），導致數(shù)據(jù)比對困難、計算錯誤頻發(fā)，嚴重影響分析的準確性與可比性。（2）結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存在割裂現(xiàn)象：審計過程中，大量文本、圖像、表格等非結(jié)構(gòu)化信息（如合同掃描件、銀行回單、會議紀要）未能與結(jié)構(gòu)化業(yè)務數(shù)據(jù)（如財務系統(tǒng)記錄、付款流水）實現(xiàn)有效關聯(lián)，導致證據(jù)鏈條不完整、審計判斷缺乏有力支撐。（3）數(shù)據(jù)更新滯后與可追溯性弱：部分數(shù)據(jù)采集存在時效性不足的問題，如社保、醫(yī)保等系統(tǒng)存在數(shù)據(jù)上報滯后的現(xiàn)象，導致審計人員在分析時無法獲取最新信息，線索斷點頻繁出現(xiàn)。此外，部分數(shù)據(jù)缺乏版本管理機制，難以還原其生成和變更路徑，對可追溯分析與責任認定的深入展開形成了限制。

為此，圍繞“多模態(tài)審計數(shù)據(jù)的清洗融合與統(tǒng)一表達”這一核心主線，本文主要從以下三個層級展開研究：（1）設計多模態(tài)數(shù)據(jù)質(zhì)量增強機制。結(jié)合OCR（光學字符識別）與NLP（自然語言處理）技術，對掃描件、PDF標書、圖像票據(jù)等非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化轉(zhuǎn)換，通過訓練專用Audit-NER（審計領域命名實體識別）模型，提高對合同金額、付款條件、項目名稱等核心要素的識別準確率。（2）構(gòu)建審計字段標準化與語義解析框架。構(gòu)建審計數(shù)據(jù)標準詞典與語義映射規(guī)則集，通過詞嵌入模型與規(guī)則引擎相結(jié)合的方式，自動識別并歸一同義字段，解決字段歧義與口徑不統(tǒng)一問題。（3）建立融合審計知識圖譜的質(zhì)量推理引擎。以審計業(yè)務流程與監(jiān)管邏輯為基礎，構(gòu)建包含指標關系、時間序列、行為模式等維度的知識圖譜，結(jié)合圖神經(jīng)網(wǎng)絡與語義規(guī)則挖掘技術，實現(xiàn)不同模態(tài)數(shù)據(jù)間的語義對齊、實體關聯(lián)與信息補全。

三、大數(shù)據(jù)審計數(shù)據(jù)質(zhì)量的治理框架構(gòu)建

（一）治理框架的核心目標

本治理框架旨在應對審計領域多源異構(gòu)數(shù)據(jù)融合的深層挑戰(zhàn)，實現(xiàn)從“數(shù)據(jù)可用”到“知識可用”的跨越式提升。為達成此愿景，本文設定兩大目標：一是構(gòu)建面向?qū)徲嫎I(yè)務的統(tǒng)一知識庫。將審計工作中的多源異構(gòu)數(shù)據(jù)（財務系統(tǒng)、合同文本、票據(jù)掃描件等）匯聚融合，通過自動化語義解析技術構(gòu)建統(tǒng)一知識庫。該知識庫不僅是數(shù)據(jù)的簡單聚合，而是將原始、孤立的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、語義化的知識網(wǎng)絡，為大語言模型（LLM）提供可信的知識基礎，成為推動審計智能化的核心戰(zhàn)略資產(chǎn)。二是設計并實現(xiàn)統(tǒng)一的多模態(tài)數(shù)據(jù)解析框架。為了保障統(tǒng)一知識庫的高質(zhì)量構(gòu)建，需依賴強大的解析引擎作為數(shù)據(jù)輸入機制。因此，本文提出以圖像、文本、表格等多模態(tài)數(shù)據(jù)為對象，構(gòu)建統(tǒng)一的語義解析與融合框架，確保原始數(shù)據(jù)能夠被高效處理為結(jié)構(gòu)規(guī)范、字段統(tǒng)一、語義明確的“審計就緒數(shù)據(jù)”，從源頭保障知識建構(gòu)的數(shù)據(jù)質(zhì)量。

（二）技術實施路線：審計數(shù)據(jù)統(tǒng)一解析與知識庫構(gòu)建

為實現(xiàn)上述目標，本文設計了一套集數(shù)據(jù)輸入、預處理、解析、融合和輸出于一體的綜合技術實施路徑，整體流程如圖1所示。

1.輸入與預處理模塊。輸入與預處理模塊是整個框架的起點，旨在統(tǒng)一接入并標準化處理不同來源和格式的審計數(shù)據(jù)。該框架支持處理結(jié)構(gòu)化數(shù)據(jù)（如數(shù)據(jù)庫和電子表格中的財務數(shù)據(jù)）和非結(jié)構(gòu)化數(shù)據(jù)（如PDF、DOC、TXT格式的法規(guī)文件、合同文本及掃描件形式的圖像票據(jù)）。對于非結(jié)構(gòu)化數(shù)據(jù)，通過OCR技術提取圖像和掃描件中的文本，利用NLP技術進行清洗、去噪、格式化處理，并進行初步語義分塊；對于結(jié)構(gòu)化數(shù)據(jù)，直接進行字段提取和清洗，為后續(xù)知識圖譜構(gòu)建做好準備。

2.解析與融合模塊。解析與融合模塊是整個框架的核心，負責將預處理后的數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的知識并構(gòu)建統(tǒng)一知識庫，包含兩個相互協(xié)同的核心組成部分。

一是面向大語言模型的文本知識庫構(gòu)建，主要處理法規(guī)、合同文本、研究報告等非結(jié)構(gòu)化文檔。通過語義分塊技術，利用NLP依據(jù)語義完整性將長文檔切分為主題內(nèi)聚的文本片段，確保每個片段包含完整概念或論點。比如，將審計報告切分為“公司財務狀況分析”“關聯(lián)交易風險評估”和“審計意見”等獨立片段。技術上可計算句子間余弦相似度確定分塊邊界，或使用BERT（雙向編碼器表示Transformer）等預訓練模型將文檔嵌入向量空間，隨后通過聚類算法切分。同時，為每個文本片段自動生成精煉的摘要作為核心索引，幫助LLM快速理解片段主旨，并提升檢索效率。

二是面向邏輯關聯(lián)的知識圖譜構(gòu)建，這是知識庫的結(jié)構(gòu)化核心，主要整合審計核心結(jié)構(gòu)化數(shù)據(jù)及從非結(jié)構(gòu)化數(shù)據(jù)源中提取的關鍵實體信息。依托NLP信息抽取和OCR識別能力，從發(fā)票掃描件等數(shù)據(jù)源中精準提取交易主體、時間戳、金額、關聯(lián)方等核心審計要素，采用“實體—關系—實體”三元組模型進行邏輯關聯(lián)，構(gòu)建審計領域知識圖譜。最后通過建立知識圖譜節(jié)點與相關文本片段之間的雙向索引關聯(lián)，將文本知識庫與知識圖譜有機融合，形成統(tǒng)一的審計知識庫，使其既具備結(jié)構(gòu)化圖譜的邏輯關聯(lián)能力，又擁有非結(jié)構(gòu)化文本的豐富語義表達。

3.輸出模塊。經(jīng)過解析、建庫和融合后的知識，在最終輸出模塊以三種主要形式服務于不同的審計應用場景。一是將解析后的數(shù)據(jù)以結(jié)構(gòu)化、標準化的格式（如JSON、CSV）輸出，供其他系統(tǒng)或數(shù)據(jù)分析工具使用；二是將構(gòu)建好的知識圖譜和文本知識庫存儲于圖數(shù)據(jù)庫（如Neo4j）和向量數(shù)據(jù)庫（如Pinecone、Milvus）中，實現(xiàn)知識的持久化存儲；三是提供可視化界面，通過圖譜展示復雜實體間的關系，幫助審計人員直觀地理解數(shù)據(jù)并進行交互式探索。通過這一整套流程，本框架將多源異構(gòu)的審計數(shù)據(jù)轉(zhuǎn)化為可信、高質(zhì)量的知識資產(chǎn)，為大語言模型在審計領域的深度應用奠定堅實基礎。

（三）知識嵌入表示

為了實現(xiàn)高效的知識檢索與應用，所有知識需轉(zhuǎn)化為向量形式。對于文本知識庫中的摘要索引和語義分塊，使用預訓練語言模型（如BERT、SimCSE等）將其編碼成高維向量，這些模型能夠捕捉文本的深層語義，使得意思相近的文本在向量空間中的距離更近。對于知識圖譜中的實體和關系，則采用知識圖譜嵌入模型（如TransE、RotatE等）學習實體和關系的向量表示，通過向量運算反映圖譜中的邏輯關系。面對圖像、表格等不同模態(tài)的數(shù)據(jù)，可采用多模態(tài)預訓練模型（如CLIP、OFA等）將不同模態(tài)的信息映射到同一向量空間，實現(xiàn)跨模態(tài)的統(tǒng)一檢索。通過向量相似度查找，可實現(xiàn)語義級檢索，即用戶輸入問題后，系統(tǒng)通過計算問題向量與知識庫中所有知識片段向量的相似度，快速召回最相關的知識，而非簡單的關鍵詞匹配，極大提升了LLM在問答、推理和內(nèi)容歸納方面的能力。

四、應用場景探討

為驗證所構(gòu)建的“大數(shù)據(jù)審計數(shù)據(jù)質(zhì)量治理框架”的實用性與可行性，本文選取審計工作中高頻、典型的業(yè)務場景（發(fā)票稽核與費用報銷）作為應用示例，系統(tǒng)展示該治理框架如何實現(xiàn)對傳統(tǒng)審計流程的數(shù)字化重構(gòu)與智能化升級。

在傳統(tǒng)報銷稽核流程中，審計人員需人工比對發(fā)票本體、報銷系統(tǒng)數(shù)據(jù)、財務報銷制度文檔三類信息源，存在以下四大痛點：核驗效率低，需人工逐項比對關鍵信息；合規(guī)判斷具有主觀性，審核標準不統(tǒng)一、執(zhí)行彈性較大；真?zhèn)巫R別與重復檢測能力薄弱，缺乏自動校驗機制；審計覆蓋率受限，人工稽核采用抽樣方式，難以實現(xiàn)全量覆蓋。

本文提出的治理框架通過多模態(tài)解析與統(tǒng)一知識庫協(xié)同，打通數(shù)據(jù)源壁壘，實現(xiàn)稽核流程的自動化與智能化。第一步是多模態(tài)數(shù)據(jù)接入與信息提取。系統(tǒng)同步接收發(fā)票掃描件與報銷系統(tǒng)錄入字段，調(diào)用OCR模型識別發(fā)票圖像文本，通過版面分析與命名實體識別，提取發(fā)票代碼、號碼、日期、金額、銷售方名稱等字段，將提取結(jié)果與報銷系統(tǒng)數(shù)據(jù)進行字段級匹配，對金額不符等情況自動標記“需復核”。第二步是知識庫驅(qū)動的多維合規(guī)性檢測。系統(tǒng)將結(jié)構(gòu)化信息輸入審計知識庫，進行規(guī)則驅(qū)動的多維合規(guī)判斷。具體包括：抬頭一致性校驗，將OCR提取的銷售方名稱與“風險供應商庫”進行匹配，并與報銷人信息交叉驗證；時效合規(guī)性校驗，根據(jù)“報銷有效期”規(guī)則判斷開票日期是否合規(guī)；報銷金額限額判斷，依據(jù)報銷要求規(guī)則判斷發(fā)票金額是否超限并觸發(fā)相應規(guī)則；附件完整性校驗，核查報銷單是否已附加必要憑證；重復報銷檢測，通過發(fā)票代碼+號碼在歷史報銷庫中進行秒級查重。第三步是稽核結(jié)論生成與證據(jù)鏈固化。系統(tǒng)基于合規(guī)性檢測結(jié)果自動輸出稽核結(jié)論，并給出處理意見，同時生成證據(jù)包，該證據(jù)包包含原始發(fā)票圖像、OCR提取字段、報銷單信息、命中制度條款及知識庫比對記錄，實現(xiàn)審計全流程可溯源。

該框架在發(fā)票稽核場景下展現(xiàn)出核心價值：審核效率大幅提升，平均處理時間縮短至秒級，95%以上合規(guī)報銷實現(xiàn)自動通審；審計覆蓋率提升至100%，實現(xiàn)從抽樣到全量稽核的跨越；內(nèi)控得以標準化執(zhí)行，規(guī)章制度以知識規(guī)則形式嚴格落實；風險識別精度提升，支持異常模式自動識別與風險趨勢追蹤；數(shù)據(jù)資產(chǎn)得以積累，稽核過程結(jié)構(gòu)化數(shù)據(jù)沉淀為可持續(xù)優(yōu)化的審計知識基礎。通過對該典型業(yè)務場景開展實證分析，本文所提出的智能治理框架有效支撐了審計流程的自動化升級與智能化轉(zhuǎn)型。

五、結(jié)語

本文以數(shù)據(jù)質(zhì)量治理為切入點，圍繞解析與知識協(xié)同構(gòu)建提出了一套系統(tǒng)化解決方案，不僅在方法體系上具有一定的創(chuàng)新價值，也在實務層面展現(xiàn)出較強的適配力和可推廣性。未來研究可進一步拓展：增強審計規(guī)則的學習與演化能力，引入深度強化學習等技術自動構(gòu)建規(guī)則庫；探索跨系統(tǒng)、跨部門的異構(gòu)審計數(shù)據(jù)融合機制；加強治理平臺與大語言模型的深度融合，提升審計問題識別的語義理解能力與自動問答能力。

文章摘自《中國內(nèi)部審計》雜志2025年第11期

作者：吳偉忠鐘震宇王振忠許仔陽

單位：廣東電網(wǎng)有限責任公司審計中心南京審計大學

編輯：孫哲

目前190000+人已關注我們，您還等什么？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

針對大數(shù)據(jù)審計的多源異構(gòu)數(shù)據(jù)質(zhì)量建設