網易首頁 > 網易號 > 正文 申請入駐

技術深度揭秘|云知聲U1-OCR架構升級 + API 開放,重構 OCR 3.0 時代

0
分享至

2026年2月26日,我們正式發布首個工業級文檔智能基礎大模型 Unisound U1-OCR,以“性能SOTA、可信可驗、開箱即用、高效部署、強適配”五大核心優勢,重塑傳統文檔處理邊界,開啟了 OCR 3.0 時代,為后續 U1-OCR 系列模型的迭代升級奠定了堅實基礎。

今天,歷經底層架構重構與海量真實場景打磨,云知聲 U1-OCR 能力實現再度進化,推出系列模型。同時,該模型同步全量上線云知聲Token Hub大模型服務平臺,開放標準化 API,支持一鍵接入、按需調用,采用Token 計費模式,大幅降低企業接入成本與部署門檻,讓 OCR 3.0 時代的文檔智能能力惠及更多行業。

核心亮點

全量 API 正式開放:上線云知聲Token Hub大模型服務平臺,標準化接口一鍵調用,按 Token 計費,開箱即用

技術權威認證:核心論文ACL 2026 收錄,雙權威數據集登頂,性能可驗可追溯

架構范式升級:拋棄傳統 NMS,用統一結構精修解決級聯誤差,復雜版面解析質的飛躍

行業全場景適配:金融 / 醫療 / 教育 / 交通等復雜文檔,結構理解 + 順序恢復一步到位

API 入口(點擊體驗 U1-OCR-Parser 文檔解析模型與 U1-OCR-Extract 信息抽取模型):

o https://maas.unisound.com/

論文查看:

o https://arxiv.org/pdf/2601.07483

o https://arxiv.org/pdf/2604.02692


云知聲 U1-OCR 文檔解析能力演示視頻

一、行業痛點破局:為什么OCR精度夠了,下游依然“錯亂”?

在真實業務場景中,文檔解析的核心需求從來不止于“識別文字”。無論是論文、研報、教材、試卷等常見文檔,還是各類復雜PDF,我們的系統不僅要完成文本識別,更會進一步理解頁面中的結構組織關系,并精準還原符合人類閱讀習慣的內容順序。唯有明確兩個核心問題——“這是什么區域”以及“這些區域應按什么順序理解”,文檔內容才能穩定支撐下游的信息抽取、檢索、問答、知識入庫等關鍵任務。

這也意味著,文檔解析能力的關鍵,早已超越OCR識別精度本身,核心在于系統能否真正讀懂頁面結構與內容順序。真實業務中的文檔極少是線性純文本,往往融合了標題、正文、圖表、表格、頁眉頁腳、腳注、多欄排版等多種元素。若系統僅能完成文字識別,卻無法精準判斷版面結構與區域關聯,就容易出現圖文順序錯亂、標題與正文混淆、多欄內容串行、上下文錯位等問題,進而影響字段抽取、知識入庫和問答檢索等任務的穩定性。

二、典型痛點具象化:復雜頁面中的解析困境

在復雜、密集的文檔頁面中,版面檢測器往往會針對同一塊內容,輸出多個重疊、邊界略有差異的候選框。表面上看系統“檢測到了全部內容”,但這些候選框并非都能直接用于下游解析——真正重要的不是候選框的數量,而是最終保留的區域是否準確、完整,以及能否按正確順序組織。

若不對這些候選框做處理,直接送入下游解析器(Parser),會導致內容重復、結構混亂,甚至打亂正常閱讀順序。傳統行業內解決方案通常采用非極大值抑制(NMS)進行候選框去重,即在多個重疊區域中刪除重復結果、保留一個候選框。但在真實復雜頁面中,僅靠啟發式NMS往往不夠穩定:多個候選框雖指向同一內容,但完整性和定位質量存在差異,NMS只能完成“去重”,卻未必能保留“最適合下游解析”的區域,反而可能誤刪定位更準、覆蓋更全的區域。


結合實際應用場景,這一痛點表現得尤為突出:

農業報刊版面中,報紙多欄排版的文章,系統閱讀時會胡亂跨欄跳轉,本該從上到下、從左到右閱讀,結果經常左邊讀到一半跳到右邊,再跳回左邊,完全不符合人正??磮蠹埖捻樞颍喿x邏輯斷裂。


再以包含數獨、拼字游戲與填字區域的高密度頁面為例,這類頁面元素繁雜、功能區域交錯,對模型的布局理解能力提出了更高要求。

這類娛樂版面中,文字、游戲格子、題目說明擠在一起,系統分不清哪句話對應哪個游戲,經常把文字和格子錯誤綁定,還在不同游戲之間隨意跳轉,既讀不通順序,又認錯內容歸屬。


這正是復雜文檔解析的典型難點:問題不在于文字未被識別,而在于結構信息未被穩定整理,難以高效交付給下游模塊。

三、破局思路:從“獨立模塊堆疊”到“統一結構假設池精修”

基于上述行業痛點,我們認為,復雜文檔解析的核心突破點,不僅在于提升OCR識別精度或單點檢測指標,更在于穩定檢測器(detector)到解析器(parser)的結構交接過程。

傳統方案通常將候選區域篩選、區域保留、閱讀順序恢復視為三個獨立步驟:NMS負責去重,排序模塊負責整理順序。這種拆分式處理在簡單頁面中可正常工作,但在復雜頁面中容易產生級聯誤差——排序建立在未穩定的候選集合上,一旦后續篩選改變保留區域,原有順序就可能失效。

針對這一行業普遍存在的問題,我們在U1-OCR 中采用了面向復雜文檔場景的解析設計:不再將檢測器輸出直接作為解析器可用的版面布局,而是將其視為“待精修的結構假設池”,在解析器交接前引入輕量級結構精修模塊,對候選區域的保留、定位與順序進行統一建模。最終,定位修正、實例保留和閱讀順序恢復從同一個精修狀態中同步生成,下游解析器接收的是干凈、有序的版面集合,而非僅經過啟發式后處理的原始檢測結果。


從本質上看,我們的這一設計可拆解為兩個核心子任務:一是結構識別,即判斷頁面中每個區域的內容類型、確定需保留的區域;二是順序推理,即規劃保留區域的合理閱讀路徑。

四、核心技術解析:四大關鍵設計,筑牢技術壁壘

U1-OCR 文檔解析的核心邏輯是:輸入文檔頁面圖像后,模型先通過第一階段檢測器生成初始候選假設池,再在解析器交接前進行統一結構精修——區別于傳統方法依賴NMS決定候選區域去留,我們將檢測器輸出視為待精修集合,從中構造更穩定的解析器可用版面。其核心技術優勢體現在四大關鍵設計上:

4.1 面向解析器接口的結構精修

U1-OCR 的核心不在于單獨優化檢測或排序的某個局部步驟,而在于重新建模檢測器到解析器的交接過程。通過在解析器接口前引入輕量級精修階段,讓定位修正、實例保留與閱讀順序恢復在統一表示空間中完成,大幅提升最終結構接口的穩定性。

4.2 雙向空間位置引導注意力

結構精修階段采用雙向空間位置引導注意力機制,聯合建模候選區域之間的關系與圖像證據。這一設計讓當前候選區域的更新,不僅依賴自身局部視覺信息,還能結合其他候選區域的空間分布與全局版面布局,有效處理多欄排版、相鄰文本塊競爭、圖文混排中的結構歧義,為后續實例保留與順序恢復提供穩定基礎。


4.3 保留導向監督

引入保留導向監督目標,讓模型通過學習建模候選區域之間的結構競爭關系,而非依賴固定的IoU抑制規則決定區域去留,減少復雜頁面中因機械過濾導致的內容缺失與結構破壞。


4.4 難度感知順序約束

在閱讀順序恢復上,對保留實例的順序關系進行建模,并引入難度感知加權,強化復雜區域之間的排序學習,讓模型能在共享的精修結構狀態上,恢復更一致的全局閱讀路徑,尤其適配跨欄、嵌套、圖文混排等復雜版面。


五、實驗驗證:雙數據集登頂,性能全面領先

為驗證我們產品技術方案的有效性,我們從兩個維度開展評測:一是采用pageIoU協議,獨立評估最終保留版面集合的頁面級結構質量;二是固定PaddleOCR-VL-1.5后端,僅替換前端版面分析模塊,觀察更穩定的檢測器-解析器交接是否能提升端到端解析效果——核心關注閱讀順序相關指標的改善情況。本次評測覆蓋兩大權威數據集:OmniDocBench與D4LA。

5.1 主結果對比:結構理解能力跨數據集領先

實驗結果顯示,U1-OCR 在兩大數據集上均取得最高F1分數,展現出強勁的版面結構理解能力與跨數據集泛化能力:

在OmniDocBench數據集上,我們的產品F1分數達96.23,優于PP-DocLayoutV3(96.03)、MinerU2.5(95.90)、dots.ocr v1.5(95.59)及PP-StructureV3(94.60);在D4LA數據集上,我們以93.93的F1分數登頂,領先dots.ocr v1.5(92.80)、MinerU2.5(90.20)、PP-DocLayoutV3(89.71)和PP-StructureV3(86.00)。


這一結果表明,在結構更復雜、布局變化更豐富的頁面中,U1-OCR 能更高效地處理區域邊界判定、類別區分與整體結構恢復問題,精準實現“將競爭候選假設穩定為解析器可用結構輸入”的設計目標。(注:PP-DocLayoutV3為PaddleOCR-VL-1.5與GLM-OCR所使用的版面分析模塊。)

5.2 OCR解析結果對比:閱讀順序恢復精度最優

在OmniDocBench數據集上,U1-OCR 同時展現出出色的綜合解析能力與閱讀順序恢復能力:

從綜合指標Overall來看,我們的產品以94.63的分數略高于GLM-OCR(94.62),優于PaddleOCR-VL-1.5(94.50)、dots.ocr v1.5(93.58)及Youtu-Parsing(93.22),彰顯端到端文檔解析的穩定競爭力;從閱讀順序核心指標Read Order Edit來看,我們取得0.024的最優結果(該指標越低越好),遠優于Youtu-Parsing(0.026)、dots.ocr v1.5(0.029)、PaddleOCR-VL-1.5(0.042)和GLM-OCR(0.044)。


實驗進一步證明,啟發式NMS僅能緩解重復框問題,無法兼顧定位、保留與排序的一致性;而我們產品采用的統一精修方案,能在多個數據集上實現三者的結構平衡,在閱讀順序恢復上顯著優于“檢測后再接獨立排序模型”的傳統做法,也印證了產品技術的有效性。

從“OCR識別”到“文檔理解”,賦能行業數字化升級

U1-OCR 的目標遠不只是“把文字識別出來”,更要切實解決復雜文檔頁面中的結構理解與閱讀順序恢復難題。我們將文檔解析拆解為“識別結構”和“梳理順序”兩大核心任務,圍繞這兩個任務設計專屬關鍵技術,不僅在多個公開權威數據集上取得了領先成績,更為真實業務場景中最容易被忽略的檢測器與解析器交接環節(detector-to-parser handoff),提供了更穩定、更可靠的處理方式。相關論文結論也印證了這一點:優化解析器接口,是提升顯式DLA流水線文檔解析能力的切實有效路徑。

這也意味著,文檔解析正從單純的OCR文字識別,升級為更貼合真實業務需求的文檔理解能力。此次U1-OCR 全量上線云知聲Token Hub大模型服務平臺,同步開放標準化API和一鍵調用功能,將進一步降低文檔智能技術的使用門檻,為醫療、交通、金融、教育等多個行業,提供高效、精準的文檔解析服務,助力各行業順利實現數字化轉型升級。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
唐藝昕遭隊友背刺?張凌赫田曦薇上花少?闞清子老公砸重金捧?湯唯拿下大餅?男星當眾求婚被吐槽?

唐藝昕遭隊友背刺?張凌赫田曦薇上花少?闞清子老公砸重金捧?湯唯拿下大餅?男星當眾求婚被吐槽?

十錘星人
2026-04-26 23:32:48
為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

為什么腦梗逐年增多?提醒:與肥肉無關,有一樣東西要少碰

芹姐說生活
2026-04-19 08:33:41
1-4慘敗,山東泰山創15年紀錄,揪出球隊水貨,媒體人炮轟:恥辱

1-4慘敗,山東泰山創15年紀錄,揪出球隊水貨,媒體人炮轟:恥辱

大秦壁虎白話體育
2026-04-26 22:23:22
今天我們講現代社會中最畸形的制度——勞務派遣。

今天我們講現代社會中最畸形的制度——勞務派遣。

流蘇晚晴
2026-04-21 20:48:42
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
國家其實已經暗示得很明白了,只是很多人一直沒真正聽明白!

國家其實已經暗示得很明白了,只是很多人一直沒真正聽明白!

Ck的蜜糖
2026-04-10 17:45:46
果然不出所料,美方終于承認:封鎖伊朗港口,就是要活活餓死他們

果然不出所料,美方終于承認:封鎖伊朗港口,就是要活活餓死他們

古史青云啊
2026-04-26 14:48:27
難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

難怪美國一點不慌,原來真有內鬼輸血!1200噸戰略物資被悄悄賤賣

起喜電影
2026-04-26 03:31:05
這才是宋美齡和繼子蔣經國的一張真實合影,都是真人的容貌

這才是宋美齡和繼子蔣經國的一張真實合影,都是真人的容貌

喜歡歷史的阿繁
2026-04-16 11:17:28
3-1!1-0!英超荒誕一夜:贏球=輸球,榜首=地獄

3-1!1-0!英超荒誕一夜:贏球=輸球,榜首=地獄

桃葉渡春
2026-04-26 22:49:56
10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

10年前,易建聯花1000萬在洛杉磯買下豪宅,如今出售市值多少?

阿庫財經
2026-04-24 14:26:45
本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

本想逼宮老俞,卻讓臉面碎了一地!甄選4大主播的離職瓜變味了

觀察鑒娛
2026-04-26 13:11:53
29.99萬元 全新一代ES 300h上市 中大型豪華轎車價值標桿

29.99萬元 全新一代ES 300h上市 中大型豪華轎車價值標桿

車文驛
2026-04-25 21:48:49
如今黃金價格變成了一個天大的笑話,買黃金可笑到什么程度

如今黃金價格變成了一個天大的笑話,買黃金可笑到什么程度

阿器談史
2026-03-25 04:43:38
油價反轉!4月27日柴油汽油價格,5月8日國內油價下調變油價大漲

油價反轉!4月27日柴油汽油價格,5月8日國內油價下調變油價大漲

有料財經
2026-04-26 23:52:16
為什么年輕人突然喜歡上了“有線耳機”?因為窮嗎?

為什么年輕人突然喜歡上了“有線耳機”?因為窮嗎?

創業者李孟
2026-04-05 02:04:11
雷來了,周末15家公司利空,11被st,2家退市,2家被立案調查!

雷來了,周末15家公司利空,11被st,2家退市,2家被立案調查!

風風順
2026-04-27 00:00:04
貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

貴陽花果園:共有311棟高層,房價從3000漲到14000,如今價格分化

專業聊房君
2026-04-24 19:28:34
1-3,大連英博5連勝遭終結,毛偉杰可昂首離開,45秒丟球打亂部署

1-3,大連英博5連勝遭終結,毛偉杰可昂首離開,45秒丟球打亂部署

替補席看球
2026-04-26 21:39:15
穆杰塔巴收到伊朗高層聯名密信,打開一看:再不回頭就是滅頂之災

穆杰塔巴收到伊朗高層聯名密信,打開一看:再不回頭就是滅頂之災

小濤叨叨
2026-04-26 17:23:59
2026-04-27 05:19:00
IT時代網 incentive-icons
IT時代網
IT時代網官方賬號
3532文章數 118關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

房產
藝術
親子
健康
數碼

房產要聞

新一輪教育大爆發來了!???,開始瘋狂建學校!

藝術要聞

72米舞臺被拆!華晨宇這次玩文旅,翻車了!

親子要聞

爸爸買的餐椅太好了,早知道早買了#餐椅 #寶寶板凳 #寶寶吃飯 #寶媽推薦

干細胞如何讓燒燙傷皮膚"再生"?

數碼要聞

三星Tab S12系列進入固件測試階段 或配10500mAh大電池

無障礙瀏覽 進入關懷版