亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網易首頁 > 網易號 > 正文 申請入駐

WPS為AI裝上“智能解析大腦”

0
分享至


文|唐辰 圖源:WPS官網

WPS派來的猴子,讓復雜文檔解析有救了!

人工智能進入大模型時代后,哪一個方向是最炙手可熱、競爭最為激烈的賽道?答案可能不唯一,但利用多模態(tài)大模型進行文檔智能解析絕對算一個。

自2025年6月以來,僅僅半年時間,各大科技公司、初創(chuàng)企業(yè)或研究機構紛紛下場,發(fā)布了一系列突破性模型,掀起了一場“解析革命”。

包括MinerU、PaddleOCR、DeepSeek-OCR、Chandra等在內的十余款新型文檔解析模型相繼問世,覆蓋了OCR、結構化提取、版面分析等多個維度。



圖注:2025年6月起,十余款多模態(tài)文檔解析模型先后發(fā)布

這些模型不再局限于傳統(tǒng)的字符識別,而是深度融合視覺與語言的多模態(tài)能力,實現(xiàn)了對復雜文檔,如PDF、掃描件、表格、發(fā)票的語義級理解與結構化輸出。

其中,金山辦公聯(lián)合華中科技大學在近期發(fā)布的MonkeyOCR v1.5,成為這一領域的最新技術進展。

這是一個全新的統(tǒng)一視覺語言文檔解析框架。從其英文名字看,它稱得上是金山辦公為解決復雜文檔智能解析難題派出的“猴子救兵”。

在全球權威文檔解析評測榜單OmniDocBench v1.5中,它拿下93.01分的成績,獲得綜合性能全球第一,成為多模態(tài)文檔解析領域的新標桿。

多模態(tài)時代的“復雜文檔智能感知系統(tǒng)”

OCR(Optical Character Recognition,光學字符識別)技術是最早讓機器理解文字、看懂文字的技術之一。它的核心任務是將圖像中的文字,轉化為可編輯、可檢索的文本。

比如在掃描文檔、票據識別錄入、街景招牌識別,以及Google翻譯的實時攝像頭翻譯功能為代表的翻譯與語言輔助系統(tǒng)等場景的應用。

OCR技術極大簡便了機器識別文字、處理文檔的工作,大家只需要拍個照片,或者直接掃描文檔,就能把文字、表格、網頁等信息提取出來。這也推動了信息數字化的浪潮,成為“無紙化辦公”和“自動化文檔處理”的基石。

從OCR技術的發(fā)展歷程看,可以拆分為OCR1.0和OCR2.0階段。

OCR 1.0 主要基于CNN(卷積神經網絡)與LSTM(長短期記憶網絡)結合的深度學習模型,例如CRNN、CTC等經典架構。其系統(tǒng)通常由文字檢測和文字識別獨立模塊構成,前者定位圖像中的文本區(qū)域,后者將文本區(qū)域轉換為具體文本內容。

這一階段的OCR技術解決了“機器識字”的基本問題。但它有一個根本性的局限:能識別字符寫的是什么,無法理解圖像中的語義關系。比如,它分不清楚一段文字是標題、表格數據,還是公式的一部分。

隨著辦公場景日益復雜,傳統(tǒng)OCR僅能檢測和識別文字已無法滿足需求。現(xiàn)代文檔處理需要模型能夠理解文檔的布局結構,準確表達各元素間的邏輯關系,并能高精度提取文本、公式及表格等結構化信息。

為此,新一代OCR技術應運而生。以MinerU2.5、PaddleOCR-VL、Dots.OCR為代表的多模態(tài)模型和解析方案,實現(xiàn)了從“文本識別”到“文檔理解”的跨越。這些技術不再僅僅返回文本,而是能夠輸出Markdown、JSON、HTML等結構化格式,讓我們從“看文字”升級為“讀文檔”。

其中,2023年大模型爆發(fā)是一個新的轉折點,徹底改變了深度學習的格局。以GPT-4V、Gemini、Qwen-VL、InternVL 為代表的視覺語言模型(Vision-Language ModelVLM),讓人工智能真正具備了“同時理解文字與圖像”的能力。

這意味著,OCR2.0模型既能“看圖識字”,又能“看圖明意”。它能讀懂論文PDF、解析圖表,甚至能夠理解圖表。

如果說LLM (大語言模型)是“大腦”,那么OCR就是“視覺皮層”,或者說是智能感知系統(tǒng)。它決定了 AI 能“看到”什么,進而“理解”什么。

OCR階段,模型或者產品的識別與理解能力不足,也會動搖多模態(tài)RAG(檢索增強生成)系統(tǒng)的“知識理解”的根基。

可以理解為,OCR是辦公環(huán)境中數據孤島之間的鏈接器,只有高效、準確的打通數據轉化壁壘,才能真正把數據變成AI能夠理解的企業(yè)知識,進而為多模態(tài)RAG(檢索增強生成)技術提供高質量的“數據燃料”。



圖注:MonkeyOCR v1.5突破多模態(tài)文檔解析性能上限(點擊看大圖)

換句話說,在OCR 1.0時代,模型主要實現(xiàn)的是“文字掃描”:它能看到PDF中的文字,但僅限于識別“這些字是什么”。而進入OCR 2.0階段,模型已能實現(xiàn)語義級解析、結構級還原、視覺語義融合與深層內容理解。

其角色也發(fā)生了根本性躍遷:從單純的“輸入預處理工具”,升級為“知識理解的起點”,成為一個真正的“文檔理解器”。

需要補充的是,當前主流的視覺語言模型(VLM),如Qwen-VL、InternVL、Gemma等,雖然參數量大、通用性強,但在結構化多模態(tài)信息提取、高精度大尺寸文檔解析、輕量化部署等專業(yè)場景中,往往難以直接勝任。

而經過文檔理解任務專門優(yōu)化的OCR 2.0模型(如DeepSeek-OCR、PaddleOCR-VL),在文檔圖像實體檢測、版面分析、信息結構化輸出及PDF-MarkDown轉換等核心任務上表現(xiàn)更為優(yōu)異,實現(xiàn)了效率與精度的更優(yōu)平衡。

例如,新版PaddleOCR 已明確將“通用文字識別”(OCR 1.0)與“通用文檔解析”(OCR 2.0)劃分為兩個獨立模塊。

MonkeyOCR v1.5,正是這一演進路徑上的新代表作。它在全能多模態(tài)文檔解析基準OmniDocBench v1.5,OCRFlux-bench上,全面超越MinerU 2.5、PPOCR-VL、DeepSeek-OCR等此前最優(yōu)方法,尤其在復雜表格場景中,相較于此前表現(xiàn)最好的MinerU2.5,效果提升近2.5%

可以說,MonkeyOCR v1.5是多模態(tài)時代的“復雜文檔智能感知系統(tǒng)”。它不是傳統(tǒng) OCR 的升級版,而是邁向“文檔理解”的關鍵一步。

甚至可以說,MonkeyOCR v1.5開啟了OCR2.0+時代,將OCR推進到多模態(tài)智能系統(tǒng)的核心感知入口的高度,成為連接物理文檔與數字智能的關鍵橋梁,完成從工具到智能信息平臺乃至智能解析大腦的蛻變。

“猴子的救兵”有哪些本領

相比傳統(tǒng)OCR技術只能識別文字,無法理解上下文關系,無法把一份復雜的學術PDF轉化為層次清晰的結構化信息。MonkeyOCR能準確理解復雜布局文檔中各元素的邏輯位置和符合人類閱讀偏好的閱讀順序。

同時可以精準識別文本、公式、表格等關鍵元素的信息,甚至能無損還原內嵌圖片的表格,以及跨越多頁或者多欄的表格。

在實際應用中,高校科研人員借助其批量解析論文,將20篇文獻的數據整理時間從2天壓縮至5分鐘;商業(yè)場景里,將一份跨越多頁、含有產品插圖的商品目錄表格,無損地還原為一個完整的結構化數據等;

而自動化業(yè)務流程里,企業(yè)內部文檔處理,如合同、報表、發(fā)票等,實現(xiàn)數據自動提取和結構化,提高效率,減少人工干預。

MonkeyOCR v1.5具備這樣的智能解析能力,源于其核心設計理念:將全局的結構理解與細粒度的內容識別高效解耦,并在最關鍵、最復雜的環(huán)節(jié)引入創(chuàng)新性的智能算法。

為此,它創(chuàng)新地將解析流程簡化為兩個清晰、輕量的階段:

第一階段:給AI 戴上“全局掃描鏡”。MonkeyOCR v1.5模型先預測文檔布局和閱讀順序,像文本、表格、公式位置等,確保AI 不會像盲人摸象般碎片化閱讀,而是從全局掌握信息脈絡,也從源頭上減少錯誤。

第二階段:局部“精加工”。根據一階段檢測結果并行地裁剪,由同一個VLM識別對應區(qū)域塊內容,再根據一階段的閱讀順序重新組合,最終還原出完整結構。

其運作邏輯是,系統(tǒng)將檢測到的區(qū)域塊(patch)剪裁出來,針對文本、公式、表格進行并行識別,這種“先定位、再細看”的策略兼顧了效率與精度,既看得準,也認得對。

MonkeyOCR v1.5針對復雜文檔解析還有一大殺手锏:圖像解耦技術。面對表格中嵌入圖片的干擾,模型會像戴上一副“偏光鏡”,先遮住干擾圖像并用占位符替代,讓 AI 專注于解析純文本表格骨架,最后再將圖片精準貼回 。

這種創(chuàng)新的兩階段架構以及針對嵌入圖像、跨頁表格的專用模塊,完美解決了復雜文檔中的噪聲干擾,避免表格還原時誤將圖片內容作為單元格內容識別,同時內嵌圖像模型和表格識別模型可分離,實現(xiàn)任務上的解耦。

這樣來看,MonkeyOCR v1.5 不是“又一個OCR”,它就像是給模型戴上了一副“偏光鏡”,自動濾掉干擾表格結構的圖片噪聲,只看骨架,從而能夠成為針對高價值復雜文檔打造的垂類智能解析引擎。

MonkeyOCR v1.5的范式意義

如果說圖片生成是AI 的“創(chuàng)作之筆”,那么對復雜文檔的解析則是 AI 的“深度閱讀之眼”。這正是WPS「原生+智能體」思路的落地。背后是金山辦公基于自身場景優(yōu)勢,聚焦打磨更適于應用落地的AI模型的理念。

這是因為,在未來的AI時代,真正能大規(guī)模落地、產生實際價值的,未必是參數龐大、算力需求高的通用大模型,那些輕量、快速、垂直、適合本地或移動端部署的專用模型,即垂直AI模型,同樣可以在其擅長的領域發(fā)揮巨大效能。

正如不少評測以及用戶反饋所評價,MonkeyOCR v1.5是復雜文檔智能解析領域的一個重要里程碑。它不僅在技術上實現(xiàn)了多項創(chuàng)新,打開OCR2.0+的新局面。

更關鍵是的是,它提供了一個新的OCR技術思路:通過創(chuàng)新的輕量級、本地化兩階段VLM設計、視覺一致性強化學習以及針對性的模塊化決方案,可以在復雜文檔智能解析上,實現(xiàn)準確性、效率和實用性的最佳平衡。

在辦公這一高頻、高價值場景打磨世界級模型,并使其成為AI時代新協(xié)同辦公范式。

但MonkeyOCR v1.5并不是一個炫技的垂直AI模型。盡管我們身處AI大模型時代,但大量的關鍵信息仍以PDF、掃描件、紙質檔案形式存在,比如科研論文、法律合同、醫(yī)療記錄、工程圖紙、政府公文等等。

如果我們無法高效、精準地將其轉化為結構化知識,無法理解復雜表格、圖片信息,AI 就如同“睜眼瞎”。OCR技術的發(fā)展,除了對文檔“識別得更準”,其也在改變人、機器與文檔的交互方式。

對金山辦公而言,MonkeyOCR v1.5 的意義遠不只是一個更強的插件。正如金山辦公CEO 章慶元所言,AI 時代的辦公軟件要成為“能力的提供方”和“數字員工的載體” 。

而有了MonkeyOCR v1.5 這套“智能解析大腦”,用戶上傳的 PDF、圖片即可無縫轉化為可編輯、可計算的智能文檔 。這不僅是“解析即用”的體驗升級,更是金山辦公在打造成熟 AI 應用落地“樣板間” 。

大家也能看到,一只“聰明的猴子”,正在通過重塑人與文檔的交互方式,大鬧 AGI 的“天宮” 。

參考資料,

賦范空間,《OCR2.0時代:從字符識別到多模態(tài)智能理解的技術革命》

量子位,《金山與華科發(fā)布多模態(tài)模型MonkeyOCR v1.5》

36氪頭條轉載:

虎嗅推薦:

36氪首頁推薦、鈦媒體精選:

鈦媒體主編精選:

36氪熱榜、鈦媒體熱榜:

澎湃、界面、36氪、鈦媒體熱榜:

人人都是產品經理主編推薦:

唐辰同學

鈦媒體、36氪、老虎財經熱榜

澎湃新聞2024年最澎湃創(chuàng)作者

老虎財經2024年度優(yōu)秀專欄

河南日報·頂端新聞2024年度影響力作者

界面新聞優(yōu)質榜單

老虎財經2024年度優(yōu)秀專欄

騰訊新聞年度優(yōu)質熱問答主

2023搜狐新聞年度優(yōu)質創(chuàng)作者

人人都是產品經理2023年度優(yōu)秀作者

2023網易新聞年度內容合伙人

界面、36氪、鈦媒體、澎湃、21財經、藍鯨、老虎財經等平臺專欄認證作者

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
16年生3娃不是親生,丈夫不養(yǎng)了,妻子:他太看重血緣,畜生不如

16年生3娃不是親生,丈夫不養(yǎng)了,妻子:他太看重血緣,畜生不如

哄動一時啊
2026-04-15 22:07:49
WSBK荷蘭站兩個中國品牌同場競速,張雪廠隊53號獲排位賽第二,張雪:希望正賽再奪冠,但要理性看待

WSBK荷蘭站兩個中國品牌同場競速,張雪廠隊53號獲排位賽第二,張雪:希望正賽再奪冠,但要理性看待

極目新聞
2026-04-17 23:38:43
拼多多太虎了!暴力抗法,被罰15億!處罰決定書曝光

拼多多太虎了!暴力抗法,被罰15億!處罰決定書曝光

說財貓
2026-04-17 19:51:40
上海一小區(qū)居民很生氣:近百萬改造項目質量堪憂,新裝的智能門禁形同虛設!查賬后還發(fā)現(xiàn)一件事……

上海一小區(qū)居民很生氣:近百萬改造項目質量堪憂,新裝的智能門禁形同虛設!查賬后還發(fā)現(xiàn)一件事……

環(huán)球網資訊
2026-04-18 15:08:12
年輕人為什么寧愿跑單也不進廠?廣州藍寶書數據很刺眼:送外賣15萬,工人才6萬

年輕人為什么寧愿跑單也不進廠?廣州藍寶書數據很刺眼:送外賣15萬,工人才6萬

風向觀察
2026-04-17 16:36:41
中美波斯灣斗法,特朗普被解放軍“卡”得不敢動彈

中美波斯灣斗法,特朗普被解放軍“卡”得不敢動彈

華人星光
2026-04-17 11:36:30
嚴打來了!5月1日起8類行為會入刑,退休老人要注意

嚴打來了!5月1日起8類行為會入刑,退休老人要注意

小談食刻美食
2026-04-18 09:44:44
表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報貪腐

表妹與表哥亂倫8年,表嫂竟然默許!表哥欲拋棄表妹后被舉報貪腐

胡侃社會百態(tài)
2026-04-18 12:06:59
女兒美國讀高中花掉110萬,單親媽媽向社會求助:求捐200萬讀大學

女兒美國讀高中花掉110萬,單親媽媽向社會求助:求捐200萬讀大學

談史論天地
2026-04-17 16:50:03
滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

滾出中國!云南潑水節(jié)炸出一群“男流氓”,潑女性“臟水”太齷齪

奇思妙想草葉君
2026-04-18 02:30:58
一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀檢這道關

一條煙、一瓶酒,2026年5月起,連茶葉盒都得過紀檢這道關

周哥一影視
2026-04-17 19:29:59
太陽最強大腿!杰倫格林兩戰(zhàn)轟71分創(chuàng)神跡:一數據歷史第一

太陽最強大腿!杰倫格林兩戰(zhàn)轟71分創(chuàng)神跡:一數據歷史第一

Emily說個球
2026-04-18 13:03:06
學校組織10元車費去春游,男孩下車秒哭,“這是我家,油菜花還是我和爺爺一起種的,我媽剛把我送學校,你又把我?guī)Щ貋砹恕?>
    </a>
        <h3>
      <a href=觀威海
2026-04-18 13:16:03
泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔架抬走,當地摩托車盛行,部分街道十分擁擠

泰國潑水節(jié)7天交通事故共致242死,中國游客回憶:有人額頭受傷被擔架抬走,當地摩托車盛行,部分街道十分擁擠

極目新聞
2026-04-18 10:45:22
英法德“反骨”暴露無遺,把邀請函發(fā)給中國,卻將美國排除在外

英法德“反骨”暴露無遺,把邀請函發(fā)給中國,卻將美國排除在外

忠于法紀
2026-04-18 11:39:40
140年來最強厄爾尼諾正在醞釀?地球或今年沖擊高溫極限?國家氣候中心回應

140年來最強厄爾尼諾正在醞釀?地球或今年沖擊高溫極限?國家氣候中心回應

澎湃新聞
2026-04-18 11:03:07
TA:哈登將拒絕下賽季4200萬美元球員選項,進入自由市場

TA:哈登將拒絕下賽季4200萬美元球員選項,進入自由市場

懂球帝
2026-04-18 08:58:04
“勿忘國恥”標語出現(xiàn)在零食包裝,激起廣泛討論

“勿忘國恥”標語出現(xiàn)在零食包裝,激起廣泛討論

吃瓜盟主
2026-04-17 19:29:03
中紀委深夜敲鐘,這次查的不是貪錢,而是這三類隱形特權病

中紀委深夜敲鐘,這次查的不是貪錢,而是這三類隱形特權病

細說職場
2026-04-18 12:11:35
大瓜!健身房教練和4個女學員XX

大瓜!健身房教練和4個女學員XX

新浪財經
2026-04-17 19:46:07
2026-04-18 15:27:00
唐辰同學 incentive-icons
唐辰同學
關注互聯(lián)網科技及商業(yè)故事。
443文章數 37關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細節(jié)信息量很大

頭條要聞

牛彈琴:特朗普迎來最興奮的一天 三個細節(jié)信息量很大

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

《穿普拉達的女王2》疑似辱華?

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

游戲
藝術
旅游
本地
房產

魂師對決:永恒商店采購分析!如果買的多了這波還真就永恒了!

藝術要聞

何多苓油畫新作(2026-2025)

旅游要聞

別再只去烏鎮(zhèn)了!上海這條1800年老街,趁沒火趕緊去

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

無障礙瀏覽 進入關懷版