網易首頁 > 網易號 > 正文申請入駐

文心最強衍生模型PaddleOCR-VL-1.6發布，OCR綜合性能全球第一

2026-06-02 12:04:58　來源: 潮汐商業洞察

河南舉報

分享至

近日，百度正式發布 PaddleOCR-VL-1.6。作為文心衍生模型，PaddleOCR-VL-1.6 在 OmniDocBench v1.6 權威評測中準確率突破 96.3%，在 Real5-OmniDocBench、OmniDocBench v1.5上也取得了最領先的分數，綜合性能全球第一，刷新業界SOTA，在復雜文檔理解和真實場景解析能力方面進一步突破。

在OmniDocBench v1.6上，PaddleOCR-VL-1.6在多項能力中實現SOTA

在權威評測集 OmniDocBench v1.6 上，PaddleOCR-VL-1.6 總指標達到 96.33%，超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等，綜合性能全球第一，領跑全球通用大模型和專用OCR模型；在面向真實復雜場景構建的 Real5-OmniDocBench 評測中，PaddleOCR-VL-1.6 總指標達到 93.19%，較 Gemini-3-Pro 提升近4個百分點，在掃描件、彎折文檔、屏幕拍照、光照變化及傾斜文檔等五大真實場景下均保持領先表現。

測試結果顯示，PaddleOCR-VL-1.6 在文本、公式、表格等核心識別能力上全面領先當前主流開源及閉源方案，在表格、古籍、生僻字識別等復雜場景能力顯著提升，在印章、Spotting、圖表識別等多項關鍵能力同步增強，可更好滿足文檔數字化的需求。

據了解，PaddleOCR基于文心大模型訓練而來，是文心大模型多模態能力的重要部分，支持超100種語言識別，用戶覆蓋170多個國家和地區。此次發布的 PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 基礎上進一步升級，通過模型驅動的數據構建機制和漸進式訓練優化，在保持0.9B輕量化架構的情況下，模型準確率和復雜場景適應能力進一步提升。由于兩代模型模型結構一致，開發者和企業用戶無需進行額外適配，即可平滑遷移。

近年來，PaddleOCR 持續推進文檔理解能力升級，先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5 等多款模型。其中，PaddleOCR-VL-1.5 創新支持異形框定位，在真實文檔場景中展現出較強解析能力。此前，PaddleOCR GitHub Star 數已突破79.2K，超過谷歌開源OCR項目 Tesseract OCR，成為全球最受開發者歡迎的開源OCR項目之一。

目前，PaddleOCR-VL-1.6 已上線 PaddleOCR 官網，支持網頁端和API調用。同時，模型代碼及權重已同步開源至 GitHub 和 Hugging Face，面向全球開發者開放使用。

PaddleOCR官網：paddleocr.com

Github：github.com/PaddlePaddle/PaddleOCR

HuggingFace：huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.