近日,百度正式發布 PaddleOCR-VL-1.6。作為文心衍生模型,PaddleOCR-VL-1.6 在 OmniDocBench v1.6 權威評測中準確率突破 96.3%,在 Real5-OmniDocBench、OmniDocBench v1.5上也取得了最領先的分數,綜合性能全球第一,刷新業界SOTA,在復雜文檔理解和真實場景解析能力方面進一步突破。
![]()
在OmniDocBench v1.6上,PaddleOCR-VL-1.6在多項能力中實現SOTA
在權威評測集 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 總指標達到 96.33%,超越Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR等,綜合性能全球第一,領跑全球通用大模型和專用OCR模型;在面向真實復雜場景構建的 Real5-OmniDocBench 評測中,PaddleOCR-VL-1.6 總指標達到 93.19%,較 Gemini-3-Pro 提升近4個百分點,在掃描件、彎折文檔、屏幕拍照、光照變化及傾斜文檔等五大真實場景下均保持領先表現。
測試結果顯示,PaddleOCR-VL-1.6 在文本、公式、表格等核心識別能力上全面領先當前主流開源及閉源方案,在表格、古籍、生僻字識別等復雜場景能力顯著提升,在印章、Spotting、圖表識別等多項關鍵能力同步增強,可更好滿足文檔數字化的需求。
![]()
據了解,PaddleOCR基于文心大模型訓練而來,是文心大模型多模態能力的重要部分,支持超100種語言識別,用戶覆蓋170多個國家和地區。此次發布的 PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 基礎上進一步升級,通過模型驅動的數據構建機制和漸進式訓練優化,在保持0.9B輕量化架構的情況下,模型準確率和復雜場景適應能力進一步提升。由于兩代模型模型結構一致,開發者和企業用戶無需進行額外適配,即可平滑遷移。
近年來,PaddleOCR 持續推進文檔理解能力升級,先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5 等多款模型。其中,PaddleOCR-VL-1.5 創新支持異形框定位,在真實文檔場景中展現出較強解析能力。此前,PaddleOCR GitHub Star 數已突破79.2K,超過谷歌開源OCR項目 Tesseract OCR,成為全球最受開發者歡迎的開源OCR項目之一。
目前,PaddleOCR-VL-1.6 已上線 PaddleOCR 官網,支持網頁端和API調用。同時,模型代碼及權重已同步開源至 GitHub 和 Hugging Face,面向全球開發者開放使用。
PaddleOCR官網:paddleocr.com
Github:github.com/PaddlePaddle/PaddleOCR
HuggingFace:huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.