網易首頁 > 網易號 > 正文 申請入駐

OCR 新紀元,超強文檔解析 Skills 來了

0
分享至


知識管理缺了一塊拼圖

前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki

這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown

合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出

OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式

先說大家最關心的格式支持問題,再細說安裝的事兒

格式支持

TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

  • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

  • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限

Skills 地址:github.com/intsig-textin/xparse-skills

核心是兩樣東西:

  • SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由

  • xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API

整個工作流如下圖:


用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

安裝方式

方式一:對話框一句話安裝

在 Agent 對話框直接說:

幫我從技能市場安裝 intsig-textin/xparse-parser

方式二:npx 命令安裝(強烈推薦)

npx skills add intsig-textin/xparse-skills

我最推薦這種方式,比較優雅


而且還可以一鍵安裝到所有 Agent 工具中


憑證配置只要一條命令:

xparse-cli auth

按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取

也支持環境變量方式(適合 CI/CD):

export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code
用法

在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

例如:

  • “幫我讀一下這份PDF合同,提取關鍵條款”

  • “把這個報告轉成Markdown,保存到桌面”

  • “這份加密PDF密碼是123456,幫我解析前10頁”

  • “提取這張表格圖片里的內容,輸出JSON”

核心命令詳解

這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

# 最基礎:解析 PDF,輸出 Markdown 到終端
xparse-cli parse report.pdf

# 輸出結構化 JSON
xparse-cli parse report.pdf --view json

# 保存到目錄(自動命名為 report.md / report.json)
xparse-cli parse report.pdf --output ./result/

# 保存到指定文件
xparse-cli parse report.pdf --output parsed.md

# 只解析指定頁碼范圍(支持多段)
xparse-cli parse report.pdf --page-range 1-5
xparse-cli parse report.pdf --page-range 1-2,5-10

# 解析加密 PDF
xparse-cli parse secret.pdf --password mypassword

# 獲取字符級坐標和置信度(做人工核驗時用)
xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:

能力

標題層級

自動識別文檔結構,最多 5 級標題

表格結構

HTML 格式保留單元格層級

圖片提取

內嵌圖片識別和提取

目錄樹

自動生成文檔 TOC

分頁結果

頁面級元數據

唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟

幾個實用進階玩法

① 管道組合,直接喂給 LLM

# 解析后搜索關鍵詞
xparse-cli parse report.pdf | grep "revenue"


# 解析完直接喂給 LLM 總結
xparse-cli parse paper.pdf | llm "summarize this paper"

② 批量處理

# 準備一個文件列表 files.txt,一行一個路徑
xparse-cli parse --list files.txt --output ./results/

③ 從解析結果里下載圖片

# 先解析為 JSON
xparse-cli parse report.pdf --view json --output result.json


# 再從 JSON 里批量下載所有圖片
xparse-cli download --from result.json --output ./images/

④ 私有化部署

如果是私有部署的 TextIn 服務,可以通過--base-url指定:

xparse-cli parse report.pdf --base-url https://your-private-server.com
總結

xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:

適合你用的場景:

  • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

  • 搭建 RAG 知識庫,需要高精度的文檔結構化

  • 日常工作要解析合同、財報、研報這類復雜文檔

優缺點直說:

評價

? 零代碼零門檻

說話就能用,適合所有技術水平

? 復雜表格能力強

跨頁拼接、合并單元格、無線表格都不虛

? 免費額度夠用

PDF+ 圖片 1000 頁/天,輕度使用完全夠

? 管道/批量支持

可與 LLM、腳本組合,適合自動化流水線

?? Word/PPT/Excel 需付費

免費版只有 PDF 和圖片

?? 免費版 10MB 限制

大型 PDF 需要付費賬戶

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
山東艦服役4年,為何不像遼寧艦一樣去遠洋訓練?外媒: 它不敢去

山東艦服役4年,為何不像遼寧艦一樣去遠洋訓練?外媒: 它不敢去

近史博覽
2026-03-31 12:17:25
公安部正式回應紅綠燈7月1日全國取消倒計時?不要被誤導了!

公安部正式回應紅綠燈7月1日全國取消倒計時?不要被誤導了!

小蜜情感說
2026-04-26 18:29:04
兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

兵敗如山倒!國產新能源或已經證明:中國壓根不需要二線豪華品牌

準備好了嗎
2026-04-26 06:20:34
綠營民代不出席彈劾賴清德投票,國民黨諷:不開會就是認同

綠營民代不出席彈劾賴清德投票,國民黨諷:不開會就是認同

海峽導報社
2026-04-26 20:56:17
“夜店神器”夜光漁網襪在網上火了 太性感了

“夜店神器”夜光漁網襪在網上火了 太性感了

3DM游戲
2026-04-24 06:40:07
農民當著眼鏡蛇面剝了3條小蛇:就愛喝蛇酒,次日下田一看后悔了

農民當著眼鏡蛇面剝了3條小蛇:就愛喝蛇酒,次日下田一看后悔了

卡西莫多的故事
2025-10-23 10:48:34
樊振東國家隊生涯或將落幕!

樊振東國家隊生涯或將落幕!

最愛乒乓球
2026-04-26 00:04:28
霍爾木茲海峽,傳來大消息!伊朗總統,最新發聲!比特幣跳水,超9.9萬人爆倉!

霍爾木茲海峽,傳來大消息!伊朗總統,最新發聲!比特幣跳水,超9.9萬人爆倉!

證券時報e公司
2026-04-25 22:11:02
爆冷!羽協主席張軍被查,小4歲花游冠軍妻子成最意難平的人

爆冷!羽協主席張軍被查,小4歲花游冠軍妻子成最意難平的人

阿廢冷眼觀察所
2026-04-26 19:53:52
保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

保姆偷拿了家里2瓶茅臺去賣,我沒揭穿只辭退了她,臨走時她指了指舊皮鞋,我一看瞬間癱坐在地

今夜有個好故事
2026-03-11 17:26:56
大清算來了!央視曝光:78億實際只有1億,7億農業基地變豪華會所

大清算來了!央視曝光:78億實際只有1億,7億農業基地變豪華會所

談史論天地
2026-04-26 09:11:46
醫生解剖510名糖尿病逝者,意外發現:得糖尿病的人,大多有5共同

醫生解剖510名糖尿病逝者,意外發現:得糖尿病的人,大多有5共同

寶哥精彩賽事
2026-04-26 15:29:01
特朗普:已取消威特科夫和庫什納前往巴基斯坦的行程

特朗普:已取消威特科夫和庫什納前往巴基斯坦的行程

新華社
2026-04-25 23:53:04
深圳1000億新貴:投資人賺了500倍,騰訊為大贏家

深圳1000億新貴:投資人賺了500倍,騰訊為大贏家

華爾街見聞官方
2026-04-26 18:45:59
12分鐘,13投全中,NBA最不講理的得分表演,沒有之一

12分鐘,13投全中,NBA最不講理的得分表演,沒有之一

林子說事
2026-04-26 15:22:42
美國一查中國家底才發現不得了,難怪中國人的底氣這么足

美國一查中國家底才發現不得了,難怪中國人的底氣這么足

觸摸史跡
2026-04-26 12:15:29
67艘驅逐艦,52艘護衛艦,6304部垂發,亞洲最強海軍浮出水面!

67艘驅逐艦,52艘護衛艦,6304部垂發,亞洲最強海軍浮出水面!

鋒芒點兵
2026-04-26 13:44:00
油價“過山車”,92汽油跌破8.5元/升后,下周初預漲超1.5毛/升!

油價“過山車”,92汽油跌破8.5元/升后,下周初預漲超1.5毛/升!

豬友巴巴
2026-04-26 10:30:03
戰與和的拉扯:美國無限反轉在消磨什么?日本擴軍狂飆想干什么?

戰與和的拉扯:美國無限反轉在消磨什么?日本擴軍狂飆想干什么?

上觀新聞
2026-04-25 18:49:05
Shams:華子將對左膝進一步檢查 他的右膝患有“跑者膝”

Shams:華子將對左膝進一步檢查 他的右膝患有“跑者膝”

北青網-北京青年報
2026-04-26 14:33:03
2026-04-26 21:35:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3353文章數 11139關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

頭條要聞

特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環王》的美劇,有第二季

財經要聞

事關新就業群體,中辦、國辦發文

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

數碼
時尚
健康
房產
本地

數碼要聞

MOREFINE上架G2外置顯卡,內置RTX 5060 Ti

比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

干細胞如何讓燒燙傷皮膚"再生"?

房產要聞

新一輪教育大爆發來了!海口,開始瘋狂建學校!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

無障礙瀏覽 進入關懷版