網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，百度開源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22 22:16:20　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

【新智元導(dǎo)讀】百度開源Unlimited OCR！3B參數(shù)500M激活，一口氣讀完40頁不失憶。作者疑似DeepSeek出走的OCR核心大神。

就在剛剛，百度悶聲干了票大的！

最新開源的Unlimited OCR，總參數(shù)3B，實(shí)際激活僅500M——放在大模型時(shí)代幾乎是個(gè)零頭。

但就是這個(gè)小到離譜的模型，在OmniDocBench v1.5上拿下93.23%的綜合分，v1.6更是達(dá)到93.92%，直接刷新了端到端SOTA。

什么概念？v1.5同臺(tái)競(jìng)技的選手里，235B的Qwen3-VL拿了89.15，72B的Qwen2.5-VL拿了87.02，不公布參數(shù)量的Gemini-2.5 Pro也只有88.03。激活參數(shù)不到它們零頭的選手，反手把它們?nèi)α恕?/p>

更離譜的是，它還干了件之前沒有OCR模型干成過的事：一口氣解析40多頁文檔，不失憶、不降速，一次推理從第一頁讀到最后一頁。

目前，模型和代碼都已同步上線GitHub和HuggingFace。

GitHub：

https://github.com/baidu/Unlimited-OCR

Hugging Face：

https://huggingface.co/baidu/Unlimited-OCR

為什么所有模型都在「逐頁失憶」

說到OCR，現(xiàn)在模型笨得讓人意外。

它們會(huì)把一件原本連貫的長程任務(wù)，硬生生切成幾十個(gè)互不相干的小任務(wù)，再靠一個(gè)外部調(diào)度器把結(jié)果勉強(qiáng)縫起來。就像在跑一個(gè)for循環(huán)，處理完一頁就把記憶清空，再從頭開始下一頁。

能用，但本質(zhì)上只是工程的權(quán)宜之計(jì)，離真正的智能還差著一大截。

究其原因在于，隨著輸出越來越長，標(biāo)準(zhǔn)注意力機(jī)制下的KV緩存像滾雪球一樣瘋漲——內(nèi)存吃不消，速度越來越慢。

這才是逼著所有模型逐頁處理、頻頻「失憶」的真正元兇。

但人類抄書，從來不是這么干的。

我們會(huì)維持一種連續(xù)的認(rèn)知狀態(tài)——眼睛盯著三個(gè)點(diǎn)：原書、剛寫下的一小段、即將要寫的下一個(gè)字。

早些寫過的內(nèi)容慢慢淡出腦海，最近的上下文用來盯住當(dāng)前進(jìn)度。

這種能力有個(gè)很妙的名字：「軟遺忘」（soft forgetting）。

正是靠著這種「該忘就忘」的本事，人才能在極低認(rèn)知負(fù)荷下扛住超長任務(wù)。比如，抄一本書、譯幾百頁、連續(xù)轉(zhuǎn)錄數(shù)小時(shí)音頻。

百度想做的，就是把人類這種「原文全局可見、記憶只保留最近幾行」的注意力方式，搬進(jìn)模型里。讓OCR告別失憶。

R-SWA：把「抄書的秘密」寫進(jìn)注意力

順著這個(gè)思路，百度提出了報(bào)告里的核心技術(shù)——參考滑動(dòng)窗口注意力（Reference Sliding Window Attention，R-SWA），精確對(duì)應(yīng)前面說的人抄書時(shí)的注意力模式。

具體來說，每生成一個(gè)token，R-SWA都會(huì)去看全部「參考token」，也就是整張圖像的視覺token和提示詞，保證模型始終「看得見」完整原文。

但在輸出這一側(cè)，它只回看前面128個(gè)token，就像你抄書時(shí)只瞄一眼剛寫的那幾行。

落到實(shí)現(xiàn)上，Unlimited OCR把所有注意力層全換成R-SWA，從而把KV緩存變成一個(gè)固定容量的隊(duì)列。

每生成一個(gè)新token，最老的那個(gè)就被擠出去，大小始終不變。輸出1萬個(gè)token和10萬個(gè)token，內(nèi)存占用是完全一樣的。

報(bào)告中Flash Attention v3的延遲測(cè)試也一目了然。

DeepSeek OCR的標(biāo)準(zhǔn)MHA隨著解碼步數(shù)增加，每步耗時(shí)穩(wěn)步攀升；而Unlimited OCR的R-SWA從頭到尾一條平線，紋絲不動(dòng)。

一次推理，讀完幾十頁

這里還有一個(gè)至關(guān)重要的配合：DeepEncoder。

這個(gè)最初在DeepSeek OCR中登場(chǎng)的編碼器，能把一張1024×1024的PDF頁面壓縮到僅僅256個(gè)視覺token，壓縮率高達(dá)16倍。

而且由于視覺token在R-SWA下不參與狀態(tài)轉(zhuǎn)移，因此無論文檔多長，圖像信息永遠(yuǎn)清清楚楚，不會(huì)隨解碼過程逐漸退化。

配合DeepEncoder的極致壓縮和R-SWA的恒定緩存，Unlimited OCR在標(biāo)準(zhǔn)的32K上下文里，一次前向推理就能轉(zhuǎn)錄數(shù)十頁文檔。

結(jié)果顯示，同時(shí)輸入20頁文檔，轉(zhuǎn)錄與原文逐字比對(duì)的編輯距離僅0.057；即便輸入40頁以上，依然控制在0.11以下，衡量重復(fù)輸出的Distinct-35高達(dá)97%——幾十頁一口氣轉(zhuǎn)錄，幾乎沒有復(fù)讀。

在OmniDocBench v1.5上，Unlimited OCR拿到93.23%的綜合得分，比DeepSeek OCR的87.01%高出6.22個(gè)百分點(diǎn)。

文本編輯距離從0.073降到0.038，公式CDM從83.37飆到92.61，表格TEDS從84.97升至90.93。

在更新的v1.6上，同樣以93.92%拿下端到端SOTA。

效率方面同樣碾壓。

輸出達(dá)到6144個(gè)token時(shí)，Unlimited OCR的TPS是7847，DeepSeek OCR已經(jīng)掉到5822，差距高達(dá)35%。

別忘了，這是一個(gè)500M激活的MoE小模型，在DeepSeek OCR基礎(chǔ)上僅繼續(xù)訓(xùn)練4000步的結(jié)果。

投入不算大，但效果拔群——R-SWA對(duì)解析任務(wù)是一種真正的「免費(fèi)午餐」。

九大文檔類型的細(xì)分對(duì)比中，PPT、論文、雜志、報(bào)紙無一短板，Unlimited OCR在文本和閱讀順序兩項(xiàng)上全面超越DeepSeek OCR，且在七個(gè)類別中領(lǐng)先DeepSeek OCR 2。

一位神秘的技術(shù)總監(jiān)

跑分說完了。但這份報(bào)告真正有意思的地方，是行文方式。

從副標(biāo)題的語氣到技術(shù)的敘事，讀過DeepSeek那幾份技術(shù)報(bào)告的人，幾頁下來就會(huì)覺得似曾相識(shí)。

末尾還斷言R-SWA是通用解析機(jī)制，而OCR只是第一站。

一篇OCR報(bào)告，硬是寫出了探索通用智能的味道。

然后，是那個(gè)最讓人在意的地方——作者名單。

核心貢獻(xiàn)者三位：Youyang Yin，Huanhuan Liu*（項(xiàng)目leader），YY?（技術(shù)總監(jiān)）。

兩個(gè)人用真名，唯獨(dú)技術(shù)總監(jiān)掛了個(gè)兩字母縮寫。有點(diǎn)意思。

雖然論文沒多說，但GitHub致謝欄卻把線索遞了過來：Deepseek-OCR和Deepseek-OCR-2，排在致謝前兩位。

順著這條線往回找。DeepSeek OCR從一代到二代，核心作者始終三個(gè)人：魏浩然、孫耀峰、李宇琨。同一支小隊(duì)伍，從無到有。

今年4月DeepSeek發(fā)V4，魏浩然名字后面多了星號(hào)——已離職。

三個(gè)人里，只有他已經(jīng)公開離開。

再看履歷。魏浩然，階躍星辰出身，主導(dǎo)開發(fā)了端到端OCR最早跑通的開源標(biāo)桿GOT-OCR2.0。到DeepSeek后，更是一手搭起整條OCR線，DeepEncoder、MoE解碼器，一代到二代都是他的團(tuán)隊(duì)。

能力、時(shí)間線、署名方式，三條都對(duì)得上。

國內(nèi)OCR圈不大，能做出R-SWA這種級(jí)別突破、還對(duì)DeepSeek OCR架構(gòu)有「親手做過」級(jí)別熟悉的人，一只手?jǐn)?shù)得過來。魏浩然是其中最顯眼的那一個(gè)。

如此一來，YY大概率就是魏浩然了。

百度，依然能打

過去幾年，PaddleOCR幾乎是國產(chǎn)OCR的代名詞。開源、輕量，產(chǎn)業(yè)落地最廣——從手機(jī)端到服務(wù)器到嵌入式設(shè)備，覆蓋了最主流的應(yīng)用場(chǎng)景。

不過之前百度更側(cè)重產(chǎn)業(yè)應(yīng)用。穩(wěn)定性、部署成本、場(chǎng)景覆蓋是強(qiáng)項(xiàng)，「用前沿研究理念重塑OCR范式」這個(gè)方向并非其敘事重點(diǎn)。

而魏浩然做的，恰好就是這件事。

從GOT-OCR2.0的端到端一次解析，到DeepSeek-OCR的視覺壓縮，再到R-SWA——先想清楚OCR應(yīng)該長什么樣，再做出來。

一邊是產(chǎn)業(yè)落地最成熟、場(chǎng)景覆蓋最廣的工程底座；一邊是端到端長程解析最前沿的研究品味。兩者疊加，補(bǔ)齊的不只是一個(gè)技術(shù)短板，而是一種「既能大規(guī)模鋪開、又能持續(xù)引領(lǐng)范式」的完整能力。

百度今年把AIDU人才計(jì)劃升級(jí)為集團(tuán)級(jí)項(xiàng)目、薪酬不設(shè)上限。對(duì)一個(gè)想把研究做到落地的人來說，百度多年鋪下來的產(chǎn)業(yè)底座，比單純的高薪更有說服力。

魏浩然如果真的選了百度，邏輯就很清楚——這里有最成熟的產(chǎn)業(yè)底座，也有把研究推到前沿的空間和資源。

如果他真的把R-SWA推廣到ASR和翻譯，那百度手里握著的就不只是一個(gè)OCR模型，而是一套通用長程解析的技術(shù)框架。

論文展望里還留了一句：下一步，上下文窗口訓(xùn)到128K，構(gòu)建prefill pool讓模型學(xué)會(huì)自動(dòng)翻頁。

如果做到了，OCR就不再是識(shí)別一頁文字，而是理解一整本書。

參考資料：

https://github.com/baidu/Unlimited-OCR

https://huggingface.co/baidu/Unlimited-OCR

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Claude Code破解3500年前死語言！74年來最大考古語言學(xué)突破

新智元 2026-06-22 22:15:16
20 跟貼 20
剛剛，阿里HappyHorse1.1上線，我用它把國足送進(jìn)世界杯

智東西 2026-06-22 20:23:55
1 跟貼 1

實(shí)測(cè)兩款A(yù)I工具后，我開始認(rèn)真考慮“一人公司”了

智東西 2026-05-15 19:03:22
57 跟貼 57

DAA、超級(jí)個(gè)體與混合編隊(duì)：李彥宏的AI時(shí)代進(jìn)化論

鈦媒體APP 2026-05-13 17:58:13
0 跟貼 0
百度旗下基金等入股歐拉萬象，機(jī)器人ETF華夏（562500）四連漲后迎來回調(diào)機(jī)會(huì)

每日經(jīng)濟(jì)新聞 2026-06-22 11:09:05
0 跟貼 0

百度沈抖自曝：老忘吃藥，用AI做了個(gè)小程序

量子位 2026-03-27 11:25:23
0 跟貼 0

一張無意間拍下的照片，揭示了狼群的組織架構(gòu)?#科普??#狼群?

小白聊科普 2026-06-19 08:49:41
31 跟貼 31
降價(jià)也賣不動(dòng) 合資燃油車開始主動(dòng)撤出門店

界面新聞 2026-06-22 19:38:24
15022 跟貼 15022

AI奇觀：我在主會(huì)場(chǎng)卷，Agent在20余個(gè)分會(huì)場(chǎng)替我聽會(huì)

新智元 2026-06-22 15:37:45
10 跟貼 10
男子開車以為進(jìn)小區(qū)結(jié)果是上高速近日，男子駕車從貴陽回遵義過端午，誤將外觀與小區(qū)大門高度相似的高速收

中安在線 2026-06-22 11:43:28
146 跟貼 146
DeepSeek急急急缺人！外國人也要

智東西 2026-06-22 19:43:47
1 跟貼 1
劉美含張遠(yuǎn)被曝談過戀愛？一分鐘梳理時(shí)間線，疑似因調(diào)侃磨皮鬧翻

貴圈星娛 2026-06-20 16:49:56
2 跟貼 2
DeepSeek缺Agent人才缺瘋了！負(fù)責(zé)人各種貼廣告

量子位 2026-06-22 13:10:10
1 跟貼 1
馬斯克前聯(lián)創(chuàng)洽談10億美元巨融，要造一個(gè)真正歸你的AI

新智元 2026-06-22 22:14:48
0 跟貼 0
劉強(qiáng)東：將來機(jī)器人送貨，根本不需要快遞員；要保住 70 萬兄弟的工作，希望送他們?nèi)ヅ嘤?xùn)

互聯(lián)網(wǎng)思維 2026-06-23 02:20:47
0 跟貼 0
出油全球第一，采摘全靠人工！帶你見識(shí)油棕果采收

可愛爆了 2026-06-22 10:27:19
1 跟貼 1
2比2戰(zhàn)平烏拉圭！佛得角再造冷門，手握出線主動(dòng)權(quán)

澎湃新聞 2026-06-22 08:06:28
8600 跟貼 8600
29項(xiàng)全球第一！比亞迪大唐EV正式上市，這才是全尺寸旗艦新標(biāo)桿？

愛玩兒車EverCar 2026-06-21 10:00:00
0 跟貼 0
世界屋脊七地移動(dòng)一把手新陣容一文看清：林芝總經(jīng)理調(diào)整不久，唯一女將更要點(diǎn)贊！

運(yùn)營商段子手 2026-06-23 02:37:58
0 跟貼 0
Steam游戲機(jī)昂貴原因揭曉，對(duì)手非索尼微軟

字節(jié)漫游指南 2026-06-23 02:41:47
0 跟貼 0
內(nèi)塔尼亞胡強(qiáng)硬表態(tài)：以軍不會(huì)撤出黎巴嫩

新華社 2026-06-22 14:35:09
8481 跟貼 8481
理想高管說特斯拉智駕太強(qiáng)了，但華為智駕破120億公里，誰對(duì)？

春雨說科技 2026-06-22 14:45:16
41 跟貼 41
痛別！派出所副所長陳佳鑫，一路走好

環(huán)球網(wǎng)資訊 2026-06-22 20:05:40
25 跟貼 25
29項(xiàng)全球第一加持，大唐EV耀世登場(chǎng)，性價(jià)比拉滿

科技解析站 2026-06-22 22:03:54
2 跟貼 2
女子將寵物犬寄存海底撈辦公室后死亡門店回應(yīng)

極目新聞 2026-06-22 08:36:39
2680 跟貼 2680
10年，不停挖不停修不停夜間施工？！上海市中心這段路，“擾民困局”如何破解

新民晚報(bào) 2026-06-22 18:49:07
162 跟貼 162
視頻丨東風(fēng)-17發(fā)射狀態(tài)首次公開！多車齊射場(chǎng)面硬核

環(huán)球網(wǎng)資訊 2026-06-22 08:05:35
921 跟貼 921
沙特被“打回原形”了？

新民晚報(bào) 2026-06-22 09:35:47
367 跟貼 367
葡萄牙隊(duì)孔塞桑：我們沒義務(wù)給C羅喂球，會(huì)把球傳給位置最好的隊(duì)友，他和任何球員一樣，都是來幫助球隊(duì)的

極目新聞 2026-06-22 11:29:35
1972 跟貼 1972
丟人丟到全亞洲，馬來西亞媒體都來嘲諷新加坡：反應(yīng)這么大干嘛？

史智文道 2026-06-22 22:14:45
7 跟貼 7
"夏至吃一瓜，中藥不用抓"，清熱解毒、利尿祛濕，2元1斤很實(shí)惠

這知識(shí)好冷 2026-06-22 15:09:49
2 跟貼 2
狗狗聽到誰搖頭，好像一個(gè)豬豬在甩耳朵，網(wǎng)友指令代碼提前介入！

坤坤愛話筒 2026-06-21 15:44:36
4 跟貼 4
英國首相斯塔默發(fā)表辭職演講當(dāng)場(chǎng)哽咽：我要當(dāng)妻子的好丈夫孩子的好爸爸

參考消息 2026-06-22 18:52:43
2218 跟貼 2218
周冬雨演話劇遭差評(píng)，導(dǎo)演回應(yīng)

第一財(cái)經(jīng)資訊 2026-06-22 14:25:10
78 跟貼 78
說話邏輯拉滿，干凈利落懟到對(duì)方無話反駁

星星看看 2026-06-22 13:15:52
1 跟貼 1
喜酒難道不算酒？這邏輯我直接笑出聲

劇蜀黍影視 2026-06-21 11:00:48
3 跟貼 3
ACL 2026 | 騰訊混元發(fā)現(xiàn)「不完全學(xué)習(xí)」，SFT仍漏學(xué)15%訓(xùn)練數(shù)據(jù)

新浪財(cái)經(jīng) 2026-06-19 21:42:38
0 跟貼 0
在佛得角的中國游客：幾乎每隔一個(gè)街區(qū)就有一家中國超市，名為“迷你張”“迷你陳”

南方都市報(bào) 2026-06-22 18:52:42
213 跟貼 213
中方將10家美國實(shí)體列出口管制管控名單

財(cái)聯(lián)社 2026-06-22 09:05:08
521 跟貼 521
全球首架國產(chǎn)公務(wù)機(jī)投入商業(yè)運(yùn)營

第一財(cái)經(jīng)資訊 2026-06-22 12:52:46
74 跟貼 74

楊天真賈玲雙雙復(fù)胖上熱搜！一個(gè)因傷一個(gè)為活，回應(yīng)態(tài)度出奇一致

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

15507文章數(shù) 66929關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機(jī)

旅游

家居

本地

公開課

白巖松談人口老齡化：社會(huì)要降低老年人門檻
為什么人類有不同的膚色？
七個(gè)無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

剛剛，百度開源拿下全球第一！作者疑似DeepSeek出走大神

馬云與阿里巴巴眾高管下田插秧

媒體：中國"兩箭齊發(fā)"反制美國 不賣了也不買了

媒體：中國"兩箭齊發(fā)"反制美國 不賣了也不買了

法國球星祝中國隊(duì)下屆世界杯取得好成績(jī)

陪睡陪玩是皮毛，向佐揭內(nèi)娛暗規(guī)則

前美聯(lián)儲(chǔ)主席格林斯潘去世 享年100歲

華為智駕ADS限時(shí)優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

態(tài)度原創(chuàng)

1999?榮耀X80ProMax發(fā)布丨11000mAh電池+10000nits高亮屏

“茶和天下”端午游園會(huì)在悉尼舉行

綠意盎然 自然之境

吃一次廣東龍舟飯，才懂什么是豪華盛宴

媒體：中國"兩箭齊發(fā)"反制美國不賣了也不買了

媒體：中國"兩箭齊發(fā)"反制美國不賣了也不買了

前美聯(lián)儲(chǔ)主席格林斯潘去世享年100歲

綠意盎然自然之境