人工智能技術(shù)正以驚人的速度發(fā)展,各類大模型層出不窮。無論是聊天機(jī)器人、圖像生成還是各行業(yè)的專用模型,都對(duì)海量高質(zhì)量的數(shù)據(jù)存在強(qiáng)烈需求。近年來,大模型訓(xùn)練參數(shù)規(guī)模不斷攀升,與之相伴的是對(duì)訓(xùn)練語料規(guī)模和質(zhì)量更高的要求。
對(duì)于希望利用人工智能挖掘技術(shù)情報(bào)的企業(yè)來說,專利文獻(xiàn)是一座巨大的知識(shí)寶庫。專利文獻(xiàn)包含了發(fā)明的背景、技術(shù)方案、實(shí)施例和法律狀態(tài)等信息,對(duì)于訓(xùn)練AI模型理解專業(yè)技術(shù)語言、自動(dòng)化科技信息分析等都有極高價(jià)值。可以說,AI的發(fā)展已經(jīng)走到需要深度處理專利數(shù)據(jù)的階段。
中國每年的專利申請(qǐng)量多年位居全球第一。巨大的中國專利數(shù)據(jù)背后,是海量的技術(shù)信息和法律信息的沉淀。專利文獻(xiàn)詳細(xì)記錄了發(fā)明創(chuàng)造的技術(shù)細(xì)節(jié)、實(shí)施方式,以及各類法律狀態(tài)。這些信息不僅對(duì)科研人員有價(jià)值,對(duì)于企業(yè)了解行業(yè)技術(shù)動(dòng)向、避免侵權(quán)風(fēng)險(xiǎn)、發(fā)現(xiàn)合作伙伴也至關(guān)重要。
中國專利數(shù)據(jù)是一座亟待深度開采的富礦。在人工智能和大數(shù)據(jù)技術(shù)的加持下,我們完全有機(jī)會(huì)從中提煉出高價(jià)值的技術(shù)情報(bào)和經(jīng)濟(jì)情報(bào)。對(duì)于擁有世界第一規(guī)模的專利數(shù)據(jù)的中國來說,這無疑是一筆巨大的財(cái)富。如果能夠善加利用,中國有望在全球技術(shù)創(chuàng)新情報(bào)領(lǐng)域占據(jù)優(yōu)勢(shì)地位。
盡管中國擁有如此豐富的專利數(shù)據(jù)資源,但當(dāng)前中國企業(yè)要批量獲取中國全量專利數(shù)據(jù)并非易事。按照現(xiàn)行規(guī)定,公眾和研究機(jī)構(gòu)并不是無法獲得專利數(shù)據(jù),但過程相對(duì)繁瑣,存在多方面的限制。雖然提供了專利數(shù)據(jù)批量下載服務(wù),但需要先在知識(shí)產(chǎn)權(quán)數(shù)據(jù)資源公共服務(wù)系統(tǒng)上注冊(cè)賬號(hào)并提出申請(qǐng),經(jīng)審批后才能獲取數(shù)據(jù),而且只能獲取近一個(gè)月左右的數(shù)據(jù),要獲取歷史全量數(shù)據(jù),要走另外的申請(qǐng)流程,存在名額或資質(zhì)限制。相比之下,美國等國家在這方面要開放得多。例如,美國專利商標(biāo)局提供公開的批量數(shù)據(jù)下載系統(tǒng)(ODP)和多種API接口,任何公眾都可以通過其官網(wǎng)自由檢索并批量下載專利與商標(biāo)數(shù)據(jù),不需要逐案申請(qǐng)權(quán)限。
如果專利數(shù)據(jù)能夠更加開放,其帶來的好處將是全方位的。
首先,對(duì)人工智能技術(shù)的促進(jìn)將十分顯著。開放的數(shù)據(jù)意味著更多樣本可用于訓(xùn)練模型,模型的專業(yè)性和準(zhǔn)確性都會(huì)提升。比如,專利數(shù)據(jù)涵蓋多個(gè)技術(shù)領(lǐng)域,開放后可用于訓(xùn)練垂直領(lǐng)域的AI模型,讓AI更懂專業(yè)技術(shù)語言、熟悉法律術(shù)語,推動(dòng)“AI+知識(shí)產(chǎn)權(quán)”的創(chuàng)新應(yīng)用。
其次,對(duì)于知識(shí)產(chǎn)權(quán)事業(yè)本身也是巨大的推動(dòng)。開放數(shù)據(jù)可以帶來更透明、高效的專利服務(wù):企業(yè)可以更方便地檢索現(xiàn)有專利,避免重復(fù)研發(fā);法律人士可以快速查詢專利法律狀態(tài),提高維權(quán)效率;政府部門和研究機(jī)構(gòu)可以基于數(shù)據(jù)分析科技發(fā)展趨勢(shì),制定更科學(xué)的創(chuàng)新政策。專利數(shù)據(jù)的開放將孕育一個(gè)活躍的創(chuàng)新生態(tài),各方圍繞數(shù)據(jù)開展增值服務(wù),反過來又激發(fā)更多專利申請(qǐng)和技術(shù)轉(zhuǎn)化,形成良性循環(huán)。
第三,開放專利數(shù)據(jù)還能幫助企業(yè)打造自己的知識(shí)庫。很多大中型企業(yè),特別是高科技企業(yè),都希望建立內(nèi)部的專利數(shù)據(jù)庫或情報(bào)分析系統(tǒng)。如果國家提供權(quán)威完整的數(shù)據(jù)下載,這些企業(yè)就能低成本獲取養(yǎng)料,構(gòu)建起覆蓋本行業(yè)專利的知識(shí)圖譜或檢索平臺(tái)。在此基礎(chǔ)上,再結(jié)合AI技術(shù),這些知識(shí)庫可以變得越來越聰明,可以回答技術(shù)工程師提出的專業(yè)問題,提供相關(guān)專利的要點(diǎn);再如競(jìng)品監(jiān)測(cè)系統(tǒng),可以自動(dòng)跟蹤競(jìng)爭(zhēng)對(duì)手的新專利動(dòng)態(tài)等。企業(yè)的創(chuàng)新效率和風(fēng)控能力都將因?yàn)閿?shù)據(jù)的充分利用而得到提高。
第四,開放數(shù)據(jù)對(duì)于整個(gè)數(shù)字經(jīng)濟(jì)和科技創(chuàng)新的意義也不容小覷。專利數(shù)據(jù)作為重要的公共數(shù)據(jù),其開放將賦能制造業(yè)、新能源、醫(yī)療、通信等各個(gè)行業(yè)。許多行業(yè)中的卡脖子難題,或許可以在開放的專利數(shù)據(jù)庫中找到靈感和方案。
總之,數(shù)據(jù)開放的紅利將通過人工智能的橋梁,源源不斷地輸送到實(shí)體經(jīng)濟(jì)中去,最終提升我國的科技競(jìng)爭(zhēng)力和創(chuàng)新驅(qū)動(dòng)力。
以下是幾點(diǎn)專利數(shù)據(jù)開發(fā)的具體的建議:
第一,允許自由下載過往全部專利數(shù)據(jù)。國家應(yīng)當(dāng)至少放寬對(duì)歷史存量專利數(shù)據(jù)的獲取限制。也就是說,已經(jīng)公開發(fā)布的所有歷年專利文獻(xiàn)(包括說明書全文、附圖、法律狀態(tài)等信息),都應(yīng)該提供自由下載途徑。這些數(shù)據(jù)本就是公開信息,理應(yīng)讓更多主體便捷獲取。例如,可以在國家知識(shí)產(chǎn)權(quán)局官方網(wǎng)站上開放類似于美國BDSS的批量下載入口。用戶無需逐一申請(qǐng),經(jīng)簡(jiǎn)單注冊(cè)即可根據(jù)需要批量下載指定年份、類型的專利數(shù)據(jù)。對(duì)于數(shù)據(jù)下載量特別巨大的用戶,可以通過技術(shù)手段防止濫用,但總體原則應(yīng)是能開放的盡量開放。通過降低門檻,鼓勵(lì)企業(yè)、科研機(jī)構(gòu)廣泛使用中國的專利數(shù)據(jù),才能真正發(fā)揮數(shù)據(jù)要素的價(jià)值。
第二,提升專利數(shù)據(jù)獲取的效率與時(shí)效。在擴(kuò)大開放的同時(shí),也要注重用戶體驗(yàn)。建議進(jìn)一步簡(jiǎn)化獲取流程,對(duì)于合理的數(shù)據(jù)需求不再設(shè)置繁瑣的審批。可以考慮推出開放API接口,方便程序化地按需提取最新的專利數(shù)據(jù)動(dòng)態(tài)。同時(shí),應(yīng)提高數(shù)據(jù)更新頻率,盡量縮短專利從公開到對(duì)外提供數(shù)據(jù)的時(shí)間間隔。只有做到實(shí)時(shí)、同步,專利數(shù)據(jù)才能真正服務(wù)于快節(jié)奏的技術(shù)創(chuàng)新活動(dòng)。此外,還可以完善文檔和支持,幫助用戶更高效地利用數(shù)據(jù)。例如發(fā)布詳細(xì)的專利數(shù)據(jù)格式說明、示例代碼等,讓開發(fā)者在構(gòu)建應(yīng)用時(shí)少走彎路。
第三,利用AI技術(shù)對(duì)專利數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。專利文獻(xiàn)由于年代久遠(yuǎn)、來源多樣,格式上存在不統(tǒng)一、質(zhì)量參差不齊的問題。例如,不同時(shí)期的專利文本編碼格式不同,老專利的掃描圖像質(zhì)量不佳,等等。建議國家牽頭,運(yùn)用OCR識(shí)別、自然語言處理等AI技術(shù),對(duì)存量專利數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化:統(tǒng)一文本格式,清除冗余信息,關(guān)聯(lián)分散的引文、法律狀態(tài)和專利族信息,甚至可以為專利附圖自動(dòng)生成說明標(biāo)簽。這樣的預(yù)處理將大大提高數(shù)據(jù)的可用性,讓后續(xù)利用者省去繁雜的數(shù)據(jù)清洗工作。在此基礎(chǔ)上,完全可以進(jìn)一步訓(xùn)練專用的“適用于中國專利的Embedding模型”。企業(yè)和研究者使用預(yù)訓(xùn)練的向量模型,在此基礎(chǔ)上進(jìn)一步開發(fā),釋放專利大數(shù)據(jù)的經(jīng)濟(jì)價(jià)值。
在人工智能時(shí)代,開放專利數(shù)據(jù)已是大勢(shì)所趨。一方面,我們擁有全球最多的專利技術(shù)文獻(xiàn),這是發(fā)展人工智能和數(shù)字經(jīng)濟(jì)的巨大優(yōu)勢(shì);另一方面,唯有開放才能將這份優(yōu)勢(shì)真正轉(zhuǎn)化為創(chuàng)新動(dòng)力。開放專利數(shù)據(jù),不僅是為企業(yè)和研究者提供便利,更是為國家在新一輪科技競(jìng)爭(zhēng)中奠定勝局提供堅(jiān)實(shí)的基礎(chǔ)。在保障國家信息安全和商業(yè)機(jī)密的前提下,讓蘊(yùn)藏于專利文獻(xiàn)中的寶貴財(cái)富流動(dòng)起來、活躍起來。可以預(yù)見,一個(gè)數(shù)據(jù)充分開放、AI深度參與的知識(shí)產(chǎn)權(quán)強(qiáng)國,將在未來的全球創(chuàng)新版圖中占據(jù)舉足輕重的地位。
Maxipat致力于作為成為科技創(chuàng)新和知識(shí)產(chǎn)權(quán)工作的AI加速器,主要包括輔助創(chuàng)新:提高研發(fā)的科技創(chuàng)新效率;智能搜索與分析:將專利搜索和報(bào)告制作借助AI實(shí)現(xiàn)智能化,包括智能查新、無效、FTO、Landscaping報(bào)告;投資助手:快速生成投資賽道報(bào)告、專利購買篩選、專利轉(zhuǎn)化評(píng)估。目前開放注冊(cè)中。輔助科技創(chuàng)新和知識(shí)產(chǎn)權(quán)工作的AI智能體
感興趣的朋友可以通過以下三種方式填寫申請(qǐng)信息:
1. 請(qǐng)發(fā)郵件到郵箱:info@maxipat.com
2. 點(diǎn)擊文末閱讀全文;
3. 掃描以下二維碼
感興趣的朋友可以加筆者微信patentlight
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.