(記者 林碧涓)6月8日,國家數據局發布了《關于推進行業高質量數據集建設行動的實施方案》,部署了強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六個專項行動。這也是從國家層面首次對數據賦能人工智能發展作出系統性部署。值得關注的是,方案還首次提出探索以詞元(Token)為基礎的價值體系、探索詞元交易等新型交易模式,標志著“詞元經濟”和“詞元交易”被納入政策視野。
詞元經濟下高質量數據集的核心價值
在方案發布前夕,我國日均詞元(Token)調用量已突破140萬億,驅動詞元調用量呈指數級攀升,使其從大模型內部的技術計量單位,躍升為智能經濟運行的基礎刻度。
詞元經濟的本質,正是可計量、可定價、可交易的智能服務規模化。在這一新經濟形態中,高質量數據集成為詞元價值的“核心錨點”。
![]()
(圖片來源:攝圖網)
詞元的價值并非簡單由“數量×模型版本”決定,而是深度依賴數據采集、匯聚、清洗、標注、質檢、對齊全流程專業投入。國家數據發展研究院副院長袁軍表示,數據被詞元化后,要求未來的數據集建設必須從“盲目堆積”轉向“精準提純”,力爭喂給大模型的每一口數據盡可能都是干貨。高質量數據集的目標,是教會大模型用最少的詞元解決最多的問題,從而降低無謂的詞元消耗與算力浪費。
數據加工與流通 為詞元經濟注入“源頭活水”
詞元價值并非簡單由“數量×模型版本”決定,而是深度依賴數據采集、匯聚、清洗、標注、質檢、對齊全流程專業投入。
北京電信與北京郵電大學共建的“多模態數據智能感知與治理實驗室”,致力于將原始數據加工成高價值數據產品,重點突破多模態信息理解、海量數據對齊和隱私保護三大技術。這一探索旨在加快建設高質量數據集平臺,推動數據資源向標準化資產轉變。
在數據流通環節,中國電信打造了“星海·可信數據空間”,匯聚超10萬億Token通用語料與14個行業數據集,日均處理1.6PB自有數據及27個行業、33省市公共數據。可信數據空間融合數據沙箱與隱私計算技術,構建起“數據可用不可見”的防護體系。經過全新升級,星海可信數據空間已拓展至十余個關鍵行業,匯聚百余個高質量行業數據集,新增五十余個高質量行業知識庫,為央國企人工智能應用提供更豐富的AI READY數據。此外,該平臺還提供數據空間跨境服務,在合規前提下支持境外模型入境訓練并安全返回,兼顧數據安全。
當前,中國電信在DaaS層,已匯聚超10萬億Token的通用大模型語料數據和覆蓋超14個行業的高質量數據集,總量超500TB。
數據標注為詞元經濟的“筑基工程”
數據標注將行業知識、邏輯規則、人類經驗注入數據,是提升數據集知識密度與模型理解能力的關鍵環節。可以說,數據標注是高質量數據集建設的核心工藝,因而也是詞元經濟的“筑基工程”。
面對不同行業的多樣化需求,北京電信深入業務一線,將零散的文字、對話和專業知識系統整理成規范的數據集,為機器學習提供高質量“教材”。在實踐中,北京電信已形成一套從理解場景、制定規則、協同標注到質量復核的全流程方法,把模糊的業務需求轉化為清晰的數據標準。
為支撐詞元經濟時代的大規模數據集建設,中國電信正加快推進數據標注基地建設。在西南,中國電信攜手成都市國家數據標注基地啟用數據標注技術研究中心,圍繞多模態數據標注、智能標注工具研發等方向開展系統性研究,構建數據標注工程化、標準化、智能化核心研發能力。在北京,中國電信已建成西城區“中國數據街”智能數據標注基地、京西智能數據標注基地以及行業數據智能標注創新中心。在東北,中國電信攜手沈陽市數據局共同建設具有沈陽特色的國家級數據標注基地。這些數據標注基地為高質量數據集的大規模生產奠定了堅實基礎。
詞元經濟是智能經濟的核心形態,更是數據要素價值化的關鍵載體。當每一座工廠、每一家醫院、每一寸農田都能產出可標注、可驗證、可復用的高質量數據資產時,數據集將成為智能化躍遷中的重要基石,進一步推動詞元經濟行穩致遠。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.