隨著AI工具越來越普及,最近圈內流傳著一個挺讓人焦慮的消息:根據研究機構的預測,在2026年到2032年之間,網上公開的人類文本數據可能就要被大模型給“吃光”了。全球的科技巨頭們現在都在瘋狂地找新的數據源。
而在這樣的背景下,中國直接把數據當成了核心戰略資產。就在周一,國家數據局公布了一份全國性的計劃草案,目的非常明確:我們要自己動手,大力提升高質量 AI 訓練數據的供應。
簡單來說,這就是為了落實國家的“人工智能+”戰略,把 AI 深度融入到咱們國家產業結構中去。
![]()
中國這次的“野心”很大,目標是到 2028 年,打造一個覆蓋幾乎所有核心行業的、經過驗證的龐大數據集生態系統。
這些行業可不只是我們常說的互聯網,而是包含了科研、制造業、農業、能源、交通、金融、醫療、教育和電商等各行各業。甚至連現在最前沿的具身智能、自動駕駛、低空飛行和生物制造,全都被規劃進去了。
而且,這次要的數據不僅僅是文字,而是要向多模態全面進軍,音頻、視頻、圖像、代碼一個都不能少。只有把這些都囊括進去,才能訓練出能進行復雜推理、會自主思考、還能完美控制智能機器人的下一代高級系統。
![]()
回到開頭提到的數據荒,中國給出的解法是:用技術手段來“造”數據,以及用更聰明的方式來處理數據。
既然現實世界的數據不夠,那就用技術合成。其實這個戰略已經初見成效了。比如上周,由香港中文大學和商湯科技投資的一家叫 Ace Robotics 的初創公司,其研究人員就發布了一個叫 Kairos-HomeWorld 的框架。這個框架能自主生成大批合成的全屋3D模型,專門用來訓練人形機器人。一下就把機器人訓練里最頭疼的“現實世界數據短缺”給解決了。
除了數據供應問題,政策還明確呼吁,要把過去繁瑣的數據標注環節從人工標注轉向自動化、人工智能輔助的標注方式。
此外,這份計劃里最讓人眼前一亮的是準備把數據徹底金融化。以后數據不只是用來跑模型的代碼,它還可以有各種好玩的商業模式。比如搞訂閱服務、按市場分發,甚至是用代幣(Token)來定價。國家還鼓勵大家去嘗試數據支持融資、數據信托和資產證券化,這意味著以后公司的原始數據能直接變成能在銀行抵押貸款、能變現的金融資產。
在全球都在為數據發愁的當下,中國這一套“打法組合拳”,可以說已經幫下一代 AI 提前備足了糧草。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.