![]()
(圖片來(lái)源:攝圖網(wǎng))
(記者 杜峰)隨著新一輪科技革命和產(chǎn)業(yè)變革深入發(fā)展,人工智能正由“技術(shù)爆發(fā)期”邁向“應(yīng)用深水區(qū)”。近日,工信部明確提出,下一階段將動(dòng)員各地方、各行業(yè)全面推動(dòng)工業(yè)數(shù)據(jù)開發(fā)利用,助力制造業(yè)數(shù)字化智能化轉(zhuǎn)型。
當(dāng)前,大模型產(chǎn)業(yè)落地面臨的核心瓶頸,已非算力或算法,而是高質(zhì)量行業(yè)數(shù)據(jù),如何構(gòu)建專屬的高質(zhì)量行業(yè)數(shù)據(jù)集,讓沉睡的數(shù)據(jù)真正轉(zhuǎn)化為新質(zhì)生產(chǎn)力?運(yùn)營(yíng)商正以“數(shù)據(jù)飛輪”與“標(biāo)準(zhǔn)引領(lǐng)”給出破題之道。
跨越“語(yǔ)義鴻溝”:從“通用”到“專精”的突圍
高質(zhì)量數(shù)據(jù)集作為人工智能模型訓(xùn)練與應(yīng)用的基石,在AI落地工業(yè)的實(shí)踐中,一個(gè)尷尬的現(xiàn)象屢見不鮮:實(shí)驗(yàn)室里準(zhǔn)確率99%的模型,到了工廠車間卻頻頻“罷工”。這背后的核心痛點(diǎn),在于高質(zhì)量數(shù)據(jù)集的缺失。不同于互聯(lián)網(wǎng)通用數(shù)據(jù)集(如圖片、文本)的易獲取、標(biāo)準(zhǔn)化,垂直行業(yè)的高質(zhì)量數(shù)據(jù)集建設(shè)堪稱一場(chǎng)“硬仗”。
在工業(yè)領(lǐng)域,數(shù)據(jù)的“方言”五花八門。某汽車制造企業(yè)在引入AI質(zhì)檢時(shí)發(fā)現(xiàn),由于不同產(chǎn)線的光照條件、相機(jī)角度、零部件批次差異,導(dǎo)致訓(xùn)練數(shù)據(jù)與實(shí)際生產(chǎn)數(shù)據(jù)分布不一致,模型識(shí)別率驟降。同時(shí),工業(yè)數(shù)據(jù)深埋在不同企業(yè)的不同車間、不同的設(shè)備中,格式各異、標(biāo)準(zhǔn)不一,工業(yè)數(shù)據(jù)的采集不僅需要解決多源異構(gòu)設(shè)備的互聯(lián)互通,更要應(yīng)對(duì)工藝流程中細(xì)微變量帶來(lái)的“長(zhǎng)尾問題”。數(shù)據(jù)不僅要“量大”,更要具備極高的標(biāo)注精度和場(chǎng)景還原度,這對(duì)數(shù)據(jù)采集的成本和專業(yè)度提出了極高要求。
在自然資源領(lǐng)域,挑戰(zhàn)則來(lái)自數(shù)據(jù)的復(fù)雜性與稀缺性。以森林防火或地質(zhì)災(zāi)害監(jiān)測(cè)為例,極端天氣和災(zāi)害事件的發(fā)生概率低,導(dǎo)致“負(fù)樣本”數(shù)據(jù)極度匱乏。同時(shí),遙感影像數(shù)據(jù)受云霧、季節(jié)、光照影響極大,若僅依靠通用數(shù)據(jù)集訓(xùn)練,AI很難在復(fù)雜的自然背景下精準(zhǔn)識(shí)別出幾厘米級(jí)的地表裂縫或早期火情。由于無(wú)法利用專用數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,模型在行業(yè)術(shù)語(yǔ)理解、業(yè)務(wù)規(guī)則遵循及復(fù)雜流程執(zhí)行上存在嚴(yán)重的“語(yǔ)義鴻溝”,極大地限制了實(shí)際應(yīng)用效能。
這些難點(diǎn)共同指向一個(gè)事實(shí):沒有高質(zhì)量的行業(yè)數(shù)據(jù),就沒有可靠的AI應(yīng)用。AI落地難的實(shí)質(zhì),是高質(zhì)量數(shù)據(jù)供給的斷層。
構(gòu)建“數(shù)據(jù)飛輪”:打通“采、集、用”的價(jià)值閉環(huán)
面對(duì)供給端的短缺,被動(dòng)等待數(shù)據(jù)“長(zhǎng)大”已不現(xiàn)實(shí)。運(yùn)營(yíng)商憑借其云網(wǎng)融合優(yōu)勢(shì),通過“采、集、用”正在構(gòu)建形成“場(chǎng)景牽引數(shù)據(jù)、數(shù)據(jù)驅(qū)動(dòng)模型、模型賦能應(yīng)用、應(yīng)用創(chuàng)造價(jià)值”的“數(shù)據(jù)飛輪”模式。
中國(guó)電信目前已匯聚超過20萬(wàn)億詞元的高質(zhì)量基模訓(xùn)練數(shù)據(jù),并成功構(gòu)建了覆蓋教育、交通、文旅、政務(wù)、醫(yī)療、工業(yè)等14個(gè)重點(diǎn)行業(yè)的高質(zhì)量數(shù)據(jù)集。中國(guó)電信打造的星海數(shù)據(jù)智能中臺(tái)作為“數(shù)據(jù)原料庫(kù)”,專注于高質(zhì)量數(shù)據(jù)資源的準(zhǔn)備與提純,賦能多模態(tài)數(shù)據(jù)“采存算管用”全鏈路,顯著提升數(shù)據(jù)管理效率70%,研發(fā)效能提升150%。靈澤2.0數(shù)據(jù)要素平臺(tái)提供數(shù)據(jù)確權(quán)、流通交易、可信數(shù)據(jù)空間、公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)四大功能,已在全國(guó)多地部署。星辰MaaS平臺(tái)作為“數(shù)據(jù)精煉廠”,打通“數(shù)據(jù)—模型—服務(wù)”閉環(huán)。
中國(guó)移動(dòng)打造了大規(guī)模、全模態(tài)、高質(zhì)量、有特色的數(shù)據(jù)集超3PB。建設(shè)了集存儲(chǔ)、處理、標(biāo)注、評(píng)測(cè)、供給、優(yōu)化、治理為一體的高質(zhì)量數(shù)據(jù)集生產(chǎn)和供給能力體系,形成了30多種智能標(biāo)注工具,研發(fā)了240多項(xiàng)多模態(tài)數(shù)據(jù)治理工具,建立了一套涵蓋200多項(xiàng)指標(biāo)的數(shù)據(jù)集質(zhì)量評(píng)測(cè)體系,構(gòu)建了數(shù)據(jù)-模型-應(yīng)用三者互促共進(jìn)的“數(shù)據(jù)飛輪”體系。支撐保定、長(zhǎng)沙國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)。在數(shù)據(jù)賦能方面,數(shù)聯(lián)網(wǎng)數(shù)據(jù)空間依托中國(guó)移動(dòng)“連接+算力+能力”核心優(yōu)勢(shì),建成跨行業(yè)、跨區(qū)域、跨機(jī)構(gòu)的數(shù)據(jù)流通利用基礎(chǔ)設(shè)施。目前,已在金融風(fēng)控、醫(yī)療健康等12個(gè)重點(diǎn)行業(yè)落地應(yīng)用,為數(shù)據(jù)的安全流通與高效利用提供了有力保障。
中國(guó)聯(lián)通數(shù)智基于豐富的行業(yè)高質(zhì)量數(shù)據(jù)集積累和先進(jìn)的大模型技術(shù),打造元景三大平臺(tái)。依托元景萬(wàn)象數(shù)據(jù)工程平臺(tái),以“采、治、構(gòu)、測(cè)、用、安”能力為核心,打通Data-Ready 數(shù)據(jù)構(gòu)建流程,高效賦能AI應(yīng)用快速落地。依托元景MaaS平臺(tái),提供上百種模型選擇,構(gòu)建低門檻、零代碼的模型服務(wù);依托元景萬(wàn)悟工業(yè)智能體平臺(tái),為高端制造、船舶海工、航空航天等關(guān)鍵領(lǐng)域提供可信、高效、安全的數(shù)據(jù)要素支撐。
標(biāo)準(zhǔn)先行:破解“孤島”困局的通用語(yǔ)言
如果說(shuō)“數(shù)據(jù)飛輪”解決了數(shù)據(jù)的“量”和“活”的問題,那么“標(biāo)準(zhǔn)”則是解決數(shù)據(jù)“通”的關(guān)鍵。
長(zhǎng)期以來(lái),行業(yè)數(shù)據(jù)面臨著標(biāo)準(zhǔn)不統(tǒng)一、重復(fù)建設(shè)、質(zhì)量參差不齊的亂象。一家企業(yè)建立的工業(yè)數(shù)據(jù)標(biāo)簽體系,另一家企業(yè)完全無(wú)法復(fù)用,導(dǎo)致大量的“數(shù)據(jù)孤島”和重復(fù)標(biāo)注成本。要降低治理成本與門檻,核心解法在于從“各自為戰(zhàn)”走向“共建統(tǒng)一標(biāo)準(zhǔn)”。這場(chǎng)從“各自為戰(zhàn)”到“統(tǒng)一標(biāo)準(zhǔn)”的轉(zhuǎn)變,需要在三個(gè)層面協(xié)同推進(jìn)。
首先,是“國(guó)家基礎(chǔ)標(biāo)準(zhǔn)”的先行先試,為全行業(yè)劃出“起跑線”。2025年8月,我國(guó)正式發(fā)布了《高質(zhì)量數(shù)據(jù)集建設(shè)指南》《格式要求》《分類指南》《質(zhì)量評(píng)測(cè)規(guī)范》四項(xiàng)基礎(chǔ)性技術(shù)文件。其中《建設(shè)指南》將數(shù)據(jù)集的生命周期明確劃分為數(shù)據(jù)需求、規(guī)劃、采集、預(yù)處理、標(biāo)注、模型驗(yàn)證等六大階段,并為每一階段設(shè)定了具體的實(shí)施要點(diǎn)和驗(yàn)收標(biāo)準(zhǔn);《分類指南》則創(chuàng)新性地提出了“通識(shí)—行業(yè)通識(shí)—場(chǎng)景專識(shí)”三級(jí)分類體系,讓不同用途的數(shù)據(jù)集各有歸位、各取所需。有了這套“國(guó)家標(biāo)準(zhǔn)總綱”,各地方、各行業(yè)在啟動(dòng)自己的數(shù)據(jù)集建設(shè)時(shí),就不再是無(wú)頭蒼蠅,而是有了統(tǒng)一的坐標(biāo)系。
其次,是“行業(yè)應(yīng)用標(biāo)準(zhǔn)”的精準(zhǔn)下沉,讓通用規(guī)則在垂直領(lǐng)域有針對(duì)性的行業(yè)子標(biāo)準(zhǔn)來(lái)落地。目前,針對(duì)石油化工、風(fēng)電、火電、煤炭、礦山、傳媒、具身智能等重點(diǎn)行業(yè)的專用建設(shè)指南正在加緊研制中。工信部啟動(dòng)的“工業(yè)數(shù)據(jù)筑基行動(dòng)”更是明確提出,要依托龍頭企業(yè)組建的聯(lián)合體,“研制一批工業(yè)數(shù)據(jù)標(biāo)準(zhǔn)”,系統(tǒng)梳理并完善工業(yè)數(shù)據(jù)標(biāo)準(zhǔn)體系。這種“基礎(chǔ)標(biāo)準(zhǔn)+行業(yè)細(xì)則”的模式,既保證了全網(wǎng)的互聯(lián)互通,又尊重了行業(yè)的特殊規(guī)律,避免了“一個(gè)方子治百病”的尷尬。
最后,是“評(píng)測(cè)與互認(rèn)機(jī)制”的閉環(huán)構(gòu)建,確保標(biāo)準(zhǔn)不是“橡皮圖章”。國(guó)家數(shù)據(jù)局發(fā)布《關(guān)于推進(jìn)行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動(dòng)的實(shí)施方案(征求意見稿)》提出發(fā)起高質(zhì)量數(shù)據(jù)集測(cè)評(píng)聯(lián)合行動(dòng)倡議,推動(dòng)相關(guān)單位按照標(biāo)準(zhǔn),采用統(tǒng)一測(cè)評(píng)方案和工具開展測(cè)評(píng)和封裝工作,實(shí)現(xiàn)“一次測(cè)評(píng)、全國(guó)互認(rèn)”。一旦數(shù)據(jù)集通過了國(guó)家認(rèn)可的標(biāo)準(zhǔn)化評(píng)測(cè),其質(zhì)量等級(jí)就在全國(guó)范圍內(nèi)得到承認(rèn),可以在不同的算力平臺(tái)、大模型廠商之間自由流通。這種基于“硬核”評(píng)測(cè)的互認(rèn)機(jī)制,才是打破“數(shù)據(jù)孤島”、激活數(shù)據(jù)要素市場(chǎng)的關(guān)鍵一招。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.