網易首頁 > 網易號 > 正文申請入駐

萬億數(shù)據產業(yè)背后，被AI「困住」的打工人

2026-06-10 08:00:05　來源: 豹變

四川舉報

分享至

「核心提示」
AI發(fā)展帶來數(shù)據標注、數(shù)據采集等新崗位，但職業(yè)瓶頸和薪資限制了這些崗位的人才流入，反過來影響了AI能力的天花板。

作者 | 張經緯

編輯 | 邢昀

AI的發(fā)展正催生出這樣的圖景：在分工層次上，人來負責上層的“判斷和決策”、下層的“打標和整理”。而中間層的“分析和總結”，那些傳統(tǒng)由分析師、咨詢顧問和秘書完成的腦力勞動，正被各類AI工具填滿。

好消息是，上下兩層出現(xiàn)了一些新崗位。比如數(shù)據標注、數(shù)據構建和數(shù)據采集。這些崗位正以前所未有的速度涌入就業(yè)市場。脈脈報告顯示，2026年春招AI崗位量同比增長8.7倍。

數(shù)據采集與具身智能密切相關：采集員需要穿戴動捕設備，記錄觸覺、視覺、力學等多模態(tài)數(shù)據，幫助機器人學習抓取、行走、避障等動作。

數(shù)據構建則是對數(shù)據“去雜”的過程：公開數(shù)據或企業(yè)數(shù)據庫往往格式混亂、存在錯誤，需要人工進行篩選和整理。

數(shù)據標注則是AI產出內容的“裁判”，告訴大模型什么樣的輸出是“好的”，幫助AI形成學習正反饋，提升大模型輸出內容的質量。

這些新工作到底是長久趨勢，還是曇花一現(xiàn)；能成為“文科生的康莊大道”嗎，還只是“新一代天坑”？為此，《豹變》找到了一些從事相關工作的人，試圖還原AI催生的新崗位背后真實情況。

1、“數(shù)據做題家”的真實面貌

景璃在北京某互聯(lián)網大廠擔任數(shù)據標注的外包，工作是提升AI文創(chuàng)工具的輸出質量，她大學專業(yè)是戲劇影視文學。

景璃對《豹變》說：“我標注過的品類包括演講稿、小說、論文，現(xiàn)在做最多的是漫劇或者AI短劇的劇本。”

數(shù)據標注行業(yè)也有大量的非全職招聘。成都大學生文琪就找了一份數(shù)據標注的遠程兼職，內容是給英文的語音轉文字做標注。

她們的工作流程一般是這樣的：電腦上會顯示AI的幾個輸出結果，數(shù)據標注負責選一個最優(yōu)結果，由負責質檢的同事再判斷一次，負責人抽查一次，最后再由甲方檢查。根據這個最優(yōu)結果，AI能夠逐漸“理解”人類的評價標準，從而提升輸出質量。

景璃一些外包同事是數(shù)學或計算機背景，他們會承擔部分數(shù)據構建的工作，即爬取公開數(shù)據，依據特定的方式進行數(shù)據清洗、整理，最后用于大模型的標注和訓練。分工上，數(shù)據構建位于標注的上游。

行業(yè)內把構建和標注工作戲稱為“做題”，沒有這些“數(shù)據做題家”就沒有各類AI工具。

據國家數(shù)據發(fā)展研究院測算，2025年專業(yè)數(shù)據產品（含人工智能訓練的高質量數(shù)據集）產值規(guī)模超過2.3萬億元。

2025年3月，國家數(shù)據局數(shù)據顯示，成都、沈陽、合肥等七大數(shù)據標注基地帶動從業(yè)人員5.8萬人，相關產值超83億元。

市場很大，崗位薪水也各有不同。景璃與她的同事們每月能拿到12k到18k左右的固定薪水，少數(shù)人可以拿到額外獎金；文琪的兼職也能拿到每月接近10k的固定薪水。

但是，一線城市以外的地方，數(shù)據標注的薪水就沒這么可觀了。景璃談到，在一些北方省會城市，同等崗位工資大約是北京的一半。

一些小城市則更低，且人員流動性很大。“新員工下班等電梯都在刷BOSS直聘找工作。”某位身在小城市、剛剛入職的數(shù)據標注員這樣對《豹變》透露，他的首月薪水是1500元。

差異不光來自城市，也來自公司在行業(yè)的地位。在數(shù)據標注出現(xiàn)以前，景璃所在的公司就是業(yè)內知名的外包公司，客戶包括國內多家互聯(lián)網大廠。

這也決定了他們的招聘要求。景璃所在崗位要求有編劇、文學創(chuàng)作類經驗，校招生前幾年要求是本科，現(xiàn)在則要求985/211大學的文學類專業(yè)。文琪的兼職是英語類，要求英語專業(yè)八級，且成績至少要達到“良好”。

2、AI需要“裁判”“翻譯”和“保姆”

為什么AI需要這些工作？

因為AI缺乏實踐積累出來的判斷能力。目前，主流AI已經把互聯(lián)網上的公開信息學習完畢。但在各類細分行業(yè)，還存在著大量的“水下信息”：行業(yè)內部的隱性知識、經驗判斷，甚至市面上的二手消息也需要進行甄別，數(shù)據標注就是這樣一個幫助AI理解人類評價標準的“信息裁判”。

以法律領域為例，AI可以背誦所有法條，但面對一個具體案件的證據鏈分析，需要理解法官在特定地區(qū)的裁判傾向、了解某些證據在實踐中的采信概率，這些不會出現(xiàn)在裁判文書網上。

景璃所在的劇本賽道，AI在標注前的輸出質量很難讓人類滿意。“從戲劇創(chuàng)作的角度，AI生成的內容很多有明顯的問題，處理這些問題的標準是相對簡單、客觀的。有時候，AI給的幾個備選都不太好，甚至很難找到最優(yōu)的。”

如果說數(shù)據標注是信息裁判，那么具身智能的數(shù)據采集就是AI與物理世界之間的翻譯。現(xiàn)實世界存在海量物理信息，人和動物的神經系統(tǒng)可以自主適應，但機器人就必須靠人把真實情況如何“告訴”它。

此前有業(yè)內人士表示，大語言模型GPT-5訓練語料折合約100億小時，而全行業(yè)匯聚的高質量具身數(shù)據僅約50萬小時，差距以萬倍計。

數(shù)據采集的缺口大，也催生出資本熱度，目前行業(yè)里頭部的創(chuàng)業(yè)玩家，光輪智能和帕西尼感知估值均達到了百億級別。

帕西尼感知2025年在天津投產了全球最大具身智能數(shù)據采集工廠——Super EID Factory，部署超150個標準化采集單元，年產2億條高質量訓練數(shù)據；2026年又在江蘇宿遷、湖北武漢、四川自貢、江西贛州建4座超級工廠。

復雜的不光是物理世界，還有企業(yè)的數(shù)據庫。一位從事制造業(yè)的人士告訴《豹變》，個人和企業(yè)級AI Agent存在開發(fā)上的鴻溝，因為AI本質上是一個概率模型，難以完成企業(yè)里一些“精準且復雜”的工作，比如數(shù)據管理。

一位AI產品經理表示，“我們現(xiàn)在的數(shù)據管理智能體，正式運行前的數(shù)據清洗還是需要人工來完成。AI如果想要應用于傳統(tǒng)制造業(yè)，對數(shù)據質量的要求很高。”

原因在于，大部分制造業(yè)沒有使用統(tǒng)一格式的數(shù)據庫，不同部門使用不同的數(shù)據標準，同一組數(shù)據在不同的表格里有不同的字段名稱，數(shù)據中還存在大量冗余信息和錯誤。由于AI有一定概率出現(xiàn)幻覺，無法精準消化這些“臟數(shù)據”，必須經過清洗、對齊、補全。

這導致了AI工具要在企業(yè)跑通，需要有人做它的“保姆”。現(xiàn)在的企業(yè)級AI Agent，大多以整合服務方案應用于制造業(yè)，方案內容包括：數(shù)據線上化、數(shù)據清洗，最后才是AI Agent的具體應用。

3、人和AI各自的“煩惱”

不光是傳統(tǒng)制造業(yè)，AI大廠的管理者們也希望通過AI提高企業(yè)日常運行的效率。但現(xiàn)實是，企業(yè)管理層往往寄望于AI降本增效，卻低估了基層員工在決策中的作用。

一些大廠員工對《豹變》表示，企業(yè)強推AI，實際上增加了工作壓力，因為員工不得不為AI的工作產出“擦屁股”。員工被要求在AI輔助下完成更多任務，但AI輸出的結果又需要人工反復核對修正。

這也和一些公開的研究成果相吻合。

員工行為分析平臺ActivTrak跟蹤了2023-2025年超千家企業(yè)和4.43億小時的數(shù)字化工作行為數(shù)據，并得出結論：隨著AI落地職場，從業(yè)者的工作量并未減少，反而出現(xiàn)周末加班增多、工作碎片化加劇的情況。其中，員工的協(xié)作溝通時長增加34%，多任務處理時間增加了12%。

當然，這種壓力一般不會壓在數(shù)據外包的頭上。“每天10點上班7點下班，一天工作8到9小時，白天時不時也能休息。”景璃這樣對《豹變》說。

雖然覺得工作的性價比還可以，但景璃還是在考慮別的方向。“我的目標是去做短劇編劇，現(xiàn)在這份工作很機械，做久了對職業(yè)發(fā)展沒什么幫助。”她的大多數(shù)同事卻覺得，現(xiàn)在找個事少離家近的工作已經不容易了，抱著先做著的心態(tài)。

想法的不同可能和群體有關。景璃剛參加工作不久，她的同事們則大多超過30歲。在互聯(lián)網大廠，這已經是一個平均年齡相對較大的群體。

文琪也明確表示，做數(shù)據標注的兼職只是賺個外快，校招找工作是不會找數(shù)據標注的。文琪的兼職群里也大多是學生或其他需要賺快錢的各類人群。

這可能意味著，從事數(shù)據標注的人要面對長期的職業(yè)生涯瓶頸。

這種沒有行業(yè)資深人士參與、提升空間有限的狀況，也限制了AI的能力。一些頭部數(shù)據標注公司也試圖尋找專業(yè)人士，但整體上并不成功。一位資深律師向《豹變》透露，有數(shù)據標注公司找上過自己，但被他拒絕，因為開出的價碼太低。“就算你給我8000元一小時，我還要掂量下要不要冒失去飯碗的風險，何況只給200元一小時呢？”

越是需要做復雜判斷的領域，數(shù)據標注的成本越高，但很多標注企業(yè)又不愿意付出足夠高的溢價。結果是，這些領域的數(shù)據缺口長期存在，模型在垂直場景的表現(xiàn)也難以突破。

具身智能也面對類似的數(shù)據價格瓶頸，后果則是企業(yè)間的差距被拉大。真機遙控操作是行業(yè)公認質量最高的數(shù)據采集方案，單小時有效數(shù)據的成本可高達數(shù)千元，頭部機器人公司憑借資金優(yōu)勢擁有最豐富的真機數(shù)據積累。

但很多公司受限于資金規(guī)模，只能用頭部機器人公司的公開數(shù)據或仿真數(shù)據訓練自己的模型，但仿真數(shù)據與真實物理環(huán)境存在偏差，遷移到真機時往往出現(xiàn)“Sim2Real Gap”（仿真到現(xiàn)實的差距）。

長遠來看，數(shù)據成本總有隨著規(guī)模化而被攤薄的一天。但AI始終要面對“做錯了誰來負責”的問題。

責任背后，是法律與社會對“人格化主體”的認定。但AI不是法律主體，不能承擔民事責任。企業(yè)如果用AI替代專業(yè)人士完成這些工作，一旦出錯，責任鏈條會變得模糊不清。

這也是很多工作無法被AI取代的另一重原因。這些工作，既是AI發(fā)展的基石，也是AI局限性的證明。只要AI還在學習人類知識，只要物理世界還需要被“翻譯”成數(shù)字語言，只要社會還需要明確的責任主體，這些工作崗位就會繼續(xù)存在。

（應受訪者要求，文中均為化名）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.