![]()
「核心提示」
AI發(fā)展帶來數(shù)據標注、數(shù)據采集等新崗位,但職業(yè)瓶頸和薪資限制了這些崗位的人才流入,反過來影響了AI能力的天花板。
作者 | 張經緯
編輯 | 邢昀
AI的發(fā)展正催生出這樣的圖景:在分工層次上,人來負責上層的“判斷和決策”、下層的“打標和整理”。而中間層的“分析和總結”,那些傳統(tǒng)由分析師、咨詢顧問和秘書完成的腦力勞動,正被各類AI工具填滿。
好消息是,上下兩層出現(xiàn)了一些新崗位。比如數(shù)據標注、數(shù)據構建和數(shù)據采集。這些崗位正以前所未有的速度涌入就業(yè)市場。脈脈報告顯示,2026年春招AI崗位量同比增長8.7倍。
數(shù)據采集與具身智能密切相關:采集員需要穿戴動捕設備,記錄觸覺、視覺、力學等多模態(tài)數(shù)據,幫助機器人學習抓取、行走、避障等動作。
數(shù)據構建則是對數(shù)據“去雜”的過程:公開數(shù)據或企業(yè)數(shù)據庫往往格式混亂、存在錯誤,需要人工進行篩選和整理。
數(shù)據標注則是AI產出內容的“裁判”,告訴大模型什么樣的輸出是“好的”,幫助AI形成學習正反饋,提升大模型輸出內容的質量。
這些新工作到底是長久趨勢,還是曇花一現(xiàn);能成為“文科生的康莊大道”嗎,還只是“新一代天坑”?為此,《豹變》找到了一些從事相關工作的人,試圖還原AI催生的新崗位背后真實情況。
1、“數(shù)據做題家”的真實面貌
景璃在北京某互聯(lián)網大廠擔任數(shù)據標注的外包,工作是提升AI文創(chuàng)工具的輸出質量,她大學專業(yè)是戲劇影視文學。
景璃對《豹變》說:“我標注過的品類包括演講稿、小說、論文,現(xiàn)在做最多的是漫劇或者AI短劇的劇本。”
數(shù)據標注行業(yè)也有大量的非全職招聘。成都大學生文琪就找了一份數(shù)據標注的遠程兼職,內容是給英文的語音轉文字做標注。
她們的工作流程一般是這樣的:電腦上會顯示AI的幾個輸出結果,數(shù)據標注負責選一個最優(yōu)結果,由負責質檢的同事再判斷一次,負責人抽查一次,最后再由甲方檢查。根據這個最優(yōu)結果,AI能夠逐漸“理解”人類的評價標準,從而提升輸出質量。
景璃一些外包同事是數(shù)學或計算機背景,他們會承擔部分數(shù)據構建的工作,即爬取公開數(shù)據,依據特定的方式進行數(shù)據清洗、整理,最后用于大模型的標注和訓練。分工上,數(shù)據構建位于標注的上游。
行業(yè)內把構建和標注工作戲稱為“做題”,沒有這些“數(shù)據做題家”就沒有各類AI工具。
據國家數(shù)據發(fā)展研究院測算,2025年專業(yè)數(shù)據產品(含人工智能訓練的高質量數(shù)據集)產值規(guī)模超過2.3萬億元。
2025年3月,國家數(shù)據局數(shù)據顯示,成都、沈陽、合肥等七大數(shù)據標注基地帶動從業(yè)人員5.8萬人,相關產值超83億元。
市場很大,崗位薪水也各有不同。景璃與她的同事們每月能拿到12k到18k左右的固定薪水,少數(shù)人可以拿到額外獎金;文琪的兼職也能拿到每月接近10k的固定薪水。
但是,一線城市以外的地方,數(shù)據標注的薪水就沒這么可觀了。景璃談到,在一些北方省會城市,同等崗位工資大約是北京的一半。
一些小城市則更低,且人員流動性很大。“新員工下班等電梯都在刷BOSS直聘找工作。”某位身在小城市、剛剛入職的數(shù)據標注員這樣對《豹變》透露,他的首月薪水是1500元。
差異不光來自城市,也來自公司在行業(yè)的地位。在數(shù)據標注出現(xiàn)以前,景璃所在的公司就是業(yè)內知名的外包公司,客戶包括國內多家互聯(lián)網大廠。
這也決定了他們的招聘要求。景璃所在崗位要求有編劇、文學創(chuàng)作類經驗,校招生前幾年要求是本科,現(xiàn)在則要求985/211大學的文學類專業(yè)。文琪的兼職是英語類,要求英語專業(yè)八級,且成績至少要達到“良好”。
2、AI需要“裁判”“翻譯”和“保姆”
為什么AI需要這些工作?
因為AI缺乏實踐積累出來的判斷能力。目前,主流AI已經把互聯(lián)網上的公開信息學習完畢。但在各類細分行業(yè),還存在著大量的“水下信息”:行業(yè)內部的隱性知識、經驗判斷,甚至市面上的二手消息也需要進行甄別,數(shù)據標注就是這樣一個幫助AI理解人類評價標準的“信息裁判”。
以法律領域為例,AI可以背誦所有法條,但面對一個具體案件的證據鏈分析,需要理解法官在特定地區(qū)的裁判傾向、了解某些證據在實踐中的采信概率,這些不會出現(xiàn)在裁判文書網上。
景璃所在的劇本賽道,AI在標注前的輸出質量很難讓人類滿意。“從戲劇創(chuàng)作的角度,AI生成的內容很多有明顯的問題,處理這些問題的標準是相對簡單、客觀的。有時候,AI給的幾個備選都不太好,甚至很難找到最優(yōu)的。”
如果說數(shù)據標注是信息裁判,那么具身智能的數(shù)據采集就是AI與物理世界之間的翻譯。現(xiàn)實世界存在海量物理信息,人和動物的神經系統(tǒng)可以自主適應,但機器人就必須靠人把真實情況如何“告訴”它。
此前有業(yè)內人士表示,大語言模型GPT-5訓練語料折合約100億小時,而全行業(yè)匯聚的高質量具身數(shù)據僅約50萬小時,差距以萬倍計。
數(shù)據采集的缺口大,也催生出資本熱度,目前行業(yè)里頭部的創(chuàng)業(yè)玩家,光輪智能和帕西尼感知估值均達到了百億級別。
帕西尼感知2025年在天津投產了全球最大具身智能數(shù)據采集工廠——Super EID Factory,部署超150個標準化采集單元,年產2億條高質量訓練數(shù)據;2026年又在江蘇宿遷、湖北武漢、四川自貢、江西贛州建4座超級工廠。
復雜的不光是物理世界,還有企業(yè)的數(shù)據庫。一位從事制造業(yè)的人士告訴《豹變》,個人和企業(yè)級AI Agent存在開發(fā)上的鴻溝,因為AI本質上是一個概率模型,難以完成企業(yè)里一些“精準且復雜”的工作,比如數(shù)據管理。
一位AI產品經理表示,“我們現(xiàn)在的數(shù)據管理智能體,正式運行前的數(shù)據清洗還是需要人工來完成。AI如果想要應用于傳統(tǒng)制造業(yè),對數(shù)據質量的要求很高。”
原因在于,大部分制造業(yè)沒有使用統(tǒng)一格式的數(shù)據庫,不同部門使用不同的數(shù)據標準,同一組數(shù)據在不同的表格里有不同的字段名稱,數(shù)據中還存在大量冗余信息和錯誤。由于AI有一定概率出現(xiàn)幻覺,無法精準消化這些“臟數(shù)據”,必須經過清洗、對齊、補全。
這導致了AI工具要在企業(yè)跑通,需要有人做它的“保姆”。現(xiàn)在的企業(yè)級AI Agent,大多以整合服務方案應用于制造業(yè),方案內容包括:數(shù)據線上化、數(shù)據清洗,最后才是AI Agent的具體應用。
3、人和AI各自的“煩惱”
不光是傳統(tǒng)制造業(yè),AI大廠的管理者們也希望通過AI提高企業(yè)日常運行的效率。但現(xiàn)實是,企業(yè)管理層往往寄望于AI降本增效,卻低估了基層員工在決策中的作用。
一些大廠員工對《豹變》表示,企業(yè)強推AI,實際上增加了工作壓力,因為員工不得不為AI的工作產出“擦屁股”。員工被要求在AI輔助下完成更多任務,但AI輸出的結果又需要人工反復核對修正。
這也和一些公開的研究成果相吻合。
員工行為分析平臺ActivTrak跟蹤了2023-2025年超千家企業(yè)和4.43億小時的數(shù)字化工作行為數(shù)據,并得出結論:隨著AI落地職場,從業(yè)者的工作量并未減少,反而出現(xiàn)周末加班增多、工作碎片化加劇的情況。其中,員工的協(xié)作溝通時長增加34%,多任務處理時間增加了12%。
當然,這種壓力一般不會壓在數(shù)據外包的頭上。“每天10點上班7點下班,一天工作8到9小時,白天時不時也能休息。”景璃這樣對《豹變》說。
雖然覺得工作的性價比還可以,但景璃還是在考慮別的方向。“我的目標是去做短劇編劇,現(xiàn)在這份工作很機械,做久了對職業(yè)發(fā)展沒什么幫助。”她的大多數(shù)同事卻覺得,現(xiàn)在找個事少離家近的工作已經不容易了,抱著先做著的心態(tài)。
想法的不同可能和群體有關。景璃剛參加工作不久,她的同事們則大多超過30歲。在互聯(lián)網大廠,這已經是一個平均年齡相對較大的群體。
文琪也明確表示,做數(shù)據標注的兼職只是賺個外快,校招找工作是不會找數(shù)據標注的。文琪的兼職群里也大多是學生或其他需要賺快錢的各類人群。
這可能意味著,從事數(shù)據標注的人要面對長期的職業(yè)生涯瓶頸。
這種沒有行業(yè)資深人士參與、提升空間有限的狀況,也限制了AI的能力。一些頭部數(shù)據標注公司也試圖尋找專業(yè)人士,但整體上并不成功。一位資深律師向《豹變》透露,有數(shù)據標注公司找上過自己,但被他拒絕,因為開出的價碼太低。“就算你給我8000元一小時,我還要掂量下要不要冒失去飯碗的風險,何況只給200元一小時呢?”
越是需要做復雜判斷的領域,數(shù)據標注的成本越高,但很多標注企業(yè)又不愿意付出足夠高的溢價。結果是,這些領域的數(shù)據缺口長期存在,模型在垂直場景的表現(xiàn)也難以突破。
具身智能也面對類似的數(shù)據價格瓶頸,后果則是企業(yè)間的差距被拉大。真機遙控操作是行業(yè)公認質量最高的數(shù)據采集方案,單小時有效數(shù)據的成本可高達數(shù)千元,頭部機器人公司憑借資金優(yōu)勢擁有最豐富的真機數(shù)據積累。
但很多公司受限于資金規(guī)模,只能用頭部機器人公司的公開數(shù)據或仿真數(shù)據訓練自己的模型,但仿真數(shù)據與真實物理環(huán)境存在偏差,遷移到真機時往往出現(xiàn)“Sim2Real Gap”(仿真到現(xiàn)實的差距)。
長遠來看,數(shù)據成本總有隨著規(guī)模化而被攤薄的一天。但AI始終要面對“做錯了誰來負責”的問題。
責任背后,是法律與社會對“人格化主體”的認定。但AI不是法律主體,不能承擔民事責任。企業(yè)如果用AI替代專業(yè)人士完成這些工作,一旦出錯,責任鏈條會變得模糊不清。
這也是很多工作無法被AI取代的另一重原因。這些工作,既是AI發(fā)展的基石,也是AI局限性的證明。只要AI還在學習人類知識,只要物理世界還需要被“翻譯”成數(shù)字語言,只要社會還需要明確的責任主體,這些工作崗位就會繼續(xù)存在。
(應受訪者要求,文中均為化名)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.