AI催生数据标注等新岗位，从业者面临职业瓶颈与地域薪酬分化- DoNews

AI发展正推动劳动力结构分层：上层为人类负责判断与决策，下层为人类执行数据采集、标注与构建，中间层的分析与总结则逐步由AI工具承担。

数据采集与具身智能深度关联，采集员需穿戴动捕设备，记录触觉、视觉、力学等多模态数据，支撑机器人学习抓取、行走、避障等动作；数据构建是对混乱公开数据或企业数据库进行清洗、格式统一与错误修正；数据标注则作为AI内容产出的‘裁判’，通过人工筛选最优输出，建立人类评价标准反馈机制，提升大模型质量。

国家数据发展研究院测算，2025年专业数据产品产值超2.3万亿元；2025年3月国家数据局数据显示，成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人，相关产值达83亿元。

岗位薪酬呈现显著地域差异：北京互联网大厂外包数据标注员月薪为12k至18k，部分含奖金；成都大学生远程英语语音转文字标注兼职月薪近10k；而北方部分省会城市同等岗位薪资约为北京一半；小城市首月薪资低至1500元，人员流动性极高。

招聘门槛亦呈分化：头部外包公司要求编剧、文学创作经验，校招已提升至985/211高校文学类专业；英语类兼职明确要求专八且成绩‘良好’以上。

AI依赖人工角色源于其缺乏行业隐性知识与实践判断能力。以法律领域为例，AI可背诵法条，但难以理解特定地区法官裁判倾向或证据采信概率；在剧本生成赛道，AI初始输出常存在明显戏剧性缺陷，标注标准虽相对客观，但常面临多个备选均不理想的情形。

具身智能数据缺口巨大：GPT-5训练语料折合约100亿小时，全行业高质量具身数据仅约50万小时，差距达万倍。头部创业公司光轮智能与帕西尼感知估值均已破百亿。帕西尼感知2025年在天津投产全球最大具身智能数据采集工厂Super EID Factory，部署超150个标准化单元，年产2亿条高质量数据；2026年又于江苏宿迁、湖北武汉、四川自贡、江西赣州新建4座超级工厂。

制造业等传统行业数据环境复杂：各部门数据库格式不一、字段命名混乱、冗余与错误频发，AI因概率模型特性及幻觉风险无法直接处理‘脏数据’，必须依赖人工完成清洗、对齐与补全，使数据管理智能体落地前需配套‘数据线上化—清洗—应用’完整服务链。

AI落地未普遍减负：ActivTrak平台跟踪2023—2025年超千家企业、4.43亿小时数字化工作行为发现，AI应用后员工协作沟通时长增34%，多任务处理时间增12%，周末加班增多、工作碎片化加剧。部分大厂员工反映需为AI输出反复核验修正，实际负担加重。

从业者职业预期分化明显：北京从业者景璃（戏剧影视文学专业）视当前工作为短期过渡，目标转向短剧编剧；多数30岁以上同事则持‘先做着’心态；成都兼职学生文琪明确认为该岗位仅为外快，校招绝不会投递。行业整体缺乏资深从业者参与，职业晋升路径模糊。

高阶领域标注成本高昂但供给不足：某资深律师拒绝数据标注邀约，因其报价200元/小时远低于其风险与专业价值权衡底线；复杂判断场景的数据缺口长期存在，制约垂直领域模型性能突破。具身智能亦受限于数据价格瓶颈：真机遥控采集单小时有效数据成本可达数千元，资金优势企业形成数据壁垒；中小厂商依赖公开或仿真数据，面临Sim2Real Gap问题。

责任归属构成AI应用深层障碍：AI非法律主体，无法承担民事责任；企业若以AI替代专业人士作业，出错后责任链条模糊。只要AI仍需学习人类知识、物理世界仍需被翻译为数字语言、社会仍要求明确责任主体，数据采集、构建与标注等人工岗位将持续存在。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。