AI发展正推动劳动力结构分层:上层为人类负责判断与决策,下层为人类执行数据采集、标注与构建,中间层的分析与总结则逐步由AI工具承担。
数据采集与具身智能深度关联,采集员需穿戴动捕设备,记录触觉、视觉、力学等多模态数据,支撑机器人学习抓取、行走、避障等动作;数据构建是对混乱公开数据或企业数据库进行清洗、格式统一与错误修正;数据标注则作为AI内容产出的‘裁判’,通过人工筛选最优输出,建立人类评价标准反馈机制,提升大模型质量。
国家数据发展研究院测算,2025年专业数据产品产值超2.3万亿元;2025年3月国家数据局数据显示,成都、沈阳、合肥等七大数据标注基地带动从业人员5.8万人,相关产值达83亿元。
岗位薪酬呈现显著地域差异:北京互联网大厂外包数据标注员月薪为12k至18k,部分含奖金;成都大学生远程英语语音转文字标注兼职月薪近10k;而北方部分省会城市同等岗位薪资约为北京一半;小城市首月薪资低至1500元,人员流动性极高。
招聘门槛亦呈分化:头部外包公司要求编剧、文学创作经验,校招已提升至985/211高校文学类专业;英语类兼职明确要求专八且成绩‘良好’以上。
AI依赖人工角色源于其缺乏行业隐性知识与实践判断能力。以法律领域为例,AI可背诵法条,但难以理解特定地区法官裁判倾向或证据采信概率;在剧本生成赛道,AI初始输出常存在明显戏剧性缺陷,标注标准虽相对客观,但常面临多个备选均不理想的情形。
具身智能数据缺口巨大:GPT-5训练语料折合约100亿小时,全行业高质量具身数据仅约50万小时,差距达万倍。头部创业公司光轮智能与帕西尼感知估值均已破百亿。帕西尼感知2025年在天津投产全球最大具身智能数据采集工厂Super EID Factory,部署超150个标准化单元,年产2亿条高质量数据;2026年又于江苏宿迁、湖北武汉、四川自贡、江西赣州新建4座超级工厂。
制造业等传统行业数据环境复杂:各部门数据库格式不一、字段命名混乱、冗余与错误频发,AI因概率模型特性及幻觉风险无法直接处理‘脏数据’,必须依赖人工完成清洗、对齐与补全,使数据管理智能体落地前需配套‘数据线上化—清洗—应用’完整服务链。
AI落地未普遍减负:ActivTrak平台跟踪2023—2025年超千家企业、4.43亿小时数字化工作行为发现,AI应用后员工协作沟通时长增34%,多任务处理时间增12%,周末加班增多、工作碎片化加剧。部分大厂员工反映需为AI输出反复核验修正,实际负担加重。
从业者职业预期分化明显:北京从业者景璃(戏剧影视文学专业)视当前工作为短期过渡,目标转向短剧编剧;多数30岁以上同事则持‘先做着’心态;成都兼职学生文琪明确认为该岗位仅为外快,校招绝不会投递。行业整体缺乏资深从业者参与,职业晋升路径模糊。
高阶领域标注成本高昂但供给不足:某资深律师拒绝数据标注邀约,因其报价200元/小时远低于其风险与专业价值权衡底线;复杂判断场景的数据缺口长期存在,制约垂直领域模型性能突破。具身智能亦受限于数据价格瓶颈:真机遥控采集单小时有效数据成本可达数千元,资金优势企业形成数据壁垒;中小厂商依赖公开或仿真数据,面临Sim2Real Gap问题。
责任归属构成AI应用深层障碍:AI非法律主体,无法承担民事责任;企业若以AI替代专业人士作业,出错后责任链条模糊。只要AI仍需学习人类知识、物理世界仍需被翻译为数字语言、社会仍要求明确责任主体,数据采集、构建与标注等人工岗位将持续存在。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



