国家数据局推进行业高质量数据集建设,构建词元可定价数据价值体系

6月8日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,提出到2028年底建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造数据驱动人工智能创新发展的典型应用场景,培育创新型数据企业和专业人才,形成建设工具与标准体系。《实施方案》明确探索词元交易等新型交易模式,构建以词元为基础、可量化、可定价的数据价值体系。

行业高质量数据集指经采集、加工处理后可直接用于人工智能模型开发与训练,并有效提升模型性能的行业数据集合,涵盖行业通识与专识数据集,是支撑“人工智能+”赋能千行百业的基础性、关键性资源。《实施方案》围绕供给、流通、应用环节部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,推动形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的“数据飞轮”,加快构建数据要素与人工智能协同演进的共生生态。

《实施方案》聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源、社会信用等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快建设行业高质量数据集。持续推进文本、代码、图像、音频、视频、点云、时序数据、科学数据等多模态高质量数据集建设,覆盖人工智能预训练、指令微调、强化学习、测评等各阶段。

数据标注被定位为知识和经验注入训练数据的关键环节。《实施方案》引导其从“以人为主”向“人机协同、专家深度参与”的多层次模式转变,推动专业化、智能化跃升;加强自动化标注工具与平台研发,发展“模型预标注+人工校准”“人工标注+模型检验”“模型预标注+模型检验”等服务形态;建立行业专家认证机制,支持专家参与指令微调、强化学习等阶段的专业知识标注,提升数据集知识密度与专业价值。

首批七个承担数据标注先行先试任务的城市将被指导做强做深产业;梯次布局数据标注创新试验区,促进产业链上下游协同与产业集聚;培育标注龙头企业、独角兽企业及瞪羚企业。支持高校增设相关课程,依托产教融合、校企协同培养专业人才;开展职业技能等级认定,强化继续教育与在职培训;完善分层分类人才评价体系,建设专职与兼职结合的标注人才队伍;鼓励高校毕业生通过灵活就业、项目协作等方式参与标注工作。

在价值释放行动中,《实施方案》强调推动数据集商业化、资产化,培育“为数据付费”市场共识,探索以词元为基础的价值体系;鼓励数据集在数据交易所(中心)挂牌交易,发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式由基础数据包销售向API调用、模型化解决方案及全栈服务跃升。同时引导金融机构、耐心资本、产业基金加大投资力度,鼓励地方设立专项资金,探索多元化投入机制;依法依规开展创新探索;完善监测指标与成效评估机制;落实数据安全法律法规,建立全流程安全治理机制,防范数据投毒、污染与泄露风险。

截至2026年3月底,全国已建成高质量数据集超11.6万个,总体量逾960PB,相当于中国国家图书馆数字资源总量的336倍左右。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号