邬贺铨:AI驱动数实融合 数据要素成关键

2025年中国国际信息通信展览会开幕式在北京举行,中国工程院院士邬贺铨在主论坛上发表《开发数据要素推进数实融合》主旨演讲。

邬贺铨指出,当前进入智能体时代,AI是数实融合发展新阶段的最大变量,上云是支撑数实融合的关键,而数据要素的发挥程度决定融合成效。

数据显示,72%的企业因权属不清拒绝数据共享;数据资产评估误差超±300%;跨省政务数据调用平均耗时17天。企业80%依赖自身数据,生产数据中仅2.9%被存储,其中40%在一年内未被有效利用。

企业对数据要素开发存在“三不”困境:不会用,需专业技术支持;不敢用,涉及隐私与安全风险;不愿用,投入产出比不确定,回报周期长,麦肯锡预计平均超5年。

破解难题需技术、制度与生态协同,从完善数据全生命周期开发与安全技术及服务入手,依托数字网络、算力、数据流通利用和数据安全四大基础设施,实现数据预处理、资源调用与可信计算。

数据预处理包括生成、采集、存储、标识、编目、索引、清洗和标注等环节。采集可通过API、爬虫、传感器实现,但传感成本高,中文开源语料不足,高质量语料预计2026年枯竭,AI生成数据成为趋势,需标记以区分原生数据并保留一定比例原生数据。

存储需统一标准格式以便结构化调用。标识方面,网络层用IPv6,应用层用OID和UUID,行业标准各异,如金融SWIFT、医疗HL7,需定义语义;身份证号、手机号等直接使用易致隐私泄露,应采用哈希或UUID替代。

编目与索引通过分类(结构化/半结构化、存储模式、敏感度、来源、生成方式、使用频度、流规模、任务类型、预处理等)和索引规则提升检索效率。

清洗需去重、补漏、逻辑校验,并进行脱敏与匿名化,避免过度清洗或恶意保留错误。数据标注需添加机器可读标签,当前多依赖人力外包,存在外泄与恶意代码注入风险。

数据资源调用前需对接入方认证,除源宿IP认证外,还需属性基访问控制增强安全性。

调用时企业应明确需求如财务分析、生产监控,选择云服务商完成预处理;第三方数据调用需签名验证、PKI认证,可用区块链确权,通过联邦学习实现“可用不可见”,严格审核服务商资质,防范配置错误与内部威胁。

数据开发可借助集成、建模、工作流调度与治理工具链提升效率,防范凭证泄露。模型与算力调用需评估适用性,容器化快速部署,按任务调度算力资源,落实角色访问控制与安全审批流程,遵守《数据安全法》和《个人信息保护法》。

可信计算通过可信环境、隐私保护、存证与审计技术构建可信数据空间,作为连接多方主体、实现资源共享的基础设施。

邬贺铨介绍,可信数据空间具备安全加密计算、数据源与身份认证、资源目录管理、格式协议转换、敏感数据过滤与去标识化、算力调用与挖掘工具链、可信计算平台与合规管理功能,支持联邦学习与隐私计算,有效应对“三不”难题。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1