专家:数据与AI双引擎驱动智能未来发展

可供大模型训练的人类数据日益减少,ScalingLaw逐渐失效,智能上限亟待突破。9月12日,在2025Inclusion·外滩大会“DatameetsAI:智能时代的双引擎”见解论坛上,产学界多位专家指出,数据驱动AI发展,同时AI也推动数据进化,双引擎融合驱动将成为未来演进方向。

当前,数据与AI协同发展的最新成果,为智能时代数据基础设施建设提供了实践路径。与会专家表示,唯有实现数据与AI深度融合,建立完善的数据标准体系和质量评估框架,才能释放智能技术潜力,推动智能时代向更高层次发展。

复旦大学教授肖仰华指出,大模型发展面临“数据墙”困境,无标签语料对模型性能提升的贡献减弱,更大规模数据带来的性能提升与训练开销相比性价比降低。他认为,大模型数据科学应从专家经验阶段发展到量化科学和自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱数据中提取关键成分”。

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践。实验表明,从100亿个token的财经语料中筛选20%高质量数据进行训练,相比全量数据在领域问答任务上的准确率提升1.7%。

上海交通大学特聘教授翟广涛强调,精炼数据和合成数据应质量优先,数据质量分析需从“体验质量”入手,兼顾人和机器的体验,从而在数据为中心的范式下提升大模型性能。

海天瑞声CEO李科从产业角度分享全球AI数据行业发展趋势。他认为,数据产业正从劳动密集型向技术密集型和知识密集型转型。通过动捕数据、自动驾驶标注、思维链数据集等案例,展示了高质量数据如何服务千行百业。

上海库帕思科技董事长山栋明表示,模型之变引发“数据质变”。他指出,高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

作为第二引擎,AI技术正在深刻改变数据处理和利用方式。光轮智能总裁杨海波表示,具身智能所需数据量是大语言模型和自动驾驶的上千倍,合成数据是实现其ScalingLaw的重要基础,必须满足真实物理交互、人在环示范、场景丰富和数据闭环验证四个条件。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代RL训练法则应从“对与错”转向“好与更好”。他提出的Rubric即Reward新机制,使用5k数据和1万条评分标准构建高效RL回路,摆脱对海量SFT数据的依赖,实现品味对齐。

LanceDBCTO徐磊分享了开源多模态数据湖的创新实践。他介绍,新设计的Lance格式具备零拷贝数据演化和高效点查两大特性。RunwayML将PB级视频数据导入Lance后,能够像使用SQL一样管理数据,实现30多位AI工程师在同一个主表上并行进行特征工程迭代。

NVIDIA互联网解决方案架构高级总监陈川介绍了驱动生成式AI的高效数据处理创新,分享了从文本到多模态的GPU加速解决方案。

谈及DataInfra如何重构及行业机遇,专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决现有问题,再定义则是着眼于未来,应对可能面临的新挑战。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1