天眼查App显示,2025年5月13日,「一种基于智能计算中心算力的数据集版本管理方法及装置」正式进入专利公布阶段。申请人为北京九章云极科技有限公司,该项计算专利涉及大模型训练场景下的数据集版本管理技术。据专利信息显示,该方法能够显著优化智能计算中心的数据集版本管理能力,有效支持大模型的训练。发明人为吴兵、缪旭、胡振。
本发明提供了一种基于智能计算中心算力的数据集版本管理方法及装置,包括:在数据库中创建数据集表格,获取训练数据集,将其分成多个分块,并保存为多个parquet文件且存入对象存储服务中,同时将其所在路径保存至file字段,并创建数据集版本管理表格以记录训练数据集的当前版本号;对训练数据集中的数据进行修改后重新分块并保存为新的parquet文件存入对象存储服务中,确定其所在路径后更新数据集表格中的file字段;执行提交操作,在数据集版本管理表格中增加新的版本号记录。由此实现灵活调用所需数据集,提升大模型训练效率。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。