天眼查App显示,中国联合网络通信集团有限公司和联通数字科技有限公司近日公开了一项发明专利,涉及预训练数据的高效去重处理。该专利提出了一种通过并行处理策略提高预训练数据去重效率的方法。具体而言,该方法首先根据预训练数据集获取多个待处理的数据,然后根据数据总量确定并行处理进程数,并将数据划分为多个批次。每个处理进程负责一个数据批次的双重去重处理,最终汇总所有处理后的目标数据,形成去重后的目标数据集。此方法显著提升了预训练数据的处理速度和效率,适用于大规模数据处理场景。发明人黄贝贝表示,这一技术成果有望在人工智能领域发挥重要作用,推动预训练模型的发展。
风险警告:本文根据网络内容由AI生成,内容仅供参考,不应作为专业建议或决策依据。用户应自行判断和验证信息的准确性和可靠性,本站不承担可能产生的任何风险和责任。内容如有问题,可联系本站删除。