字节跳动豆包大模型团队近日宣布开源一项名为COMET的关键优化技术,该技术针对MoE(混合专家模型)架构,能够将大模型训练效率提升1.7倍,并节省40%的成本。COMET技术已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。
此前,豆包团队发布了新一代稀疏架构UltraMem,成功将模型推理成本降低了83%。此次开源的COMET技术则进一步针对模型训练成本进行优化。目前,COMET的核心代码已开源,并计划兼容Triton等编译生态,为更多开发者提供支持。
字节跳动豆包大模型团队近日宣布开源一项名为COMET的关键优化技术,该技术针对MoE(混合专家模型)架构,能够将大模型训练效率提升1.7倍,并节省40%的成本。COMET技术已在字节跳动的万卡集群训练中得到实际应用,累计节省了数百万GPU小时的训练算力。
此前,豆包团队发布了新一代稀疏架构UltraMem,成功将模型推理成本降低了83%。此次开源的COMET技术则进一步针对模型训练成本进行优化。目前,COMET的核心代码已开源,并计划兼容Triton等编译生态,为更多开发者提供支持。