字节跳动 Seed 团队发布并开源了全模态 PyTorch 原生训练框架 VeOmni,旨在提升大模型多模态训练效率。
当前大模型技术正从单一文本模态向包含图像、语音、视频等多信息的“全模态”理解生成方向发展,但训练全能模型仍面临系统性工程挑战。VeOmni 采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,使研究人员可灵活配置高效的并行训练策略,从而大幅降低工程开销。
该框架支持研究员快速构建模型,以往使用 Megatron-LM 等以系统为中心的框架训练视觉-语言模型,工程研发通常需要一周以上,并需更长时间完成分布式优化和精度对齐。而使用 VeOmni,仅需一天即可完成模型代码构建并启动训练任务,工程耗时压缩超过 90%。
实验数据显示,基于 VeOmni 的 300 亿参数全模态 MoE 模型,在 128 张 GPU 卡上训练吞吐量超过 2800 tokens/sec/GPU,且可扩展至 160K 超长上下文序列。
目前,VeOmni 的论文和代码已在 arXiv 和 GitHub 公开,GitHub 仓库 Star 数已超过 500。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。