字节跳动开源多模态生成模型BAGEL,重新定义视觉内容创作

字节跳动Seed团队近期宣布开源多模态理解和生成模型BAGEL,该模型支持文本、图像和视频的统一处理。BAGEL拥有70亿激活参数(总计140亿),经过大规模交错多模态数据训练,在多模态理解领域超越了Qwen2.5-VL和InternVL-2.5等顶级开源模型,同时在文本到图像生成质量上媲美专业生成器SD3。

BAGEL基于大语言模型训练,具备推理与对话能力,可处理混合输入并输出高质量图像、视频或图文内容。其长思维链COT模式允许模型先“思考”再生成,例如成功生成了一个穿着毛衣的鳄鱼玩偶。此外,BAGEL在图像编辑中展现出保留细节与捕捉复杂运动的能力,并能通过少量对齐数据实现风格迁移和场景转换。

更进一步,BAGEL具备世界建模基础能力,可完成世界导航、未来帧预测及3D世界生成等任务,同时支持多轮对话与复杂功能组合,为视觉内容创作开辟新路径。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1