蚂蚁集团于2026年2月11日正式开源发布全模态大模型Ming-Flash-Omni 2.0。该模型在视觉理解、语音生成及图像编辑等关键能力的多项公开测试中表现突出。
Ming-Flash-Omni 2.0是业界首个全场景音频统一生成模型,支持依据自然语言指令,在同一条音轨中同步生成语音、环境音效与背景音乐,并可精细调节音色、语速、方言及情绪等参数。
在视觉与图像能力方面,模型提升了对复杂细微物体的识别精度;图像编辑功能更趋稳定,支持光影调整、场景替换等复杂操作,并能在动态修改过程中保持画面连贯性。
目前,模型权重与训练代码已在主流开源社区发布,用户亦可通过蚂蚁集团官方平台在线体验该模型。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



