2026年1月15日,苹果发表研究论文,介绍新型多模态模型Manzano。该模型融合视觉理解与文本生成图像功能,采用创新三段式架构,通过混合视觉分词器、大语言模型和扩散解码器协同工作,解决传统模型在图像理解与生成间的任务冲突。测试显示,其在3亿至300亿参数规模下均表现优异,能准确处理复杂指令如“鸟在大象下方飞翔”。尽管目前仍处研究阶段,未来有望集成至“图乐园 Image Playground”等功能,提升苹果端侧AI能力。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
2026年1月15日,苹果发表研究论文,介绍新型多模态模型Manzano。该模型融合视觉理解与文本生成图像功能,采用创新三段式架构,通过混合视觉分词器、大语言模型和扩散解码器协同工作,解决传统模型在图像理解与生成间的任务冲突。测试显示,其在3亿至300亿参数规模下均表现优异,能准确处理复杂指令如“鸟在大象下方飞翔”。尽管目前仍处研究阶段,未来有望集成至“图乐园 Image Playground”等功能,提升苹果端侧AI能力。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。