苹果公司正在研发名为Manzano的新型图像模型,该模型创新性地采用混合图像分词器架构,同时具备图像理解与生成能力。研究团队通过共享编码器输出连续标记和离散标记,有效解决了传统模型在两类任务间的冲突问题。
目前Manzano已开发三个参数版本,最高支持2048像素分辨率。在ScienceQA等基准测试中,300亿参数版本在文字密集型任务表现突出,图像生成质量接近行业前列。该模型采用三阶段训练流程,处理了1.6万亿标记的图文数据。
尽管苹果基础模型整体仍落后于行业领先者,但Manzano的模块化设计为多模态AI发展提供了新思路。技术团队表示,这一突破有望减少对外部模型的依赖,但实际效果需待后续版本验证。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。