Hugging Face 平台于1月23日宣布推出 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 两款轻量级 AI 模型,旨在在算力有限的设备上最大限度地发挥性能。SmolVLM-256M-Instruct 拥有仅2.56亿参数,是有史以来最小的视觉语言模型,可在内存低于1GB的PC上运行,提供卓越性能输出。而 SmolVLM-500M-Instruct 则拥有5亿参数,专为硬件资源受限的环境设计,帮助开发者应对大规模数据分析挑战。
这两款模型具备先进的多模态能力,能够执行图像描述、短视频分析及回答关于PDF或科学图表的问题等任务。它们依赖于两个专有数据集:The Cauldron 和 Docmatix,前者包含高质量的图像和文本数据集,后者则专注于文档理解。通过优化图像标记处理方式,新模型提高了复杂数据处理能力,并以每个标记4096像素的速度对图像编码,显著优于早期版本。
SmolVLM 的推出标志着AI技术在低资源环境下的重大突破,为更多应用场景提供了高效解决方案。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。