Hugging Face 近日发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 被誉为全球最小的视觉语言模型。这两款模型基于去年训练的 80B 参数模型蒸馏而成,在性能与资源需求之间实现了平衡。
SmolVLM-256M 和 SmolVLM-500M 均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。SmolVLM-256M 特别适合移动平台,仅需不到 1GB 的 GPU 显存即可处理单张图片推理,功能涵盖描述图片内容、生成短视频字幕及处理 PDF 等。而 SmolVLM-500M 则针对高性能场景设计,适用于企业环境,推理单张图片仅需 1.23GB GPU 显存,输出更为精准。
两款模型均采用 Apache 2.0 开源授权,并提供基于 transformer 和 WebGUI 的示例程序,便于开发者下载和使用。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。