阿里通义今日宣布Qwen3-VL系列新增Dense架构的Qwen3-VL-8B和Qwen3-VL-4B模型,已正式开源上线。
Qwen3-VL-4B与Qwen3-VL-8B为密集型视觉理解模型,显存占用更低,具备Qwen3-VL全系列能力,各尺寸均提供Instruct和Thinking两个版本。
Qwen3-VL-8B在STEM、VQA、OCR、视频理解及Agent任务等多项公开评测中表现突出,性能超越Gemini 2.5 Flash Lite与GPT-5 Nano,接近Qwen2.5-VL-72B这一上一代超大规模模型。
Qwen3-VL-4B则侧重端侧应用,具备更高性价比,适用于需AI视觉理解能力的智能终端部署。
此次新模型实现“视觉精准”与“文本稳健”的协同提升,解决了小模型常存在的能力“跷跷板”问题——即增强视觉能力时往往削弱文本理解,反之亦然。通过架构创新与技术优化,新模型在强化多模态感知与视觉理解的同时,保持了原有的文本理解能力。
目前,两款模型已上线魔搭社区与Hugging Face平台,并提供FP8版本支持。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



