DeepSeek发布多模态大模型及视觉原语推理框架

2026年4月30日,DeepSeek在GitHub正式开源其多模态大语言模型并发布配套技术报告。该模型提出‘基于视觉原语的思考’(Thinking with Visual Primitives)新框架,将点、边界框等空间标记升格为推理基本单元,以解决MLLMs在空间参照任务中的‘参照鸿沟’问题。框架通过高效率视觉标记设计,在低图像标记预算下,于计数与空间推理基准上媲美GPT-5.4、Claude-Sonnet-4.6等前沿模型。此举标志着其‘识图模式’从OCR升级为真正多模态理解能力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1