DeepSeek昨日发布新模型DeepSeek-OCR,该模型能将大量文字信息转化为图像作为AI的记忆载体,显著降低token使用量。在测试中,其仅用100个视觉token即超越需256个token的GOT-OCR 2.0,以不足800个视觉token优于平均消耗6000+ token的MinerU 2.0。
该模型支持多种分辨率与压缩模式,可根据文档复杂度自动调整:简单PPT背景可用64个视觉token表示,内容较多时切换至最多400个视觉token的Large模式,更高需求下启用动态Gundam模式进行记忆。
DeepSeek-OCR不仅能识别并存储图片本身,还可提取图表转化为Excel格式、分子结构图转化为SMILES标准格式,并记录图像位置及周边文字信息,捕获以往难以利用的二维数据。研究人员指出,此能力可补全过去仅依赖文字训练的数据缺失部分。
论文显示,单张A100显卡每日可通过该模型采集超20万页高质量训练数据,为大模型提供新增养料。相比传统文本处理方式,图像化存储使模型运行更省资源,上下文长度对计算量的压力大幅下降。
实验表明,使用原模型1/10的token数量时,DeepSeek-OCR仍能达到原模型96.5%的准确率;压缩至1/20时,准确率维持约六成。研究团队发现,不同清晰度存储机制类似人类遗忘过程:近期重要信息以高清晰度(如Gundam模式)保存,随时间推移逐步降级为Low模式,占用资源递减。
该设计或有助于提升大模型上下文管理效率,但具体效果尚无定论。目前DeepSeek-OCR已开源,项目整合了华为Wukong数据集、百度PaddleOCR、Meta的SAM图像特征提取组件以及OpenAI的CLIP模型,体现全球开源协作成果。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



