10月20日,DeepSeek(深度求索)在开源社区Hugging Face上发布了新模型DeepSeek-OCR。
该模型采用“上下文光学压缩”技术,将传统AI逐词处理文本的方式转变为直接通过图像分析信息。
OCR全称为Optical Character Recognition,即光学字符识别,原用于从图像中提取文字。
DeepSeek-OCR将其应用范围扩展至整张图片,能生成保留原始排版的Markdown文档,并支持对文字、链接、表格等内容进行编辑。
在信息处理阶段,模型不再依赖Token序列转换,而是将内容压缩为图像进行视觉编码,实现并行处理。
这种方式显著提升了超长文本的吞吐效率,计算复杂度由N的平方降低,解决了当前AI因上下文过长而中断对话的问题。
与传统的稀疏注意力机制相比,该方法避免了信息缺失风险,且不依赖“版面分析-文字识别-后处理”的多模块流水线,采用端到端架构减少模块衔接错误。
根据团队论文数据,在保持96.5%识别准确率的前提下,视觉token总数较文本token总数压缩达10倍。
模型仅以文本形式存储最近10轮对话,更早的记录则被渲染成图像并编码存储。
当需要调用历史信息时,解码器会读取相应图像内容,解析后返回结果。
对于长期未使用的信息,系统会进一步压缩为更小图像,模拟人类记忆随时间衰退的特性。
这一机制既降低算力消耗,又提升信息处理效率和结构化输出能力。
此外,模型具备容错性,可基于上下文推断并补全模糊或残缺的文字。
目前,DeepSeek已支持用户上传文件和图片生成内容,但此前仅限于有文字的图像。
新模型使AI能够主动理解图文信息,同步完成文字识别、图像描述、图文关联问答等任务,成为综合性内容理解系统。
此次升级标志着AI从一维线性处理向二维视觉驱动转变,提升了信息获取维度与存储容量。
截至同日,我国人工智能企业已超过5000家,相关专利数占全球60%,算力总规模居世界第二。
DeepSeek-OCR的推出为人工智能发展提供了新的技术路径和想象空间。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



