Deepseek被豆包反超,OCR模型开源引关注

10月20日,DeepSeek团队在Hugging Face与GitHub上线并开源了DeepSeek-OCR,参数规模约3B,采用“视觉-文字压缩”方案,提升扫描效率。该模型能识别中英文混合文本、手写体及复杂表格,在多个公开数据集上刷新准确率纪录。其核心由图像理解模块DeepEncoder(约3.8亿参数)和基于DeepSeek-3B-MoE架构的文字生成模块(5.7亿活跃参数)组成,通过语义层面压缩视觉标记,显著降低计算成本。在OmniDocBench测试中,仅用100个视觉标记即胜过GOT-OCR 2.0的256个。

DeepSeek-OCR支持深度解析模式,可将财务图表转化为结构化数据,自动生成Markdown表格与图像。在10倍压缩下解码精度达97%,20倍压缩下仍保持60%准确率,大幅减少LLM处理文档所需token数量。此举被视为补足R1系列在PDF解读、原生OCR能力上的短板,也为后续通用模型迭代积累技术基础。

根据QuestMobile数据,2025年8月,豆包月活用户达1.57亿,环比增长6.6%,反超同期DeepSeek的1.43亿,重夺国内C端AI应用榜首。豆包依托字节跳动生态,在抖音等平台实现广泛分发,并集成语音、图像、视频生成等多模态功能,定位大众化、场景化体验。其拟人化设计如聊天Agent“小宁”增强了用户粘性,形成类似ChatGPT、Midjourney、Sora等功能于一体的超级APP形态。

相较之下,DeepSeek坚持“模型即产品”路径,聚焦技术深耕,未在App交互或生态拓展上做重大调整。尽管2024年底发布V3模型,2025年5月推出R1-0528优化幻觉问题,但传闻中的R2大版本更新因CEO梁文锋对性能不满而推迟。下半年仅更新V3.1,支持混合推理与128K长上下文输入。

百度此前开源PaddleOCR-VL,在OmniBenchDoc V1.5榜单以92.6分登顶,DeepSeek-OCR紧随其后发布,被部分行业社群视为阻击动作。该模型单GPU每日可处理超20万页文档,若部署20台各配8块A100的服务器,吞吐量可达每日3300万页,为构建大模型训练数据集提供高效链路。

咨询机构罗兰贝格报告显示,截至2025年2月,DeepSeek领先豆包约3600万MAU,但此后增速放缓。5月流失用户中约40%转向豆包。腾讯元宝8月MAU达3300万,环比增22.4%;蚂蚁AQ健康进入榜单前十,6月至8月用户数环比增长60.1%。业内认为,豆包凭借生态整合实现反超,而DeepSeek仍拥有1.5亿级月活基础,V3系列671B总参数量领先于智谱GLM-4.5的355B。

目前,AI“六小龙”普遍面临方向调整压力,DeepSeek成为国内少有的延续“OpenAI模式”的企业——依靠模型能力冲击C端市场并持续投入超大参数路线。未来能否突破瓶颈,取决于R2模型进展及其在现有用户规模基础上探索差异化生态路径的能力。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1