DeepSeek发布OCR 2模型，阿里推Qwen3-Max-Thinking，月之暗面上线Kimi K2.5- DoNews

1月27日，DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文并开源DeepSeek-OCR 2模型，采用创新的DeepEncoder V2方法，使AI能依据图像语义动态重排视觉片段，模拟人类因果驱动的视觉编码逻辑。该模型在OmniDocBench v1.5基准测试中达91.09%，较前代提升3.73%；视觉Token数量严格控制在256至1120之间，与Gemini-3 Pro一致；处理在线用户日志和PDF预训练数据时重复率分别下降2.08%和0.81%。

DeepSeek指出，传统视觉语言模型（VLMs）依赖固定光栅扫描顺序处理图像切片，引入与人类视觉感知相悖的归纳偏差；而DeepEncoder V2引入可学习的“因果流查询”，在编码阶段即对视觉Token进行语义重排序，构建两级级联的1D因果推理结构：编码器完成视觉信息语义重组，解码器执行自回归推理。该设计适配光学文本、表格及公式等非线性布局，并弥合2D图像结构与1D语言建模之间的鸿沟。

DeepSeek-OCR 2验证了以语言模型架构作为通用视觉编码器的可行性，天然兼容混合专家（MoE）架构与高效注意力机制，为统一全模态编码器提供路径。其“两个级联的1D因果推理器”范式，将2D理解分解为“阅读逻辑推理”与“视觉任务推理”两个子任务，构成实现真正2D推理的新型架构方法。

同日，月之暗面正式发布新一代开源模型Kimi K2.5，通过静默推送方式在官网聊天界面自动更新，原K2模型无缝切换为K2.5，覆盖全部Web端用户；未开放独立入口或下载包，仅以服务端模型替换形式落地。该模型基于原生多模态架构，支持视觉与文本输入，集成视觉理解与推理、编程、Agent等能力。在HLE、BrowseComp、DeepSearchQA等多项Agent评测中，Kimi K2.5取得全球开源模型最佳成绩。

阿里巴巴于1月26日晚间发布千问旗舰推理模型Qwen3-Max-Thinking，在GPQA Diamond、IMO-AnswerBench、LiveCodeBench等关键基准测试中超越GPT-5.2、Claude Opus 4.5及Gemini 3 Pro，刷新全球纪录。该模型总参数超万亿，经更大规模强化学习后训练，并引入测试时扩展（Test-time Scaling）机制，在提升推理性能的同时增强经济性。其原生Agent能力显著增强，可自主调用工具边思考边执行，幻觉大幅降低。当前用户可通过千问PC端与网页端免费试用，千问APP即将接入。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。