1月27日,DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文并开源DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,使AI能依据图像语义动态重排视觉片段,模拟人类因果驱动的视觉编码逻辑。该模型在OmniDocBench v1.5基准测试中达91.09%,较前代提升3.73%;视觉Token数量严格控制在256至1120之间,与Gemini-3 Pro一致;处理在线用户日志和PDF预训练数据时重复率分别下降2.08%和0.81%。
DeepSeek指出,传统视觉语言模型(VLMs)依赖固定光栅扫描顺序处理图像切片,引入与人类视觉感知相悖的归纳偏差;而DeepEncoder V2引入可学习的“因果流查询”,在编码阶段即对视觉Token进行语义重排序,构建两级级联的1D因果推理结构:编码器完成视觉信息语义重组,解码器执行自回归推理。该设计适配光学文本、表格及公式等非线性布局,并弥合2D图像结构与1D语言建模之间的鸿沟。
DeepSeek-OCR 2验证了以语言模型架构作为通用视觉编码器的可行性,天然兼容混合专家(MoE)架构与高效注意力机制,为统一全模态编码器提供路径。其“两个级联的1D因果推理器”范式,将2D理解分解为“阅读逻辑推理”与“视觉任务推理”两个子任务,构成实现真正2D推理的新型架构方法。
同日,月之暗面正式发布新一代开源模型Kimi K2.5,通过静默推送方式在官网聊天界面自动更新,原K2模型无缝切换为K2.5,覆盖全部Web端用户;未开放独立入口或下载包,仅以服务端模型替换形式落地。该模型基于原生多模态架构,支持视觉与文本输入,集成视觉理解与推理、编程、Agent等能力。在HLE、BrowseComp、DeepSearchQA等多项Agent评测中,Kimi K2.5取得全球开源模型最佳成绩。
阿里巴巴于1月26日晚间发布千问旗舰推理模型Qwen3-Max-Thinking,在GPQA Diamond、IMO-AnswerBench、LiveCodeBench等关键基准测试中超越GPT-5.2、Claude Opus 4.5及Gemini 3 Pro,刷新全球纪录。该模型总参数超万亿,经更大规模强化学习后训练,并引入测试时扩展(Test-time Scaling)机制,在提升推理性能的同时增强经济性。其原生Agent能力显著增强,可自主调用工具边思考边执行,幻觉大幅降低。当前用户可通过千问PC端与网页端免费试用,千问APP即将接入。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



