2月11日,深度求索(DeepSeek)对其旗舰模型启动灰度测试。更新后模型支持最高100万Token上下文长度,较去年8月发布的V3.1版本(128K)显著提升。记者实测提交超24万Token的《简爱》全文,模型可完整识别并响应。
2月12日晚,“DeepSeek被指变冷淡了”登上微博热搜。多名用户反映,模型不再使用用户设定的昵称,统一以“用户”称呼;此前深度思考模式中呈现的角色化心理描写(如“夜儿总爱逗我”)被替换为标准化应答句式(如“好的,用户这次想了解……”)。
有用户提问电影推荐,模型回复片名后附加“够你看一阵子。不够再来要”,被指带有说教感,符合网络热词“登味”所描述的居高临下表达特征。另有用户评价其语言风格“像文绉绉、情绪激动且大惊小怪的诗人”,称输出效果“比20年前青春伤感文学更尴尬”。其他反馈包括“又凶又冷漠”“变油腻”等。
亦有用户持不同观点,认为更新后模型“更客观理性”,或“更关注提问者心理状态而非仅问题本身”。据经济观察报援引国产大模型厂商人士说法,本次灰度版本疑似为极速版,以牺牲部分生成质量换取响应速度,系为2026年2月中旬即将发布的V4版本开展压力测试。
DeepSeek V系列定位为追求极致综合性能的基础模型:2024年12月发布V3,确立高效MoE架构基础;此后迭代推出强化推理与Agent能力的V3.1、2025年12月发布的正式版V3.2,以及专注高难度数学与学术任务的V3.2-Speciale。科技媒体The Information此前报道称,V4将于2026年2月中旬农历新年期间发布,重点增强代码生成能力。今年初,DeepSeek团队公开两项新架构:mHC(流形约束超连接)优化深层Transformer信息流稳定性与可扩展性;Engram(条件记忆模块)实现静态知识与动态计算解耦,利用廉价DRAM存储实体知识,降低长上下文推理对高带宽内存(HBM)的依赖。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



