腾讯混元与复旦发布CL-bench基准，揭示大模型上下文学习能力严重不足- DoNews

DoNews > 公司新闻 > 腾讯混元与复旦发布CL-bench基准，揭示大模型上下文学习能力严重不足

腾讯混元与复旦发布CL-bench基准，揭示大模型上下文学习能力严重不足

推荐 2026-02-04 10:50:03

腾讯混元团队与复旦大学联合发布CL-bench基准，旨在系统评估大语言模型的上下文（Context）学习能力。该基准涵盖500个复杂场景及近3.2万项验证标准，聚焦模型从动态输入中实时提取、归纳并应用新知识的能力。

实验覆盖GPT-5.1、Claude Opus等十大前沿模型，结果显示其在CL-bench上的平均任务解决率仅为17.2%，其中表现最佳的GPT-5.1达23.7%。模型普遍存在忽视、误用Context内容的现象，过度依赖预训练阶段固化知识，尤其在需多步归纳推理的任务中准确率显著下降。

研究指出，上下文学习能力的薄弱制约了大语言模型在专业咨询、实时决策、个性化教育等高价值场景的落地。能力提升将推动人类角色由数据提供者转向Context设计者；而如何使模型在单次上下文学习后实现知识的稳定内化与跨任务迁移，被列为下一阶段关键研究挑战。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

天涯社区将于6月1日正式恢复访问天涯社区将于2026年6月1日恢复访问，新主体“天涯客公司”已投入百万资金抢救数据并启动重建。

10.49万起定义新一代家轿，中国一汽悦意08全球预售发布一汽悦意08全球预售，提供增程/纯电双动力、6款车型，售价10.49万–14.49万元，享五大终身质保及多项智驾配置。

MiniMax签署辅导协议，正式启动A股IPO进程 MiniMax于2026年5月29日启动A股IPO，此前已于1月登陆港交所，首日涨111.39%，当前市值约2280亿元人民币。

演员刘洵去世，曾参演《九品芝麻官》罗家英悼念师兄刘洵离世，享年87岁；刘洵为著名戏曲教育家及演员，参演《笑傲江湖》《九品芝麻官》等经典影视作品。

消息称赛力斯将推新汽车品牌，计划 6 月发布 5月30日，赛力斯子公司蓝电科技更名为赛豆科技，将作为其全新年轻运动汽车品牌的法律主体，6月发布，与字节火山引擎深度合作。

曝光多位院长杰青论文学术不端，耿同学抖音被永久限流科普博主耿同学因实名举报多校学者学术不端，遭抖音永久限流及星图商单封禁，致其新作无推荐、无法广告变现。

领克10+和领克10正式上市，售价16.99万元起领克10+和领克10于2026年5月29日上市，以900V高压架构、神盾金砖电池、千里浩瀚智驾与人车合一底盘，重塑中大型运动纯电价值标准。

九号2026新品发布会连发4款新车，重新定义“好车标准” 九号2026发布会推出N1、M1、M3、Fz5四款新车，覆盖酷玩、通勤、品质驾控及城市猎装场景，以硬核性能与智能交互重新定义‘好车标准’。

关于我们| 电子协议| 合作联系| 京ICP备2025120072号

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号

京公网安备11010802023059号