腾讯混元与复旦发布CL-bench基准,揭示大模型上下文学习能力严重不足

腾讯混元团队与复旦大学联合发布CL-bench基准,旨在系统评估大语言模型的上下文(Context)学习能力。该基准涵盖500个复杂场景及近3.2万项验证标准,聚焦模型从动态输入中实时提取、归纳并应用新知识的能力。

实验覆盖GPT-5.1、Claude Opus等十大前沿模型,结果显示其在CL-bench上的平均任务解决率仅为17.2%,其中表现最佳的GPT-5.1达23.7%。模型普遍存在忽视、误用Context内容的现象,过度依赖预训练阶段固化知识,尤其在需多步归纳推理的任务中准确率显著下降。

研究指出,上下文学习能力的薄弱制约了大语言模型在专业咨询、实时决策、个性化教育等高价值场景的落地。能力提升将推动人类角色由数据提供者转向Context设计者;而如何使模型在单次上下文学习后实现知识的稳定内化与跨任务迁移,被列为下一阶段关键研究挑战。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1