美团 LongCat 团队今日发布高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench。
VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建了包含 66 个工具的交互式评测环境,并设计了跨场景综合任务。例如,在旅游规划任务中,智能体需通过思考、调用工具和用户交互,完成从购票到订餐的全流程执行。
团队首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行量化拆解,以可控方式构建复杂问题。测试结果显示,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的任务成功率也仅为 30%,反映出现有智能体与真实生活场景应用需求之间存在显著差距。
LongCat 团队指出,真实任务的复杂性源于三重交织因素:推理复杂性,即整合多源信息并自主规划路径;工具复杂性,即在高度互联的工具图中精确调用目标工具;交互复杂性,即在多轮对话中主动澄清意图、追踪状态并适应多样化用户行为。
为系统评估智能体在这三重挑战下的表现,团队构建了依托生活服务场景的综合性评测基准 VitaBench。该基准现已全面开源,涵盖项目主页、论文、代码仓库、数据集及排行榜,旨在为智能体在真实场景中的研发提供基础设施支持。评测榜单将长期维护更新。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



