美团LongCat发布贴近真实场景的Agent评测基准VitaBench- DoNews

DoNews > 公司新闻 > 美团LongCat发布贴近真实场景的Agent评测基准VitaBench

美团LongCat发布贴近真实场景的Agent评测基准VitaBench

推荐 2025-10-20 18:10:03

美团 LongCat 团队今日发布高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench。

VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，构建了包含 66 个工具的交互式评测环境，并设计了跨场景综合任务。例如，在旅游规划任务中，智能体需通过思考、调用工具和用户交互，完成从购票到订餐的全流程执行。

团队首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行量化拆解，以可控方式构建复杂问题。测试结果显示，即便是当前领先的推理模型，在主榜（复杂跨场景任务）中的任务成功率也仅为 30%，反映出现有智能体与真实生活场景应用需求之间存在显著差距。

LongCat 团队指出，真实任务的复杂性源于三重交织因素：推理复杂性，即整合多源信息并自主规划路径；工具复杂性，即在高度互联的工具图中精确调用目标工具；交互复杂性，即在多轮对话中主动澄清意图、追踪状态并适应多样化用户行为。

为系统评估智能体在这三重挑战下的表现，团队构建了依托生活服务场景的综合性评测基准 VitaBench。该基准现已全面开源，涵盖项目主页、论文、代码仓库、数据集及排行榜，旨在为智能体在真实场景中的研发提供基础设施支持。评测榜单将长期维护更新。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

报道称58集团国内业务总裁已离职 58集团国内业务总裁李子健离职，其分管业务改由创始人姚劲波直管；李曾任滴滴高管，2019年加入58，2025年升任国内业务总裁。

《国乐无双》：好东西和烂活儿搅一块儿了被吴彤和宣发耽误了？！

打戏夯爆，这就是十年最佳动作片坐等第二部。

九号公司推出两款全新铅酸电池产品价格透明、3年质保

吉利李书福炮轰短平快造车：绝不能走捷径、抄近路李书福在2026重庆汽车论坛强调：安全、健康与可持续发展是造车根本，反对‘短平快’模式，呼吁敬畏规律、尊重知识产权、坚持技术创新。

鸿蒙7：把Agent写进底层，让星盾给安全兜底一场全栈AI化的改造

溜溜梅首挂狂飙180%，总市值突破90亿港元溜溜梅6月15日港交所上市，发行价43.58港元，首日涨173.29%，市值93.86亿港元；2015–2025年融资5.03亿元，2025年1月回购红杉股份，D2轮后估值22.25亿元。

行情变了！天天拍车5月数据：新能源汽车保值率稳步回升 6月二手车进入淡季，但平台服务提升交易效率；新能源二手车成交占比升至16%，混动车2年保值率（57%）超燃油车（54.7%）。

关于我们| 电子协议| 合作联系| 京ICP备2025120072号

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号

京公网安备11010802023059号