美团发布VitaBench评测基准揭示AI智能体真实场景短板- DoNews

DoNews > 公司新闻 > 美团发布VitaBench评测基准揭示AI智能体真实场景短板

美团发布VitaBench评测基准揭示AI智能体真实场景短板

推荐 2025-10-21 11:11:03

美团LongCat团队正式推出贴近真实生活场景的大模型智能体评测基准VitaBench，聚焦复杂问题解决能力评估。该基准以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体，构建包含66个工具的交互式环境，设计400项单场景与跨场景任务，涵盖全流程旅游规划等复杂操作。

其核心创新在于首次从深度推理、工具使用、用户交互三大维度量化拆解任务复杂度，并提出滑动窗口评估器以保障评测精准性。实测结果显示，即便领先的大模型在复杂跨场景任务中的成功率仅为30%，暴露出当前AI智能体与实际应用需求之间的显著差距。

VitaBench现已全面开源，项目主页、论文及代码仓库等资源已同步上线。美团表示，未来将持续维护并更新相关榜单，为AI智能体的技术研发与迭代提供关键基础设施支持。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

《国乐无双》：好东西和烂活儿搅一块儿了被吴彤和宣发耽误了？！

打戏夯爆，这就是十年最佳动作片坐等第二部。

九号公司推出两款全新铅酸电池产品价格透明、3年质保

吉利李书福炮轰短平快造车：绝不能走捷径、抄近路李书福在2026重庆汽车论坛强调：安全、健康与可持续发展是造车根本，反对‘短平快’模式，呼吁敬畏规律、尊重知识产权、坚持技术创新。

鸿蒙7：把Agent写进底层，让星盾给安全兜底一场全栈AI化的改造

溜溜梅首挂狂飙180%，总市值突破90亿港元溜溜梅6月15日港交所上市，发行价43.58港元，首日涨173.29%，市值93.86亿港元；2015–2025年融资5.03亿元，2025年1月回购红杉股份，D2轮后估值22.25亿元。

行情变了！天天拍车5月数据：新能源汽车保值率稳步回升 6月二手车进入淡季，但平台服务提升交易效率；新能源二手车成交占比升至16%，混动车2年保值率（57%）超燃油车（54.7%）。

鸿蒙智行首款科技豪华硬派 SUV 享界 G9 官宣享界G9为鸿蒙智行首款科技豪华硬派SUV，提供纯电/增程双动力、800V平台、巨鲸电池及华为ADS 5.0智驾系统。

关于我们| 电子协议| 合作联系| 京ICP备2025120072号

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号

京公网安备11010802023059号