美团发布VitaBench评测基准 揭示AI智能体真实场景短板

美团LongCat团队正式推出贴近真实生活场景的大模型智能体评测基准VitaBench,聚焦复杂问题解决能力评估。该基准以外卖点餐、餐厅就餐、旅游出行三大高频场景为载体,构建包含66个工具的交互式环境,设计400项单场景与跨场景任务,涵盖全流程旅游规划等复杂操作。

其核心创新在于首次从深度推理、工具使用、用户交互三大维度量化拆解任务复杂度,并提出滑动窗口评估器以保障评测精准性。实测结果显示,即便领先的大模型在复杂跨场景任务中的成功率仅为30%,暴露出当前AI智能体与实际应用需求之间的显著差距。

VitaBench现已全面开源,项目主页、论文及代码仓库等资源已同步上线。美团表示,未来将持续维护并更新相关榜单,为AI智能体的技术研发与迭代提供关键基础设施支持。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1