美团LongCat发布VitaBench评测基准

2025年10月21日,美团LongCat团队发布全新大模型智能体评测基准VitaBench。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频生活场景,构建包含66个工具的交互环境,支持跨场景综合任务测试。评测任务模拟真实用户需求,如旅游规划中需完成订票、订餐等全流程操作,全面评估智能体在复杂问题中的推理、工具调用与交互能力。VitaBench旨在推动大模型智能体向更贴近实际应用的方向发展。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号