红杉xbench发布AgentIF-OneDay评测集,聚焦Agent全场景长时复杂任务解决能力
今日,红杉中国xbench正式推出AgentIF-OneDay评测体系,旨在评估大模型Agent在全场景、长时、复杂任务中的实际表现。该评测集基于人类一天可完成的任务复杂度设计,覆盖生活、学习与职业三大领域,强调任务执行的持续性、跨域性与多工具协同能力。
随着大模型在短程推理任务中接近PhD水平,Agent系统在短时任务上已表现优异。然而,在突破一小时复杂度的长程任务中,整体完成度显著下降。为此,xbench提出两条核心演进路径:scaling context与scaling domain。前者指任务在时间维度上的延展,要求Agent在长时间内维护上下文状态;后者指任务类型的扩展,涵盖跨领域、跨语境的真实工作流。
AgentIF-OneDay包含104道任务,其中62道为文件驱动的合成任务,涉及PDF、PPT、Excel、图像、代码等15种以上格式,模拟真实工作中常见的跨源处理模式。每道任务设有细粒度评分标准,共767个评分点,涵盖正向指标(如步骤完整、结构复现)与负向指标(如误删内容、越界生成)。评测采用LLM作为裁判,并结合网页检索、HTML渲染、多模态比对等技术进行自动校验。
测试涵盖主流Agent系统,结果显示Manus、Genspark与ChatGPT-Agent在Overall成功率上处于0.62–0.65区间,构成第一梯队。尽管整体表现相近,但各系统在不同领域和能力维度上呈现差异:ChatGPT-Agent在专业工作场景表现突出,Manus擅长生活类任务,Genspark在学习辅助方面领先。
从能力维度看,GenSpark在隐式指令推断上最优,Manus在开放工作流执行中表现最佳,Minimax-Agent则在迭代式编辑任务中领先。评测发现,隐式条件推断仍是普遍短板,尤其在从附件中抽取格式规则并迁移应用时,多数系统难以兼顾内容理解与结构一致性。
评测任务分为三类:工作流执行(Workflow Execution),即用户明确流程,Agent精确执行;范例参考(Latent Instruction Inference),即用户提供案例,Agent挖掘潜在意图;迭代式编辑(Iterative Refinement),即需求动态变化,需多轮交互调整。此类设计还原了现实工作中“边做边改”的典型模式。
展望未来,xbench团队正构建OneWeekIF评测集,目标是衡量Agent在一周尺度任务中的稳定性与产出质量。随着任务跨度增加,行业语境更加明显,数据获取成本上升,静态评测方式面临局限。团队认为,未来Agent需具备在线学习能力,通过真实环境中的持续交互实现策略优化与知识积累。
研究指出,高可靠Agent的出现依赖于用户数据飞轮的建立,类比自动驾驶从有限路段到FSD的演进过程。优先积累用户使用数据的企业,有望率先实现通用Agent的无干预运行。当前,AgentIF-OneDay的论文、数据集及评测代码已开源,发布于GitHub、Hugging Face及项目官网。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



