红杉中国发布AI基准测试工具xbench助力评估大模型与Agent能力- DoNews

DoNews > 公司新闻 > 红杉中国发布AI基准测试工具xbench助力评估大模型与Agent能力

红杉中国发布AI基准测试工具xbench助力评估大模型与Agent能力

推荐 2025-05-26 15:51:03

红杉中国推出全新AI基准测试工具xbench，并发布相关论文，旨在科学、长效地反映AI客观能力。

过去两年，AI基准测试成为评估大模型和AI Agent能力的重要工具。然而，随着模型不断刷新高分甚至满分，测试的有效性受到质疑。红杉中国在内部评估过程中发现，主流模型“刷爆”题目的速度加快，基准测试的有效时间急剧缩短。

为解决这一问题，xbench采用双轨评估体系，将任务分为两条主线：评估AI系统的能力上限与技术边界，以及量化其在真实场景中的效用价值。后者需动态对齐实际需求，构建明确业务价值的测评标准。

xbench还引入长青评估机制，通过持续更新测试内容确保时效性，定期测评市场主流Agent产品，捕捉迭代过程中的关键突破，并预测技术-市场契合点（TMF）。

红杉中国的此举不仅提供了一款新的基准测试工具，更切中了当前AGI创业的核心——技术与市场的匹配。报告中以三阶段阐释TMF的意义：未达成TMF时，Agent仅是工具或概念；第二阶段，Agent与人类共同工作，创造价值增量；第三阶段，专业化Agent由领域专家指导迭代。

投资机构参与学术研究尚属少见，但AGI时代正在改变传统打法。红杉中国号召社区共建xbench，邀请基础模型开发者验证效果，垂类开发者合作制定行业标准，研究者长期维护更新。此举意在成为标准制定者，打造高人才密度社区，推动AI技术上限并探索商业化落地机会。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

蔡东青创办的奥动冲刺港股：靠换电半年营收3.2亿同比降32% 奥动新能源递表港交所，营收连年下滑，但已建成800余座换电站，覆盖60城，合作车企超16家，布局V2S2G与碳中和。

不甘只当“打工仔”，享道出行闯关港股享道出行的发展已受制于人。

无人卡车厂家主线科技冲刺港股IPO，估值超38亿元主线科技拟港交所上市，2024年营收2.54亿，L4自动驾驶卡车市场份额31.8%，毛利率持续提升，亏损逐年收窄。

马矿股份IPO获上交所受理，计划募资10亿，中信证券保荐福建马坑矿业IPO获受理，拟募资10亿元，主营铁矿开发与综合利用，报告期内营收和净利稳中有升。

进军10万级家用市场，五菱星光要“为人民造车” 五菱星光要“为人民造车”

全球最大、最领先的吉利全球全域安全中心正式发布 2025年12月12日，吉利全球全域安全中心正式发布，并一举创下“全球最大的汽车安全试验室”、“全球最长的室内汽车碰撞测试跑道”、“全球最大的汽车环境

网信办通报：“东北雨姐”、“猫一杯”转世账号被关闭北京市网信办通报关闭“东北雨姐”、“猫一杯”等违规转世账号，整治网络乱象。

微牛证券第三季营收1.57亿美元：净利3680万美元微牛证券2025年前三季度营收4.06亿美元，同比增长45%；Q3净利3680万美元，同比扭亏，运营利润3670万美元。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号