红杉中国发布全新AI基准测试工具xbench

5月26日,红杉中国推出全新AI基准测试工具xbench。该工具采用双轨评估体系,包括追踪模型能力上限与量化实际场景效用价值两部分,旨在解决现有评估方式难以真实反映AI能力的问题。xbench通过长青评估机制动态更新测试内容,确保时效性和相关性,并发布科学问题解答与中文互联网深度搜索两个核心评估集。此举为AI技术突破与产品迭代提供了重要指引。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1