5月26日,红杉中国推出全新AI基准测试工具xbench。该工具采用双轨评估体系,包括追踪模型能力上限与量化实际场景效用价值两部分,旨在解决现有评估方式难以真实反映AI能力的问题。xbench通过长青评估机制动态更新测试内容,确保时效性和相关性,并发布科学问题解答与中文互联网深度搜索两个核心评估集。此举为AI技术突破与产品迭代提供了重要指引。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
5月26日,红杉中国推出全新AI基准测试工具xbench。该工具采用双轨评估体系,包括追踪模型能力上限与量化实际场景效用价值两部分,旨在解决现有评估方式难以真实反映AI能力的问题。xbench通过长青评估机制动态更新测试内容,确保时效性和相关性,并发布科学问题解答与中文互联网深度搜索两个核心评估集。此举为AI技术突破与产品迭代提供了重要指引。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。