三星推出自研AI基准测试工具TRUEBench

三星近日发布全新人工智能性能评估工具TRUEBench(可信真实场景使用评估基准),旨在推动AI在实际应用中的标准化测评。该工具由三星研究院自主研发,针对现有基准测试多局限于英语和单轮问答的短板,TRUEBench覆盖12种语言、46个子类任务,包含2485组多样化对话场景,聚焦内容生成、翻译、数据分析等十大企业高频应用场景。测试任务长度从8至20000字符不等,结合AI与人工协同的评分系统,确保评估结果可靠。相关数据已开源至Hugging Face平台,支持最多5个模型的性能对比。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1