三星推出自研AI基准测试工具TRUEBench- DoNews快讯

DoNews > 快讯 > 三星推出自研AI基准测试工具TRUEBench

三星推出自研AI基准测试工具TRUEBench

2025-09-25 19:07:03

175292

三星近日发布全新人工智能性能评估工具TRUEBench（可信真实场景使用评估基准），旨在推动AI在实际应用中的标准化测评。该工具由三星研究院自主研发，针对现有基准测试多局限于英语和单轮问答的短板，TRUEBench覆盖12种语言、46个子类任务，包含2485组多样化对话场景，聚焦内容生成、翻译、数据分析等十大企业高频应用场景。测试任务长度从8至20000字符不等，结合AI与人工协同的评分系统，确保评估结果可靠。相关数据已开源至Hugging Face平台，支持最多5个模型的性能对比。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

特步国际2025净利润上升10.8%创历史新高特步2025年营收141.51亿元（+4.2%），净利润13.72亿元（+10.8%），专业运动分部收入增30.8%，海外电商增超220%，持续巩固‘中国跑步第一股’地位。

大众回应斯柯达将退出中国：销售到年中，持续提供售后斯柯达在华销售至2026年中，之后持续提供售后；大众称中国仍是全球战略核心，正加码智能网联研发。

康宁杰瑞发布年度业绩，年内亏损人民币1.14亿元同比盈转亏康宁杰瑞2025年营收5.66亿元同比降11.54%，研发开支5.72亿元增41.57%，年内亏损1.14亿元，现金储备13.5亿元。

消息称 xAI 创始团队仅剩一人，马斯克将亲自接管 xAI联合创始人马努埃尔·克罗伊斯离职，11人团队仅剩1人；马斯克重组架构、调援特斯拉/SpaceX人员，并推进与SpaceX合并以提升估值。

古偶编剧“厕点”频出，谁在背锅谁在隐身？话语权为0的古偶编剧，是最大“背锅侠”吗？

大麦娱乐MSCI ESG评级跃升至AAA级，为全球媒体娱乐行业最高评级连续四年评级跃升

苹果回应少数 iPhone 意外呼出电话情况，iOS 26.3 已修复苹果承认iOS 26双SIM机型存在意外呼出电话缺陷，系未选SIM卡且设备闲置所致，已在iOS 26.3修复，建议用户升级。

亚盛医药-B双引擎驱动高增长，耐立克销售同比大增81% 亚盛医药2025年营收5.74亿元，耐立克销售额4.35亿元（+81%），利生妥上市5个月售7058万元；两大产品驱动增长，多项III期临床获美欧监管许可。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号