苹果与剑桥大学合作推出AI评估新系统提升大语言模型评审质量- DoNews快讯

DoNews > 快讯 > 苹果与剑桥大学合作推出AI评估新系统提升大语言模型评审质量

苹果与剑桥大学合作推出AI评估新系统提升大语言模型评审质量

2025-07-24 11:31:02

270362

科技媒体NeoWin报道，苹果公司与剑桥大学近日联合提出一项创新AI评估系统，通过引入外部验证工具增强AI评审员的判断能力，有效提升大语言模型（LLM）的评估质量。研究团队在论文中指出，当前广泛采用的"LLM-as-a-judge"方法虽能提高效率，但在处理复杂任务时仍存在准确性问题。

新系统采用自主评估代理机制，分三步完成评审：首先进行领域评估，随后调用网络搜索、代码执行等专用工具验证事实与逻辑，最终由AI综合决策。该系统特别针对人类评审易受主观影响、AI处理复杂任务能力不足等痛点，在保持基础模型效率的同时，显著提升了数学运算、代码验证等高难度场景的评估可靠性。

鸿蒙游戏出展CJ2025 《斗罗大陆猎魂世界》负责人讲述实际应用场景 ChinaJoy2025鸿蒙展区携50余款游戏亮相，展示游戏场景感知、秒启动、互动卡片等创新功能，提升玩家体验。

GenFlow超能搭子：百度用系统化AI能力，定义内容创作新标准百度文库GenFlow超能搭子实现AI内容创作全链路覆盖，提升效率，8月将发布2.0版本。

百度网盘AI相机引爆 ChinaJoy，开启全场景智能服务新纪元百度网盘AI相机成ChinaJoy逛展神器，集拍摄、存储、修图、识别于一体，提升用户体验。

2025世界机器人大会新闻发布会在京召开 “让机器人更智慧，让具身体更智能”

向AI要“人效”：1688全面AI化，让做生意更简单 1688推出AI版App及‘88查’工具，全面AI化助力商家高效选品、精准找厂，推动‘AI to B’商业范式发展

问止中医再闯港交所，“AI+中医”难掩亏损困局问止中医急于叩开资本市场的大门

顺络电子上半年归母净利润为4.86亿元同比上升32% 顺络电子2025年上半年营收32.2亿元，净利4.86亿元，新兴市场表现强劲。

Reddit第二季度营收同比增长78% Reddit二季度营收5亿美元，同比增长78%，净利润8900万美元。日活用户达1.104亿，AI工具用户增长6倍，数据授权业务成新增长点。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号