苹果与剑桥大学合作推出AI评估新系统 提升大语言模型评审质量

科技媒体NeoWin报道,苹果公司与剑桥大学近日联合提出一项创新AI评估系统,通过引入外部验证工具增强AI评审员的判断能力,有效提升大语言模型(LLM)的评估质量。研究团队在论文中指出,当前广泛采用的"LLM-as-a-judge"方法虽能提高效率,但在处理复杂任务时仍存在准确性问题。

新系统采用自主评估代理机制,分三步完成评审:首先进行领域评估,随后调用网络搜索、代码执行等专用工具验证事实与逻辑,最终由AI综合决策。该系统特别针对人类评审易受主观影响、AI处理复杂任务能力不足等痛点,在保持基础模型效率的同时,显著提升了数学运算、代码验证等高难度场景的评估可靠性。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1