苹果创新AI训练法:清单反馈提升模型指令执行能力

苹果研究人员提出“基于清单反馈的强化学习”(RLCF)方法,用于提升大语言模型执行复杂指令的能力。该方法使用任务清单替代传统人工评分机制,通过具体检查项并逐项评分指导模型优化。

研究团队在Qwen2.5-7B-Instruct模型上测试RLCF方法,涵盖五个常用评测基准。结果显示,该方法在所有测试中均取得提升,其中FollowBench硬性满意率提升4个百分点,InFoBench提高6点,Arena-Hard胜率增加3点,某些任务最高提升达8.2%。

清单生成过程利用Qwen2.5-72B-Instruct模型为13万条指令创建“WildChecklists”数据集。清单内容由明确的二元判断项组成,例如“是否翻译成西班牙语?”,随后大模型对候选回答逐项打分,并综合加权后作为小模型的训练奖励信号。

研究者指出该方法存在一定局限。RLCF依赖更强模型作为评判者,在资源受限场景下可能不适用。此外,该方法专注于复杂指令执行能力提升,不用于安全对齐评估,其在其他任务中的适用性仍需验证。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1