天眼查App显示,2025年5月13日,「一种大语言模型的强化学习训练方法及相关设备」正式进入专利公布阶段。申请人为度小满科技(北京)有限公司,该项人工智能专利涉及大语言模型的强化学习训练技术领域。据专利信息显示,该技术能够显著优化行为者模型和评论者模型之间的协调性,避免模型过度拟合到特定评估标准,同时确保更准确的评估结果,帮助行为者模型更快收敛到最优策略。发明人为霍亮宇、杨青。「本申请公开了一种大语言模型的强化学习训练方法、装置、服务器、计算机可读存储介质以及计算机程序产品。该方法获取奖励模型和评论者模型对行为者模型进行响应训练的评估,作为强化训练的训练反馈,在对行为者模型进行强化训练中,在对行为者模型进行参数更新的同时,也协调更新评论者模型,可以减少因模型不匹配导致的不稳定性和振荡,避免行为者模型过度拟合到某个特定的评估标准,确保行为者模型和评论者模型之间的协调,同时评论者模型能够更好地适应环境的变化,提供更准确的评估结果,从而帮助行为者模型更快地收敛到最优策略。」
免责声明:本文内容由开放的智能模型自动生成,仅供参考。