天眼查App显示,2025年7月25日,「一种基于GRPO算法的大模型推理优化方法」正式进入专利的公布阶段。申请人为新大陆数字技术股份有限公司,该项计算推算计数专利涉及大模型推理优化技术领域。据专利信息显示,本发明通过组内相对奖励机制,避免传统强化学习方法中因价值网络估计不准确导致的不稳定性,减少梯度消失或爆炸问题,实现推理优化技术的显著优化。发明人为吴晟海、朱慧娟。本发明公开了一种包括动作采样、相对奖励计算、策略更新以及稳定性增强的完整优化方法。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。