OpenAI在紧凑型推理模型o4-mini上引入了强化微调技术(Reinforcement Fine-Tuning,简称RFT),为语言模型的定制化任务提供了全新工具。RFT将强化学习原理融入微调过程,开发者可通过设计任务特定的评分函数来评估模型输出,而不再单纯依赖标注数据。这些评分函数基于准确性、格式或语气等自定义标准对模型表现打分,从而优化奖励信号,生成更符合期望的结果。
该技术特别适用于复杂任务,例如医疗解释的措辞优化。o4-mini作为一款支持文本和图像输入的高效模型,结合RFT后,在法律、医疗、代码生成等领域展现出显著优势。早期案例显示,Accordance AI的税务分析准确率提升39%,Ambience Healthcare的医疗编码性能提高12个百分点。此外,RFT训练费用为每小时100美元,并提供数据共享激励措施,进一步降低使用门槛。这一技术为高风险、领域特定的推理任务带来了轻量且强大的解决方案。