苹果与杜克大学联合研发交错推理技术,大语言模型推理效率大幅提升

科技媒体Marktechpost报道,苹果公司与杜克大学近日提出一种名为“交错推理”的全新强化学习方法,显著提升了大语言模型的推理能力。传统大语言模型通常采用“先思考后回答”的长链式推理,存在响应速度慢、早期错误影响结果等问题。

交错推理技术通过交替进行内部思考和输出中间答案(sub-answer),大幅优化效率。该方法基于强化学习框架,采用特殊训练模板和奖励机制,确保模型在关键节点输出中间结果,同时注重整体准确性。

测试显示,在Qwen2.5模型上,交错推理使响应速度提升超80%,准确率提高达19.3%。此外,该方法展现出强大的泛化能力,在MATH、GPQA等复杂基准测试中表现优异。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1