苹果研究突破:新技术可让大模型响应提速2至5倍

苹果近期提出“多 token 预测”(MTP)技术,可在不牺牲输出质量的前提下,显著提升大语言模型的响应速度。该技术通过引入“掩码”token,实现一次生成多个词,从而打破传统逐词生成的效率瓶颈。

研究显示,MTP在问答、对话等任务中平均提速2–3倍,在代码生成、数学推理等场景下甚至可达5倍。其“推测-验证”机制确保输出质量,同时通过“门控 LoRA 适配”动态调节参数,降低能耗。

该技术为本地化部署提供了新路径,未来有望应用于Siri、Apple Intelligence等产品,带来更流畅的交互体验。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1