苹果近期提出“多 token 预测”(MTP)技术,可在不牺牲输出质量的前提下,显著提升大语言模型的响应速度。该技术通过引入“掩码”token,实现一次生成多个词,从而打破传统逐词生成的效率瓶颈。
研究显示,MTP在问答、对话等任务中平均提速2–3倍,在代码生成、数学推理等场景下甚至可达5倍。其“推测-验证”机制确保输出质量,同时通过“门控 LoRA 适配”动态调节参数,降低能耗。
该技术为本地化部署提供了新路径,未来有望应用于Siri、Apple Intelligence等产品,带来更流畅的交互体验。



