英特尔发布AutoRound算法并推新GPU量化支持

当地时间12月8日,英特尔宣布将AutoRound算法集成到LLM Compressor中,以提升低比特量化大模型的性能与效率。

该算法可在保持模型准确度的前提下实现更快、更轻量的推理,并兼容包括英特尔自家GPU与英伟达CUDA在内的多硬件平台。

英特尔表示,AutoRound是面向大语言模型(LLM)与视觉语言模型(VLM)的先进后训练量化(PTQ)算法,通过为每个量化张量引入三个可训练参数(v、α、β),配合逐层处理和符号梯度下降方法,优化舍入与裁剪过程,从而减少输出误差。

AutoRound采用三项核心技术实现低比特量化优化:每张量引入三个可训练参数——v(舍入偏移量)、α与β(动态裁剪范围控制);逐层序列处理——采用带符号梯度下降法联合优化舍入与裁剪策略;最小化分块输出重建误差——在百步级轻量调优下实现更高精度。

其主要优势包括:在低比特条件下维持较高准确度;支持W4A16、MXFP8、MXFP4、FP8、NVFP4等多种数据类型;支持混合比特与按层精度搜索,提供灵活的精度与效率平衡方案;零额外推理开销,量化模型可直接通过vLLM框架部署;适用于LLM与VLM的量化场景。

生成的量化模型可在多个英特尔硬件平台上加速推理,涵盖Xeon处理器、Gaudi加速器、英特尔数据中心GPU、Arc B系列显卡以及CUDA生态的GPU。

此次集成通过LLM Compressor新增的AutoRoundModifier完成,能够生成可直接在vLLM上部署的W4A16量化模型。当前已支持Llama、Qwen等主流密集LLM,并提供仅需数百步的轻量调优流程,不增加推理开销。

此外,英特尔未来推出的“Crescent Island”系列数据中心GPU将原生支持FP8/MXFP8/MXFP4等格式,使量化模型能直接利用这些数据类型的硬件加速优势。

英特尔表示,未来计划扩展更多量化方案,包括FP8与MXFP系列、自动混合比特搜索、更多模型族(如MoE),并加强与LLM Compressor其他压缩算法的协同,形成更完整的多策略组合方案。官方同时邀请开发者在社区讨论区提交反馈,用于制定后续路线图。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1