谷歌发布TurboQuant算法,KV缓存内存占用降至1/6

2026年3月25日,谷歌研究院发布新型极端压缩算法TurboQuant,旨在解决大语言模型键值缓存(KV Cache)的内存瓶颈。该算法结合PolarQuant与QJL两项核心技术,将高维向量压缩至3比特,实测在Gemma、Mistral等模型上零精度损失,内存占用降低至原1/6。其采用极坐标映射规避归一化开销,并以1比特残差校正保障注意力计算精度。在H100 GPU上,4比特版本推理速度达32比特基准的8倍。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1