2025(第二届)产融合作大会在北京召开,浪潮存储在会上发布推理加速存储产品AS3000G7,旨在解决大模型推理中KV Cache重复计算导致的算力浪费和时延问题,为金融、科研等领域的模型规模化落地提供关键支撑。
当前,大模型推理高度依赖昂贵的GPU服务器,其利用效率直接决定了模型从“实验室”走向“生产线”的速度。
IDC预测未来五年智能算力规模将增长1.7倍,到2027年,推理工作负载占比将超过70%,提升GPU利用效率的需求愈加迫切。
浪潮存储AS3000G7创新性地提出“以存代算”方案,能够集中存储所有KV Cache及多轮对话结果。
其架构将KV Cache从GPU本机内存通过高速网络缓存至AS3000G7,后续对话中系统可按需直接拉取缓存,彻底避免重复计算。
这一设计显著节省了算力消耗,提升了GPU资源利用率,加速了大模型在实际场景中的应用。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。