2026年3月,中信证券研报指出,AI正从对话式模型向智能体(Agent)演进,导致上下文长度年均增长约30倍。KV Cache显存需求与上下文长度呈线性关系,增速远超硬件迭代。当前厂商通过量化、分层存储和架构优化缓解瓶颈,但显存总需求不减反增。研报认为,显存优化将降低单Token生成成本,刺激更高并发与更长上下文使用,存力升级已成为Agent推理阶段的核心需求。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
2026年3月,中信证券研报指出,AI正从对话式模型向智能体(Agent)演进,导致上下文长度年均增长约30倍。KV Cache显存需求与上下文长度呈线性关系,增速远超硬件迭代。当前厂商通过量化、分层存储和架构优化缓解瓶颈,但显存总需求不减反增。研报认为,显存优化将降低单Token生成成本,刺激更高并发与更长上下文使用,存力升级已成为Agent推理阶段的核心需求。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。