创意信息技术股份有限公司等「一种大语言模型高并发量推理方法及系统」专利公布(人工智能专利快讯)

天眼查App显示,2025年6月20日,「一种大语言模型高并发量推理方法及系统」正式进入专利公布阶段。申请人为创意信息技术股份有限公司,该项人工智能领域专利涉及大语言模型的高并发推理技术。据专利信息显示,该技术显著优化了大模型推理的并发量和吞吐量。发明人为花福军、王波、罗钦、徐孟宇、窦瑞琳。

本发明提出了一种利用执行器计算显存块大小分配显存空间的方法,并通过调度器将请求序列放入等待队列,为每个请求序列动态分配显存块,直至其能够进行下一次推理。同时,调度器按照优先级顺序计算等待队列中请求序列的显存需求,将请求序列从等待队列转移到运行队列中。根据请求序列的预填充类型数量和解码类型数量,分配用于执行预填充推理或解码推理的显存块数量。由此,本发明采用连续批处理、动态分配空间机制和任务调度框架,充分利用连续批处理的并行推理能力,突破性地解决了传统连续批处理需要预分配空间的局限性。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1