面壁智能发布MiniCPM 4.0大模型 端侧推理提速最高达220倍

面壁智能6日晚推出端侧大模型MiniCPM 4.0系列,包含8B和0.5B两种参数版本。新模型采用自研CPM.cu推理框架,在极限场景下实现最高220倍提速,常规场景提升5倍,并支持vLLM、SGLang等主流开源框架部署。

其中,8B版本采用稀疏架构和“高效双频换挡”机制,可自动切换注意力模式,兼顾长文本的深度思考与短文本的高精度需求;0.5B版本则以轻量化设计成为高效“小钢炮”。通过模型压缩和量化技术,MiniCPM 4.0实现90%的瘦身效果,显著提升端侧推理效率。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1