面壁智能6日晚推出端侧大模型MiniCPM 4.0系列,包含8B和0.5B两种参数版本。新模型采用自研CPM.cu推理框架,在极限场景下实现最高220倍提速,常规场景提升5倍,并支持vLLM、SGLang等主流开源框架部署。
其中,8B版本采用稀疏架构和“高效双频换挡”机制,可自动切换注意力模式,兼顾长文本的深度思考与短文本的高精度需求;0.5B版本则以轻量化设计成为高效“小钢炮”。通过模型压缩和量化技术,MiniCPM 4.0实现90%的瘦身效果,显著提升端侧推理效率。
面壁智能6日晚推出端侧大模型MiniCPM 4.0系列,包含8B和0.5B两种参数版本。新模型采用自研CPM.cu推理框架,在极限场景下实现最高220倍提速,常规场景提升5倍,并支持vLLM、SGLang等主流开源框架部署。
其中,8B版本采用稀疏架构和“高效双频换挡”机制,可自动切换注意力模式,兼顾长文本的深度思考与短文本的高精度需求;0.5B版本则以轻量化设计成为高效“小钢炮”。通过模型压缩和量化技术,MiniCPM 4.0实现90%的瘦身效果,显著提升端侧推理效率。