开源大语言模型服务工具Ollama近日宣布推出全新自主研发的多模态AI定制引擎。该引擎摆脱了对llama.cpp框架的直接依赖,采用Golang独立开发,针对本地推理精度实现突破性提升。特别是在处理大图像生成时,新引擎通过引入图像处理附加元数据和优化批量处理技术,有效避免了图像分割错误导致的输出质量下降。
此外,Ollama团队联合NVIDIA、AMD等硬件巨头,利用精准检测硬件元数据的方式优化内存管理,并新增图像缓存功能,确保图像处理结果可重复使用。新引擎还支持分块注意力和2D旋转嵌入等先进技术,适配如Meta Llama 4 Scout等复杂模型的需求。未来,Ollama计划进一步扩展上下文长度和支持工具调用流式响应,持续提升本地AI模型的多功能性和效率。