英伟达推出Llama Nemotron Nano VL模型,高效处理文档理解任务

科技媒体marktechpost报道,英伟达近日推出专为文档理解任务优化的视觉-语言模型Llama Nemotron Nano VL。该模型基于Llama 3.1架构,融合CRadioV2-H视觉编码器和Llama 3.1 8B语言模型,支持多页文档的视觉与文本分析,上下文长度达16K。

通过投影层和旋转位置编码技术,模型提升了视觉-文本对齐能力,适用于长篇多模态任务。训练分为三阶段:图文预训练、多模态指令微调和纯文本指令优化。在OCRBench v2测试中,其在表格解析、图表推理等任务上表现优异,精度媲美更大规模模型。

部署方面,模型支持4-bit量化,适配服务器及边缘设备,兼容Jetson Orin等受限环境,并提供预计算视觉嵌入选项以降低延迟,为企业应用提供高效解决方案。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1