商汤发布并开源原生多模态模型架构NEO

商汤科技联合南洋理工大学S-Lab发布并开源全新原生多模态模型架构NEO,标志着行业首个实现视觉与语言深层统一的多模态架构落地。该架构为商汤日日新SenseNova多模态模型提供新一代技术基础。

NEO被定义为“行业首个可用的原生多模态架构(Native VLM)”,从底层机制出发打破传统“视觉编码器+投影器+语言模型”的模块化范式,摒弃以语言为中心的设计逻辑,实现图像与语言在核心架构层面的深度融合,提升学习效率与复杂场景处理能力。

针对现有模型局限,NEO在三个维度实现底层创新:原生图块嵌入(Native Patch Embedding)通过独创的Patch Embedding Layer(PEL)建立像素到词元的连续映射,取代离散图像tokenizer,增强图像细节建模;原生三维旋转位置编码(Native-RoPE)解耦时空频率分配,视觉采用高频、文本采用低频,适配不同模态结构,并支持向视频与跨帧任务扩展;原生多头注意力(Native Multi-Head Attention)在同一框架下融合文本token的自回归注意力与视觉token的双向注意力,提升空间结构关联利用效率。

配合Pre-Buffer & Post-LLM双阶段融合训练策略,NEO可在保留原始大语言模型完整推理能力的同时,从零构建视觉感知能力,避免跨模态训练中常见的语言能力退化问题。

实测显示,NEO在数据效率、性能和推理成本方面均实现突破:仅使用3.9亿图像文本对(约为业界同等性能模型1/10的数据量),即在多项视觉理解任务中达到Qwen2-VL、InternVL3等顶级模块化模型水平;在MMMU、MMB、MMStar、SEED-I、POPE等多个公开评测集上取得优异成绩;在0.6B至8B参数区间内展现出显著的边缘部署优势。

目前,商汤已正式开源基于NEO架构的2B与9B两种规模模型,相关代码与论文已对外发布。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1