商汤科技发布SenseNova U1系列多模态模型,其开源轻量版本U1 Lite包含8B-MoT和A3B-MoT两个型号,采用全新NEO-Unify架构,取消传统视觉编码器(VE)与变分自编码器(VAE),实现文字与图像在统一表征下的原生联合建模。该模型将图文理解、推理与生成整合于单一架构内,突破以往多模态系统中模态转换导致的理解-生成割裂问题。
U1 Lite具备两项核心能力:连续图文创作输出与高密度信息图生成。连续图文创作指模型在单次推理过程中交替生成文字与图像内容,而非分阶段调用文本模型与图像模型;信息图生成则支持对文字渲染精度、版式层级、图标关系及信息密度的协同处理,实测可稳定生成含多模块结构、多语言文字、精确配色与风格统一的复杂信息图。
实测显示,输入中文Prompt‘2026年世界杯:北美足球盛会’,模型生成四宫格结构海报,完整呈现三国联合主办、48支参赛队、16座主办城市及冠军之路四大模块,文字准确无乱码,深蓝科技感风格一致,荧光绿线条与金色奖杯元素符合指令要求;输入‘Espresso Martini高级酒吧菜单’,生成微倾角度酒杯图像,精准表现咖啡脂泡沫、冷凝水珠、玻璃高光及环绕式极简信息排版,色调与质感贴合美食杂志标准;输入简短Prompt‘深圳旅游攻略’或营养结构分析数据,亦能自主组织图文逻辑并生成可用信息图。
U1 Lite已接入办公小浣熊平台,用户可通过首页【一图读懂】功能免费体验;同时开源至GitHub与Hugging Face平台,并提供SenseNova U1 Skill供智能体工作流集成。在OpenClaw等Agent框架中,该Skill可自动识别文章语义节点并插入适配信息图,替代原有Python绘图库生成的简陋示意图,显著降低图文协同内容生产的人工干预与流程开发成本。
在多项图像理解、生成与视觉推理基准测试中,U1 Lite达到同量级开源模型SOTA水平。其定位并非参数规模竞赛,而是强调‘够强、够轻、可开源、可部署’,旨在成为可嵌入实际工作流的可视化表达工具,适用于公众号配图、PPT制作、产品说明、科普教程及商业分析等高频信息组织场景。
该模型架构使图像不仅作为输出结果,更参与推理过程,从而支撑真正意义上的图文混排逻辑推演——例如在生成提拉米苏教程时同步产出步骤配图并保持视觉一致性,在解析‘咖啡的一生’长文本时自动拆解种植、加工、萃取、出品各阶段对应图像。这种能力标志着AI图像生成正从‘画图工具’向‘信息结构化表达引擎’演进。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



