商汤发布开源多模态模型SenseNova U1 Lite，支持连续图文生成与高密度信息图创作- DoNews

商汤科技发布SenseNova U1系列多模态模型，其开源轻量版本U1 Lite包含8B-MoT和A3B-MoT两个型号，采用全新NEO-Unify架构，取消传统视觉编码器（VE）与变分自编码器（VAE），实现文字与图像在统一表征下的原生联合建模。该模型将图文理解、推理与生成整合于单一架构内，突破以往多模态系统中模态转换导致的理解-生成割裂问题。

U1 Lite具备两项核心能力：连续图文创作输出与高密度信息图生成。连续图文创作指模型在单次推理过程中交替生成文字与图像内容，而非分阶段调用文本模型与图像模型；信息图生成则支持对文字渲染精度、版式层级、图标关系及信息密度的协同处理，实测可稳定生成含多模块结构、多语言文字、精确配色与风格统一的复杂信息图。

实测显示，输入中文Prompt‘2026年世界杯：北美足球盛会’，模型生成四宫格结构海报，完整呈现三国联合主办、48支参赛队、16座主办城市及冠军之路四大模块，文字准确无乱码，深蓝科技感风格一致，荧光绿线条与金色奖杯元素符合指令要求；输入‘Espresso Martini高级酒吧菜单’，生成微倾角度酒杯图像，精准表现咖啡脂泡沫、冷凝水珠、玻璃高光及环绕式极简信息排版，色调与质感贴合美食杂志标准；输入简短Prompt‘深圳旅游攻略’或营养结构分析数据，亦能自主组织图文逻辑并生成可用信息图。

U1 Lite已接入办公小浣熊平台，用户可通过首页【一图读懂】功能免费体验；同时开源至GitHub与Hugging Face平台，并提供SenseNova U1 Skill供智能体工作流集成。在OpenClaw等Agent框架中，该Skill可自动识别文章语义节点并插入适配信息图，替代原有Python绘图库生成的简陋示意图，显著降低图文协同内容生产的人工干预与流程开发成本。

在多项图像理解、生成与视觉推理基准测试中，U1 Lite达到同量级开源模型SOTA水平。其定位并非参数规模竞赛，而是强调‘够强、够轻、可开源、可部署’，旨在成为可嵌入实际工作流的可视化表达工具，适用于公众号配图、PPT制作、产品说明、科普教程及商业分析等高频信息组织场景。

该模型架构使图像不仅作为输出结果，更参与推理过程，从而支撑真正意义上的图文混排逻辑推演——例如在生成提拉米苏教程时同步产出步骤配图并保持视觉一致性，在解析‘咖啡的一生’长文本时自动拆解种植、加工、萃取、出品各阶段对应图像。这种能力标志着AI图像生成正从‘画图工具’向‘信息结构化表达引擎’演进。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。