商汤SenseNova U1开源,迈向模型理解生成统一时代

2026年04月29日 11:48   21世纪经济报道 21财经APP   雷晨
商汤开源SenseNova U1 Lite轻量模型,基于自研NEO-unify架构实现多模态原生统一,提升图文协同效率与视觉保真度。

21世纪经济报道记者雷晨

本月,国内AI大模型行业进入集中发布与开源周期,月之暗面、智谱AI、腾讯、深度求索等多家企业密集推出新一代模型。

4月28日晚间,商汤科技发布并开源日日新SenseNova U1系列原生理解生成统一模型,以自研NEO‑unify架构实现多模态理解、推理与生成的原生统一。

在多模态技术方向,传统方案多采用拼接式架构,通过适配器组合视觉编码、语言理解与生成模块,信息在不同组件间多次转换,存在损耗大、协同效率不足、推理成本偏高的问题。商汤SenseNova U1基于今年3月自主研发的NEO‑unify架构,摒弃主流拼接方式,去除独立视觉编码器与变分自编码器,构建统一表征空间,并将统一表征融入每一层计算,实现从模态集成到原生统一的范式跨越。

据了解,该架构可将语言与视觉信息作为统一复合体直接建模,提升理解与生成的协同效率,在保留语义丰富度的同时维持像素级视觉保真度,在逻辑推理、空间智能与复杂布局理解上表现更稳定,未来可支持机器人在单一模型内完成环境感知、逻辑推演到任务执行的全流程能力闭环。

本次商汤开源发布的是SenseNova U1 Lite轻量版,包含两个规格:基于稠密骨干的SenseNova‑U1‑8B‑MoT,以及基于混合专家架构的SenseNova‑U1‑A3B‑MoT。

官方测试显示,该系列在图像理解、图像生成与编辑、视觉推理等多项基准中达到同量级开源模型靠前水平,小参数版本在部分指标上可对标部分商业闭源模型,在复杂信息图生成、图文排版控制上具备商用级表现。

(图为SenseNova U1 Lite复杂信息图生成示例)

依托统一架构,SenseNova U1实现业内首创的连续性图文创作输出,单次模型调用即可完成步骤化、高风格一致性的图文内容生成,可用于教学图解、流程说明、数据信息图、办公可视化等场景,简化工具链并降低内容生产与开发成本。

目前,模型已在GitHub与HuggingFace开放获取,配套技能库与提示词资源同步上线,商汤表示将在近期发布详细技术报告。

在行业人士看来,随着本轮开源大模型集中落地,国内多模态大模型正走向架构整合与实用普惠阶段。开源生态与工程化能力将成为下一阶段产业竞争的关键,多模态统一智能也将更深度地渗透到办公、教育、设计、智能制造等实体经济场景中。

关注我们