股价涨超30%后暂停交易,商汤日日新5.0有何亮点?

2024年04月24日 21:56   21世纪经济报道 21财经APP   董静怡
对标GPT-4 Turbo

21世纪经济报道记者 董静怡 上海报道

4月23日,商汤科技SenseTime举办技术交流日活动,发布了商汤“日日新SenseNova5.0”。

自去年4月首次发布,商汤“日日新SenseNova”大模型体系已正式推出五个大版本迭代。基于超过10TB tokens训练、覆盖大量合成数据,“日日新SenseNova 5.0”(以下简称:日日新5.0)采用混合专家架构(MoE),推理时上下文窗口可以有效到 200K 左右。

据悉,本次更新主要聚集增强了知识、数学、推理及代码能力,对标 GPT-4 Turbo,主流客观评测上达到或超越 GPT-4 Turbo。

4月24日开盘后,商汤股价大涨,一度涨超36%。上午11点15分,商汤科技公告临时停牌。截至停牌,公司股价为0.80港元/股,涨幅达31.15%,总市值达268亿港元。

商汤科技回应21世纪经济报道记者称,昨日日日新大模型5.0发布会广受好评,受到市场极大关注;依照上市规则及港交所建议,公司将进一步刊发相关公告。

下午,商汤发布公告表示,董事会注意到最近B类股份的交易价格及交易量发生不寻常波动,B类股份于4月24日上午11时15分起暂停买卖。公司已向联交所申请B类股份于4月25日上午9时正起恢复买卖。

突破数据瓶颈

如何完成日日新5.0的升级?商汤科技董事长兼CEO徐立在技术交流日点出了关键路径。

“商汤在尺度定律的指导下,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。”徐立表示。

大模型的研发在行业当中有一条大家认知的基本法则,业内称之为“Scaling Law 尺度定律”。在尺度定律通常意义下,随着模型的参数变大、数据量变大、训练时长加长,则算法性能会越来越好。因此,要形成通用人工智能模型,对于算力的消耗就变成一种必然要求。

徐立表示,实际上还有两条隐藏的假设,第一,可预测性,在小尺度上做很多实验,跨越5-7个数量级尺度依然保持对性能的准确预测;第二,保序性,在小尺度上验证了性能优劣,在更大尺度上依然保持。

“尺度定律是资源配置的引导器,可以指导我们在有限的研发资源上找到最优的模型架构和数据配方,让模型能够更高效地完成学习的过程。”徐立表示。

基于实验结果,小模型在优化数据的情况下,性能可逼近甚至超越跨数据级的大模型。然而,数据一直是AI持续提升的瓶颈,也是日日新5.0最主要的提升之一。

在知识层面上,日日新5.0采用了超过10TB的Tokens,这确保了高质量数据的完备性,为模型提供了丰富的知识基础。

在推理层面上,日日新5.0通过合成构造思维链数据,这种数据构造方法有助于模型更好地理解和推理行业特定的逻辑和知识。

据介绍,在文科能力方面,“日日新5.0”的创意写作能力、推理能力及总结能力均有提升,相同的中文知识注入后,可获得更好的理解总结及问答,为教育、内容产业等垂直应用场景提供辅助。在理科能力方面,“日日新5.0”数理能力、代码能力及推理能力提高,为金融、数据分析等场景落地提供基础。

多模态能力上,支持高清长图的解析和理解以及文生图交互式生成,实现复杂的跨文档知识抽取及总结问答展示,以及具备丰富的多模态交互能力。

徐立表示,“日日新 5.0 大模型体系综合能力全面对标GPT-4 Turbo,技术领跑加速生成式AI向产业落地的全面跃迁。”

端云协同

过去的一年,云端的大模型在各个行业都是有了广泛的应用。但智能终端,如手机、PC、汽车,也是通用人工智能应用的一个非常广泛的载体和场景。

徐立表示,今年是大模型在端侧应用爆发的元年,“端侧能力的应用其实是大模型铺开最核心的关键。”

为了满足移动终端用户对大模型技术的应用需求,商汤此次也推出了1.8B(18亿)参数规模的端侧大模型。据了解,其在中端平台实现18.3字/s的平均生成速度,旗舰平台达到78.3字/s。

另一方面,端侧大模型的也是弥补云端的不足。

首先是模型性能与成本平衡的挑战。商汤科技联合创始人、首席科学家王晓刚在日前接受21世纪经济报道记者采访时表示,如果几十亿个端侧设备都在不停地调用云端大模型,将需要消耗巨大算力;另一方面涉及数据的传输和延迟,某些特定的场景应用需要快速决策。王晓刚举例,在自动驾驶里,大模型的部署必须发生在端侧。

他进一步表示,不同的应用对于模型的准确率或体验的要求是不一样的,也就意味着,对于模型要求不是非常高的应用可以用端侧模型。

因此,端云协同解决方案应运而生,在端云结合的架构中,端侧设备(如智能手机、IoT设备等)上部署有较小的、针对特定任务优化的模型。这些模型可以快速响应用户的需求,处理一些不需要大量计算资源的任务。

云端则拥有更强大的计算资源和更大的模型,可以处理更复杂或需要大量数据的任务。云端模型通常具有更多的参数,能够提供更深层次的学习和推理能力。

端云结合的MoE架构可以通过智能化判断协同发挥端云各自优势,需要联网搜索或处理复杂场景时分流至云端处理,部分场景端侧处理占比超过80%,从而显著降低推理成本。

王晓刚向记者表示,通过智能地选择最合适的模型,端云结合可以提供更快的响应时间和更准确的结果,从而优化用户体验。

商汤表示,将端侧大模型应用的普及推广作为今年的战略重点。

此外,对于金融、代码、医疗、政务等重点行业边缘侧日益增长的AI应用需求,商汤还推出企业级大模型一体机。王晓刚认为,与垂直行业相结合是体现模型“差异化”的一个关键指标,“而模型的应用价值在哪、还能朝哪些方向优化,这些需要行业进行牵引。”

关注我们