上海—— 商汤科技今日正式发布新一代多模态大模型「日日新SenseNova V6」,该模型拥有高达6000亿的参数,并采用混合专家架构(MoE),旨在通过多模态长思维链、强化学习与全局记忆的融合,显著提升人工智能的推理能力,尤其是在机器人具身智能领域的应用。
「日日新SenseNova V6」的发布,标志着国产大模型在多模态能力上的一次重要突破。据商汤方面介绍,该模型在多项测试中表现出色,部分性能指标甚至超越了国际领先模型。这一进展有望加速人形机器人等具身智能的发展,使其具备更强大的视觉、语言等多模态交互能力,从而在导览、社交互动等场景中实现更自然、更智能的应用。
多模态能力全面升级
「日日新SenseNova V6」的核心优势在于其强大的多模态能力,包括:
- 长思维链: 支持最长64K的思维链,能够处理更复杂的任务和推理过程。
- 数理能力: 数据分析能力大幅领先GPT-4o,为解决实际问题提供更强大的支持。
- 推理能力: 在多模态深度推理方面达到国内领先水平,能够进行更深入的场景理解和逻辑推理。
- 全局记忆: 具备全局记忆能力,能够记住之前交互的信息,实现更连贯的对话和更个性化的服务。
- 视频理解: 能够理解10分钟以上的长视频,并进行深度推理,为视频内容分析和应用开辟了新的可能性。
商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华表示,商汤将“如何将机器人交互能力与具身智能的结合”视作一个非常重要的未来发展方向。他认为最终的AI交互形态是像人一样交互,不会是对着一个电脑窗口,届时从机器人、汽车到手机、眼镜,多模态交互将无处不在。
赋能具身智能,打造更智能的机器人
「日日新SenseNova V6」的发布,为具身智能的发展注入了新的活力。通过将该模型应用于机器人,可以显著提升机器人的感知、理解和交互能力。例如:
- 视觉感知: 机器人能够像人一样“看懂”周围的环境和物体,识别手势和表情,理解用户的意图。
- 语言理解: 机器人能够理解自然语言,进行流畅的对话,并根据对话内容和场景灵活切换交流方式。
- 智能交互: 机器人能够记住之前交互的信息,实现更连贯的对话和更个性化的服务,从而提供更真实、亲切的互动体验。
在商汤科技的技术交流日上,展示了「日日新SenseNova V6」在具身智能领域的应用案例。例如,傅利叶通用人形机器人GRx能够辨认出“水”和“可乐”,并根据用户的需求给出个性化的建议。具身智能机器人“飞燕”能够描述眼前的场景,并与人进行自然的对话。
AI融入“百姓日用”
除了具身智能领域,「日日新SenseNova V6」系列模型还可以在日常生活和办公场景中发挥重要作用。例如,用户可以通过商汤的“商量”App,上传视频,让AI快速整理重点、回答与视频内容相关的问题。商家可以收集顾客对新品的评论吐槽截图,让「日日新SenseNova V6」做专业的经营分析。
商汤科技联合创始人、大装置事业群总裁杨帆表示,商汤将持续对进口及国产芯片做适配和优化,希望能提供市场最优的性价比。
展望未来
「日日新SenseNova V6」的发布,是商汤科技在大模型领域的一次重要突破,也是国产人工智能技术发展的一个缩影。随着大模型的不断发展和应用,我们有理由相信,人工智能将在更多领域发挥重要作用,为人类带来更美好的生活。
参考文献
- 智东西:《商汤甩出具身智能大招!最强多模态大模型登场,给机器人装上大脑和眼睛》
Views: 0