Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

好的,请看下面这篇新闻稿,我力求以客观、专业的视角,深入解读商汤科技最新发布的“日日新SenseNova V6”多模态融合模型系列。

商汤发布日日新SenseNova V6:多模态融合大模型挑战GPT-4.5

北京 — 商汤科技近日正式推出其第六代多模态融合大模型系列——日日新SenseNova V6。该系列模型基于高达6000亿参数的多模态混合专家(MoE)架构,旨在实现文本、图像和视频的原生融合,并在多个关键性能指标上,直指甚至超越OpenAI的GPT-4.5和谷歌的Gemini 2.0 Pro等业界领先模型。

技术突破:原生多模态融合

SenseNova V6的核心亮点在于其“原生多模态融合训练技术”。与以往侧重单一模态增强的方法不同,V6系列在模型架构和训练过程中,深度融合文本、图像、视频、音频等多种模态信息。商汤方面表示,这种融合避免了传统方法中“顾此失彼”的现象,能够更好地处理复杂场景,捕捉跨模态的细节关联。

“我们希望打破模态之间的壁垒,让AI真正理解世界的多样性,”一位商汤内部人士透露,“V6的目标是让机器像人一样,能够综合利用视觉、听觉和语言信息进行推理和决策。”

四大版本,各有侧重

SenseNova V6系列包含四个版本,以满足不同应用场景的需求:

  • SenseNova V6 Pro: 拥有6200亿参数,对标国际主流模型,支持文本、图像和视频的原生融合。
  • SenseNova V6 Reasoner Pro: 侧重推理能力,辅助解决复杂问题,适用于需要深度思考的场景。
  • SenseNova V6 Video: 专精视频理解,适用于教学、文旅等场景,能够对视频内容进行深度解析。
  • SenseNova V6 Omni: 轻量级全模态交互模型,提供实时互动体验,适用于需要快速响应的场景。

核心功能:视频理解、实时交互、情感表达

SenseNova V6具备强推理、强交互和长记忆的特点,尤其在以下几个方面表现突出:

  • 视频处理与分析: 支持对中长视频进行推理和解析,能够理解人物关系、情节发展等复杂信息。
  • 实时音视频交互: 能够精准回答关于视频内容的问题,提供高度拟人化的感知、表达和情感理解能力。
  • 教育辅导: 能够识别手写体,为学生辅导数学题,提供一对一的引导式讲解。

技术原理:长思维链与混合增强学习

除了原生多模态融合,SenseNova V6还采用了以下关键技术:

  • 多模态长思维链合成技术: 基于多智能体协作,实现超长思维链的生成与验证,让模型具备长时间、多步骤的深度思考能力。
  • 多模态混合增强学习: 基于人类偏好的RLHF和基于确定性答案的RFT,平衡模型的逻辑推理能力和情感表达能力。
  • 长视频统一表征和动态压缩: 实现跨模态信息的高效对齐与压缩,将画面、语音、字幕、时间逻辑统一编码,形成连贯的时序表征。

应用场景:教育、客服、具身智能

商汤表示,SenseNova V6的应用场景广泛,包括:

  • 视频创作与分析: 快速生成视频精华片段,剪辑特定场景并配解说和音效。
  • 教育辅导: 辅导数学题,提供一对一讲解,帮助学生理解解题思路。
  • 智能客服: 精准解答用户问题,提供个性化建议,提升用户体验。
  • 具身智能: 为机器人提供感知和交互能力,应用在家庭、工业、医疗等场景。

挑战与展望

尽管SenseNova V6在多项指标上表现出色,但要真正挑战GPT-4.5等领先模型,仍面临诸多挑战。例如,模型的泛化能力、鲁棒性以及在实际应用中的表现,都需要经过大规模的验证和优化。

此外,多模态大模型的训练和部署成本高昂,如何降低成本、提高效率,也是商汤需要解决的关键问题。

不过,SenseNova V6的发布,无疑为中国AI产业注入了一剂强心针。它不仅展示了中国企业在人工智能领域的创新实力,也为多模态大模型的未来发展指明了方向。

项目地址:https://platform.sensenova.cn

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注