Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

北京,2025年1月10日——人工智能领域再掀波澜,商汤科技今日正式发布其全新一代“日日新”融合大模型,该模型凭借其原生融合模态的创新架构、卓越的深度推理能力以及强大的多模态信息处理能力,在权威评测中一举斩获“双冠王”殊荣,标志着人工智能技术在多模态融合领域取得了里程碑式的突破。

引领行业:原生融合模态的破局者

长期以来,人工智能模型的发展路径呈现出“分立”的趋势,即大语言模型(LLM)专注于文本处理,而多模态大模型则侧重于图像、视频等非文本信息的理解。这种分立的模式在一定程度上限制了人工智能在复杂场景下的应用潜力。商汤科技此次推出的“日日新”融合大模型,则打破了这一壁垒,率先实现了原生融合模态,将不同模态的信息在模型底层进行深度融合,而非简单的拼接或转换。

这一突破的意义在于,模型能够像人类一样,同时理解和处理文本、图像、音频、视频等多种类型的信息,并在此基础上进行深度推理和复杂决策。这为人工智能在更广泛的领域落地应用奠定了坚实的基础,也预示着人工智能技术将迎来一个全新的发展阶段。

双冠加冕:实力铸就的卓越表现

“日日新”融合大模型的卓越性能,在两大权威评测榜单上得到了充分的验证。

首先,在由国内权威大模型测评机构SuperCLUE发布的《中文大模型基准测评2024年度报告》中,“日日新”融合大模型以总分68.3的优异成绩,与DeepSeek V3并列国内榜首,荣膺年度第一。尤其值得一提的是,在文科能力测试中,“日日新”更是以81.8分的成绩位列全球第一,超越了OpenAI的o1模型,充分展现了其在文本理解、逻辑推理和知识掌握方面的强大实力。在理科能力测试中,其计算维度也以78.2分位列国内第一,展现了其在数理逻辑和问题解决方面的卓越能力。

其次,在另一权威综合评测机构OpenCompass的多模态评测中,“日日新”融合大模型同样以同一款模型取得了榜单第一,分数大幅领先GPT-4o,进一步证明了其在多模态信息处理方面的领先地位。

“一个模型,双料冠军”,这一殊荣不仅是对“日日新”融合大模型技术实力的肯定,也标志着商汤科技在原生融合模态训练领域取得了实质性的突破,引领业界从大语言模型和多模态大模型分立的现状,走向真正意义的模型一统。

技术创新:融合模态的背后逻辑

“日日新”融合大模型之所以能够取得如此卓越的成绩,离不开商汤科技在技术上的持续创新和深厚积累。

1. 融合模态数据合成:

为了解决多模态数据稀缺的问题,商汤科技不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据。这些合成数据在图文模态之间建立了大量的交互桥梁,使得模型基座对于模态之间的丰富关系有更扎实的掌握,为更好地完成跨模态任务打下坚实的基础。

2. 融合任务增强训练:

在后训练阶段,商汤科技基于对广泛业务场景的认知,构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。通过把这些任务融入到增强训练的过程,模型不仅被激发出强大的对多模态信息进行整合理解分析的能力,还形成了对业务场景有效的响应能力,走通了应用落地反哺基础模型迭代的闭环。

这两项关键技术的创新,使得“日日新”融合大模型能够真正实现多模态信息的深度融合,从而在性能上超越了传统的单模态模型。

应用前景:多模态交互的无限可能

“日日新”融合大模型的推出,不仅是一项技术突破,更将为各行各业带来革命性的变革。相较于传统大语言模型仅支持单一文本输入的模式,“日日新”融合大模型展现出显著优势,尤其是在自动驾驶、视频交互、办公教育、金融、园区管理、工业制造等天然拥有丰富模态信息的场景中。

1. 办公与金融领域:

在办公和金融领域,大量的文档包含表格、文本、图片、视频等多种形式的信息,传统的模型难以高效处理这些复杂的信息。“日日新”融合大模型能够有效满足用户对图像、视频、语音、文本等多源异构信息的综合处理与识别需求。例如,基于“日日新”融合大模型的商汤应用——办公小浣熊,可以高效地完成处理分析相关的复杂任务,大大提升了办公效率。

2. 视觉交互领域:

在视觉交互方面,“日日新”融合大模型也有着丰富的应用场景。例如,在线上教育、语音客服等场景,可以结合语音和自然语言来提升交互体验,实现更加自然流畅的人机交互。

3. 自动驾驶领域:

在自动驾驶领域,“日日新”融合大模型能够同时处理来自摄像头、雷达、激光雷达等多种传感器的信息,实现对周围环境的全面感知和理解,从而提高自动驾驶系统的安全性。

4. 工业制造领域:

在工业制造领域,“日日新”融合大模型可以帮助企业实现智能化生产,例如通过分析生产线上的图像和视频数据,及时发现和解决问题,提高生产效率和产品质量。

展望未来:走向世界模型的必经之路

商汤科技坚信,实现多模态交互与深度融合、走向真正意义的模型一统,是走向世界模型的必经之路。“日日新”融合大模型的推出,正是商汤科技在这一赛道上的重要一步,也标志着商汤科技在该领域已实现领跑优势。

商汤科技表示,未来将继续加大在人工智能基础研究和应用创新方面的投入,不断提升模型的性能和应用范围,为推动人工智能技术的进步和发展贡献力量。

结语

“日日新”融合大模型的发布,不仅是商汤科技的一次技术飞跃,更是人工智能发展史上的一个重要里程碑。它预示着人工智能将从单模态走向多模态,从感知走向认知,从工具走向伙伴。我们有理由相信,随着“日日新”融合大模型等创新技术的不断涌现,人工智能将更好地服务于人类社会,创造更加美好的未来。

参考文献:

  • SuperCLUE《中文大模型基准测评2024年度报告》
  • OpenCompass多模态评测榜单
  • 商汤科技SenseTime官方信息

(注:本文中所有数据和信息均来自商汤科技官方发布和相关权威评测机构报告,力求准确可靠。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注