商汤“日日新”夺冠!SenseChat5.5荣登中文大模型10月榜首
机器之心报道
2024年11月8日
近日,中文大模型测评基准 SuperCLUE 发布了《中文大模型基准测评2024年10月报告》,商汤科技旗下的“日日新”大模型家族成员 SenseChat5.5 在此次测评中表现出色,总得分位列国内大模型第一梯队,荣获金牌。
本次 SuperCLUE 10月报告涵盖了 23 个国内大模型,重点评估了语言大模型的通用能力,并将测评维度分为三大类:
- 文科: 涵盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全等六个测评集。
- 理科: 包括计算、逻辑推理、代码、工具使用等测评集。
- Hard: 包含精准指令遵循和复杂任务高阶推理等测评集,旨在考察模型的更高阶能力。
SenseChat5.5 在多项评测任务中均位列第一梯队,展现出强大的综合实力。在“文科”方面,其在语言理解和安全等维度表现突出;在“理科”方面,SenseChat5.5 更是逻辑推理、代码学科的“尖子生”。
值得注意的是,在“Hard”任务中,SenseChat5.5 是唯一一个在精准指令遵循和高阶推理两项任务中均位于国内第一梯队的大模型,这充分体现了 SenseChat5.5 在复杂推理方面的出色能力。
SuperCLUE 的测评结果表明,SenseChat5.5 在中文大模型领域已处于领先地位,其强大的能力和出色的表现将为推动中文大模型技术发展和应用落地提供重要助力。
关于 SuperCLUE
SuperCLUE 是由清华大学、北京大学、中国科学院自动化研究所等机构联合发起的中文大模型测评基准,旨在为中文大模型提供一个客观、公正、全面的评估体系。
关于 SenseChat5.5
SenseChat5.5 是商汤科技“日日新”大模型家族中的重要成员,它拥有强大的语言理解和生成能力,能够进行多轮对话、创作内容、解答问题等多种任务。SenseChat5.5 致力于为用户提供更加智能、便捷、高效的 AI 服务。
未来展望
随着大模型技术的不断发展,未来将会有更多更强大的中文大模型涌现,为各行各业带来更多创新和机遇。商汤科技将持续投入研发,不断提升SenseChat5.5 的能力,为用户提供更加优质的 AI 服务,推动中文大模型技术走向更加成熟和应用广泛的未来。
Views: 0