Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

+1

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场。该评测服务不仅支持国内外约40款大模型,还覆盖了语言问答、多模态图文理解、文生图、文生视频等四大任务。用户可以通过网页端或移动端进行自定义在线或离线盲测,享受高效便捷的模型对战评测体验。

评测体系的科学与公正

FlagEval大模型角斗场秉承科学、权威、公正、开放的四大原则,采取匿名机制进行评测。在匿名对战中,如出现已暴露或试图暴露模型身份的情况,该条评测数据将被视为无效,不会影响模型评分。这一机制确保了评测过程的公平性和透明度。

阶梯评分体系的创新

为更细致地评测模型性能,FlagEval大模型角斗场引入了主观倾向阶梯评分体系,包含五个梯度:A远好于B、A略好于B、AB差不多、B略好于A、B远好于A。其中,“AB差不多”又分为“都好与都不好”。这一阶梯评测方法相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。

人性化设计与用户体验

为了降低评分细化带来的用户认知负荷增加,FlagEval大模型角斗场对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。

模型匹配与对战机制

在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。这一机制确保了评测过程的严谨性和科学性。

支持的模型与应用场景

FlagEval大模型角斗场支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可以从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。这一多样化的支持模型和应用场景,使得评测服务更具广泛性和实用性。

未来展望

智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。

结论

智源研究院推出的FlagEval大模型角斗场不仅为大模型评测提供了科学、公正的评测体系,还通过创新的阶梯评分体系和人性化设计,提升了用户体验。未来,这一评测服务有望成为大模型研发和应用的重要参考工具,促进人工智能技术的发展和应用。

参考文献


>>> Read more <<<

Views: 2

+1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注