2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场。该评测服务不仅支持国内外约40款大模型,还覆盖了语言问答、多模态图文理解、文生图、文生视频等四大任务。用户可以通过网页端或移动端进行自定义在线或离线盲测,享受高效便捷的模型对战评测体验。
评测体系的科学与公正
FlagEval大模型角斗场秉承科学、权威、公正、开放的四大原则,采取匿名机制进行评测。在匿名对战中,如出现已暴露或试图暴露模型身份的情况,该条评测数据将被视为无效,不会影响模型评分。这一机制确保了评测过程的公平性和透明度。
阶梯评分体系的创新
为更细致地评测模型性能,FlagEval大模型角斗场引入了主观倾向阶梯评分体系,包含五个梯度:A远好于B、A略好于B、AB差不多、B略好于A、B远好于A。其中,“AB差不多”又分为“都好与都不好”。这一阶梯评测方法相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。
人性化设计与用户体验
为了降低评分细化带来的用户认知负荷增加,FlagEval大模型角斗场对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。
模型匹配与对战机制
在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。这一机制确保了评测过程的严谨性和科学性。
支持的模型与应用场景
FlagEval大模型角斗场支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可以从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。这一多样化的支持模型和应用场景,使得评测服务更具广泛性和实用性。
未来展望
智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。
结论
智源研究院推出的FlagEval大模型角斗场不仅为大模型评测提供了科学、公正的评测体系,还通过创新的阶梯评分体系和人性化设计,提升了用户体验。未来,这一评测服务有望成为大模型研发和应用的重要参考工具,促进人工智能技术的发展和应用。
参考文献
- 智源研究院. (2024). FlagEval大模型角斗场. 腾讯新闻. https://www.qq.com/
Views: 2