智源研究院于2024年9月4日推出了一项创新性的评测服务——FlagEval大模型角斗场。这是全球首个包含文生视频的模型对战评测服务,旨在为用户提供一个公正、开放、科学、权威的评测平台。
服务特点
FlagEval大模型角斗场覆盖了国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。该服务不仅支持网页端访问,还开放了国内首个移动端访问入口,为用户提供了高效便捷的评测体验。
多元化评测任务
FlagEval角斗场涵盖了简单理解、知识应用、代码能力、推理能力等多种预设问题,使得用户可以根据不同的需求选择相应的评测任务。
创新评分体系
该服务引入了主观倾向阶梯评分体系,包含五个梯度,分别是:A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A。其中,“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的三个评分等级,更能精确地捕捉模型生成内容的细微差异,提供更深入和丰富的评测洞察。
公平性保障
FlagEval大模型角斗场在模型匹配机制上采取均匀采样、分流随机抽取的方式,确保了公平性。同时,对战过程中不支持模型切换,只支持重开一轮,对战结束后,用户也不支持继续提问或更改评分。
技术布局
FlagEval大模型角斗场支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可以从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。
智源研究院自推出FlagEval大模型评测体系以来,一直在持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。
未来展望
智源研究院表示,未来将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。
结语
FlagEval大模型角斗场的推出,标志着我国在模型对战评测领域的技术研发和应用迈出了重要一步。这一服务的推出,不仅为用户提供了高效便捷的评测体验,也为大模型评测生态的发展注入了新的活力。
点击此处进入FlagEval大模型角斗场移动端或访问官网体验模型对战
来源:腾讯新闻
Views: 0