智源首创文生视频评测，FlagEval大模型角斗场全球首发

作者智能小编

9 月 13, 2024 #新闻, #智源, #每日AI快讯

上海枫泾古镇正门_20240824

智源研究院引领AI评测新高度

2024年9月4日，我国知名AI研究机构——智源研究院，在人工智能领域再创辉煌，发布了全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。这一创新举措，标志着我国在AI评测领域迈出了重要步伐。

评测服务涵盖四大任务，支持多轮交流

FlagEval大模型角斗场旨在为用户提供全面、客观的AI模型评测。该服务支持国内外约40款大模型，覆盖语言问答、多模态图文理解、文生图、文生视频四大任务。用户可在线或离线进行盲测，并与模型进行多轮交流和提问，以最大程度衡量模型输出与人类期望或偏好保持一致性。

引入主观倾向阶梯评分体系，提升评测精确度

FlagEval大模型角斗场在评测过程中，引入了主观倾向阶梯评分体系，包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度，其中“AB差不多”又分为“都好与都不好”。相较于传统的三个评分等级，这一体系更能捕捉模型生成内容的细微差异，精确揭示模型性能差异，从而提供更丰富和深入的评测洞察。

移动端访问入口，便捷体验

为了方便用户使用，FlagEval大模型角斗场还率先开放了国内首个移动端访问入口，为用户提供高效便捷的模型对战评测体验。

开源全链路数据，促进评测生态发展

智源研究院表示，未来将对模型对战评测的全链路数据进行开源，以促进大模型评测生态的发展。

总结

FlagEval大模型角斗场的发布，为我国AI评测领域注入了新的活力。这一创新举措，将有助于推动我国AI技术的发展，为用户提供更优质的服务。让我们共同期待，智源研究院在AI领域的更多精彩表现。

>>> Read more <<<

智能新闻

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

智源首创文生视频评测，FlagEval大模型角斗场全球首发

作者智能小编

智源研究院引领AI评测新高度

评测服务涵盖四大任务，支持多轮交流

引入主观倾向阶梯评分体系，提升评测精确度

移动端访问入口，便捷体验

开源全链路数据，促进评测生态发展

总结

相关文章

9月连环杀戮：16条人命竟成高价商品

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

日式反差：爆款App禁说日语，引爆热议

发表回复取消回复

为您推荐

9月连环杀戮：16条人命竟成高价商品

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

日式反差：爆款App禁说日语，引爆热议

AI设计电影海报：百万成本变零，惊艳之作频出

作者智能小编

智源研究院引领AI评测新高度

评测服务涵盖四大任务，支持多轮交流

引入主观倾向阶梯评分体系，提升评测精确度

移动端访问入口，便捷体验

开源全链路数据，促进评测生态发展

总结

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复