Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

中文版SimpleQA:淘天集团打造的评测集,让顶尖大模型也“压力山大”

引言: 人工智能大模型的“幻觉”问题,如同困扰科学家的幽灵,挥之不去。 OpenAI的SimpleQA评测集为评估模型的事实准确性提供了重要工具,但其英文特性限制了对中文模型的全面评估。 如今,淘天集团未来生活实验室团队推出了Chinese SimpleQA,一个媲美SimpleQA的中文评测集,它不仅揭示了当前顶尖中文大模型的知识短板,也为未来模型的改进指明了方向。 o1-preview,这个被誉为性能强劲的模型,在Chinese SimpleQA面前,仅仅“及格”的成绩,足以引发我们对大模型发展现状的深入思考。

主体:

一、 Chinese SimpleQA:一个更全面、更精准的中文评估标准

长期以来,评估大模型的事实准确性一直是AI领域的一大挑战。现有的中文评测集,例如CommonSenseQA、CMMLU和C-Eval,大多采用选择题形式,难以全面评估模型对简短事实性问题的回答能力。 淘天集团未来生活实验室团队开发的Chinese SimpleQA,旨在填补这一空白。 它拥有以下几个关键特性:

  • 全面性: 涵盖六大主题(中华文化、人文与社会科学、自然科学、生活艺术与文化、工程技术与应用科学、社会)和99个子类主题,确保评估的全面性和广泛性。
  • 高质量: 经过严格的质量控制流程,包括自动化生成、多轮人工审核和算法工程师的多次抽检,确保数据的准确性和可靠性。 参与数据构建和标注的人员超过50人。
  • 静态性: 参考答案保持不变,确保评测集的长期有效性,避免因时间推移而导致数据过时。
  • 易于评估: 问题和答案简短明了,方便基于任何模型进行评估,降低了评测成本和时间。
  • 区分度: 评测结果显示,即使是o1-preview等顶尖模型,其准确率也仅为63.8%,其他模型表现更逊,例如GPT-4o mini仅为37.6%,ChatGLM3-6B和Qwen2.5-1.5B甚至只有11.2%和11.1%。 这充分体现了Chinese SimpleQA的区分度和挑战性。
  • 中文特色: 专门包含中国文化等特色知识相关的问题,弥补了现有英文评测集的不足。

二、 数据集构建:一个严谨细致的过程

Chinese SimpleQA的构建过程体现了团队对数据质量的极致追求。 它分为自动化构建和质量控制两个阶段:

  • 自动化构建: 利用维基百科等知识库,结合大型语言模型,自动生成问答对,并通过多重筛选机制,去除低质量数据。 这其中包括制定9条严格的细则,例如答案必须唯一且确定,答案不应随时间变化等。
  • 质量控制: 采用双盲标注、三方复审机制,并由算法工程师进行多轮抽检和反馈,确保答案的准确性和一致性。 每个答案都需要提供至少两个权威来源链接,确保可溯源性。

三、 Chinese SimpleQA的意义和未来展望

Chinese SimpleQA的推出,为中文大模型的评估提供了一个全新的、更精准的工具。 它不仅可以帮助开发者深入了解模型在中文领域的事实准确性,还可以为模型的改进提供重要的数据支撑。 此外,该评测集还可以用于研究推理scaling law、模型校准、检索增强生成(RAG)和对齐等重要课题。 未来,随着更多模型在Chinese SimpleQA上的测试结果公布,相信它将成为推动中文大模型发展的重要基石。

结论:

Chinese SimpleQA的出现,标志着中文大模型评估进入了一个新的阶段。 它不仅是一个评测集,更是一个推动中文AI技术进步的催化剂。 我们期待更多研究者利用Chinese SimpleQA,共同探索大模型的奥秘,最终构建出更强大、更可靠的中文AI系统。

参考文献:

*(注:由于原文未提供具体数据来源,参考文献中只列出了项目相关链接。 实际发表时,需要补充更多学术论文和权威报告作为参考文献。) *


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注