Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

北京讯 – 在人工智能领域,大语言模型(LLM)的知识推理能力一直是衡量其智能水平的关键指标。近日,字节跳动豆包大模型团队联合 M-A-P 推出了一项重磅成果——SuperGPQA,一个全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。这一举措旨在解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一等问题,为 LLM 的泛化能力和真实推理水平提供更可靠的评估标准。

SuperGPQA:研究生级的知识盛宴

SuperGPQA 的诞生,源于对现有 LLM 评测体系的深刻反思。长期以来,评测基准在学科覆盖的广度和题目质量的深度上都存在局限性,难以全面反映 LLM 的真实能力。SuperGPQA 的出现,无疑为 LLM 的评估带来了新的视角和更高的标准。

该数据集覆盖了 STEM(科学、技术、工程、数学)和非 STEM(哲学、文学、历史等)两大领域,其中高达 42.33% 的题目需要数学计算或严谨推理。这意味着,SuperGPQA 不仅考察 LLM 的知识记忆能力,更侧重于评估其在复杂任务中的逻辑推理和问题解决能力。

技术原理:专家与 LLM 的协同结晶

SuperGPQA 的构建过程堪称严谨。它并非简单地依靠众包标注,而是采用了专家与 LLM 协同的方式,确保了题目的高质量和高区分度。

  1. 来源筛选: 专家从教科书、权威练习网站等可信来源筛选和收集原始问题,从源头上保证了题目的学术性和权威性。
  2. 转录与规范化: 专家对原始问题进行语言规范化和格式转换,统一为学术语言和标准多项选择题格式,确保了题目的一致性和可比性。
  3. 质量检验: 题目经过基于规则的初步过滤、基于 LLM 的质量检测(如有效性、领域相关性评估)和专家复审等多重检验,确保了题目的高质量和高区分度。
  4. 多模型协作验证: 在质量检验阶段,研究团队还利用 GPT-4、Gemini-flash 等多个先进的 LLM 进行多维度检测,降低了数据泄漏风险,提升了题目的可靠性和区分度。
  5. 跨学科语义结构设计: 研究团队基于 t-SNE 等可视化技术分析题目语义结构,确保不同学科领域的语言特色得以保留,在工程和科学类问题中保持语义相似性。

应用场景:赋能 LLM 的发展与应用

SuperGPQA 的开源,无疑将为 LLM 的研究和应用带来深远影响。

  • 模型性能评估: SuperGPQA 能够全面衡量 LLM 在多学科领域的知识和推理能力,为模型开发者提供更客观、更全面的评估标准。
  • 模型优化指导: 基于 SuperGPQA 的评测结果,研究人员可以发现模型的不足之处,优化模型架构和训练方法,提升 LLM 的性能。
  • 跨学科分析: SuperGPQA 的学科覆盖广泛,支持不同学科对模型能力的对比研究,有助于深入了解 LLM 在不同领域的优势和局限。
  • 教育研究: SuperGPQA 可以用于开发智能教育工具和研究 AI 在教育中的应用,为教育领域的创新提供有力支持。
  • 行业应用测试: SuperGPQA 为智能客服、医疗辅助等行业应用提供测试工具,有助于评估 LLM 在实际应用中的表现,推动 AI 技术在各行业的落地。

开源地址:

结语:

SuperGPQA 的开源,是豆包大模型团队和 M-A-P 在 LLM 领域的重要贡献。它不仅为 LLM 的评估提供了更全面、更可靠的基准,也为 LLM 的研究和应用带来了新的机遇。相信在 SuperGPQA 的助力下,LLM 的发展将迎来新的突破,为人类社会带来更多的福祉。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注