谷歌发布新基准，测大模型能力

谷歌推出 FACTS Grounding 基准测试：为大模型“事实幻觉”问题开出良方

引言：

在人工智能飞速发展的今天，大型语言模型（LLMs）的能力令人惊叹，它们不仅能生成流畅的文本，还能进行复杂的推理和对话。然而，一个长期困扰着AI研究人员和用户的问题是，这些模型有时会产生“幻觉”，即生成与事实不符或捏造的信息。为了解决这一难题，谷歌DeepMind近日推出了名为“FACTS Grounding”的基准测试，旨在评估和提高大型语言模型生成事实准确文本的能力。这项测试不仅是对现有模型的挑战，也为未来的AI发展指明了方向。

FACTS Grounding：评估大模型“事实锚定”能力的新标准

FACTS Grounding，顾名思义，其核心目标是评估大型语言模型在给定上下文的情况下，生成文本时是否能够“锚定”于事实。与以往的测试不同，FACTS Grounding 侧重于衡量模型是否能够避免“幻觉”，即生成与给定文档不符的虚假信息。这项测试的独特之处在于，它要求模型处理长达32000个token的文档，并基于此生成长形式的响应，涵盖摘要、问答和改写等多种任务。

测试内容与技术原理：

FACTS Grounding 的测试集包含1719个跨多个领域的示例，涵盖金融、科技、零售、医疗和法律等多个领域，旨在全面评估模型在不同领域的应用能力。其技术原理主要体现在以下几个方面：

长形式输入处理： 模型需要处理长达32k令牌的文档，这考验了模型对长文本的理解和信息整合能力。
上下文相关性： 模型生成的文本必须与用户提示和提供的文档紧密相关，确保响应完全基于提供的文档内容。
自动化评审系统： FACTS Grounding 使用自动化评审模型，如Gemini 1.5 Pro、GPT-4o和Claude3.5 Sonnet，来评估生成的文本是否满足用户请求，并判断是否完全基于提供的文档。
两阶段评估流程： 测试分为资格评估和事实准确性评估两个阶段。资格评估判断模型的响应是否满足用户请求，而事实准确性评估则评估响应是否完全基于提供的文档，从而判断是否存在“幻觉”。
聚合评分机制： 为了减少单一评审模型的偏见，FACTS Grounding 聚合多个评审模型的结果，从而提高评估的准确性和可靠性。

应用场景：

FACTS Grounding 的应用场景非常广泛，其价值不仅在于评估模型，更在于推动模型在实际应用中的可靠性：

信息检索与问答系统： FACTS Grounding 可以帮助开发更可靠的问答系统，根据给定的文档或上下文提供准确的答案。
内容摘要与生成： 模型可以生成文档的准确摘要，理解长篇文档并准确提炼关键信息，这在信息爆炸的时代尤为重要。
文档改写与重述： 在需要根据原始文档重述或改写内容的场景中，FACTS Grounding 可以确保改写后的内容保持事实的准确性。
自动化客户服务： 在客户服务领域，FACTS Grounding 可以帮助模型提供基于特定信息或政策文档的准确回答，从而提高服务效率和质量。
教育与研究： 在教育领域，FACTS Grounding 可以帮助学生和研究人员快速准确地获取信息，辅助学习和研究工作。

对行业的影响：

FACTS Grounding 的推出，标志着对大型语言模型事实准确性评估进入了一个新的阶段。它不仅为研究人员提供了一个标准化的评估工具，也为开发者提供了一个改进模型、减少“幻觉”的明确方向。通过这项测试，我们可以更深入地了解模型的局限性，并不断优化模型，使其在实际应用中更加可靠和值得信赖。

结论：

FACTS Grounding 的推出是人工智能领域的一项重要进展。它不仅为评估大型语言模型的事实准确性提供了新的基准，也为解决“幻觉”问题提供了新的思路。随着人工智能技术的不断发展，我们有理由相信，通过类似 FACTS Grounding 这样的工具和研究，未来的AI将更加可靠、准确，为人类带来更大的福祉。

参考文献：