谷歌发布新基准，测大模型能力

引言：

在人工智能领域，大型语言模型（LLMs）的崛起无疑是一场技术革命。它们在文本生成、信息检索、对话交互等方面的卓越表现令人惊叹。然而，这些模型并非完美无瑕，一个普遍存在的问题是“事实幻觉”——即模型在生成文本时，会捏造或歪曲事实，输出与真实信息不符的内容。这不仅降低了模型的可靠性，也限制了其在关键领域的应用。为了解决这一难题，谷歌DeepMind近日推出了FACTS Grounding基准测试，旨在更有效地评估和提升大型语言模型的事实准确性。

FACTS Grounding：一场针对“事实幻觉”的精准测试

FACTS Grounding并非一个简单的测试，而是一个精心设计的评估框架，它专注于衡量大型语言模型在给定上下文的情况下，生成事实准确且无捏造信息的文本的能力。该测试集包含1719个跨多个领域的示例，要求模型基于长达32000个token的文档进行响应，涵盖摘要、问答和改写等多种任务。

核心功能与技术原理：

评估事实准确性： FACTS Grounding的核心目标是评估LLMs在给定上下文的情况下，生成事实准确文本的能力。它不仅仅关注模型是否能够生成流畅的文本，更关注文本内容是否与提供的文档信息完全一致。
避免“幻觉”： 该测试旨在识别并减少模型产生“幻觉”的倾向，即生成与给定文档不相符的虚假信息。这对于确保模型输出的可靠性至关重要。
长形式输入处理： FACTS Grounding要求模型能够处理长达32k令牌的文档，并基于此生成长形式的响应。这挑战了模型处理和理解长文本信息的能力，也更贴近实际应用场景。
多领域覆盖： 数据集覆盖金融、科技、零售、医疗和法律等多个领域，全面评估模型在不同领域的应用能力，确保测试的广泛性和代表性。
自动化评审系统： FACTS Grounding采用自动化评审模型（如Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet）来评估生成的文本。这种自动化评审不仅提高了效率，也减少了人为偏见。
两阶段评估流程： 测试分为资格评估和事实准确性评估两个阶段。资格评估判断模型的响应是否满足用户请求，而事实准确性评估则评估响应是否完全基于提供的文档，从而精准识别“幻觉”。
聚合评分机制： 通过聚合多个评审模型的结果，FACTS Grounding旨在减少单一模型的偏见，提高评估的准确性和可靠性。

应用场景：

FACTS Grounding的推出，不仅为模型评估提供了新的标准，也为实际应用场景带来了新的可能：

信息检索与问答系统： 在问答系统中，FACTS Grounding可以帮助模型根据给定的文档或上下文提供更准确的答案，提高用户体验。
内容摘要与生成： 模型可以利用FACTS Grounding的评估标准，生成更准确、更可靠的文档摘要，帮助用户快速获取关键信息。
文档改写与重述： 在需要根据原始文档重述或改写内容的场景中，FACTS Grounding可以确保改写后的内容保持事实的准确性，避免信息失真。
自动化客户服务： 在客户服务领域，模型可以根据特定信息或政策文档提供准确的回答，提高服务效率和质量，减少因错误信息导致的客户不满。
教育与研究： FACTS Grounding可以帮助学生和研究人员快速准确地获取信息，辅助学习和研究工作，提高信息检索的效率和准确性。

结论与展望：

FACTS Grounding的推出，标志着大型语言模型评估进入了一个新的阶段。它不仅为我们提供了一个更精准的工具来衡量模型的事实准确性，也为我们指明了未来模型改进的方向。随着FACTS Grounding的不断应用和完善，我们有理由相信，未来的大型语言模型将更加可靠、值得信赖，并将在各个领域发挥更大的作用。

参考文献：