Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海枫泾古镇一角_20240824上海枫泾古镇一角_20240824
0

引言:
在人工智能技术飞速发展的今天,大型语言模型(LLMs)在处理长文本问答任务时,如何确保回答的准确性和可验证性,成为了科研人员关注的焦点。清华大学最新推出的开源模型LongCite,以其独特的细粒度引用生成技术,为LLMs的精准引用和减少幻觉提供了新的解决方案。

主体:

一、LongCite项目概述

LongCite项目由清华大学推出,旨在提升LLMs在长文本问答任务中的可信度和可验证性。该项目通过生成细粒度的句子级引用,使用户能够验证模型的回答是否准确。项目核心包括以下组成部分:

  • LongBench-Cite评估基准:用于衡量模型在长文本问答中生成引用的能力。
  • CoF自动化数据构建流程:自动化生成带有细粒度引用的高质量长文本问答数据。
  • LongCite-45k数据集:为模型训练提供丰富的标注资源。
  • LongCite-8B和LongCite-9B模型:基于数据集训练,能理解长文本内容并提供准确的问答服务。

二、LongCite的主要功能

  1. 生成细粒度引用:LongCite使语言模型在回答长文本问题时,生成精确到句子级别的引用,用户能直接追溯到原文中的具体信息。
  2. 提高回答的忠实度:LongCite有助于确保模型的回答更加忠实于原文,减少模型出现的“幻觉”。
  3. 增强可验证性:用户基于模型提供的细粒度引用来验证回答的真实性和准确性。
  4. 自动化数据构建:LongCite采用了CoF流程,自动化地生成带有细粒度引用的高质量长文本问答数据。

三、LongCite的技术原理

  • 长文本处理能力:LongCite支持超长上下文窗口的大型语言模型,能处理和理解长达数万字的文本。
  • 细粒度引用生成:LongCite训练模型生成精确到句子级别的引用,提高回答的可验证性。
  • 自动化数据构建流程(CoF):使用自指导方法自动从长文本中生成问题和答案对,并进行监督式微调,提升模型表现。

四、LongCite的应用场景

LongCite的应用场景广泛,包括学术研究、法律咨询、金融分析、医疗咨询和新闻报道等。它为各领域专业人士提供了强大的信息检索和验证工具。

结论:

LongCite的推出,不仅为LLMs的精准引用和减少幻觉提供了新的技术路径,也进一步推动了人工智能技术在各个领域的应用。随着LongCite的不断发展和完善,我们有理由相信,未来LLMs在处理长文本问答任务时,将更加准确、可靠。

参考文献:
– LongCite项目地址:GitHub仓库HuggingFace模型库arXiv技术论文
– 相关文章:10个免费的AI论文写作工具和生成器EmoTalk3D – 华为、复旦联合推出的3D数字人框架MLE-Agent – 工程师的AI智能助手,自动创建基线模型等。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注