Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

黄山的油菜花黄山的油菜花
0

清华大学联合智谱AI近日推出了一款名为LongWriter的长文本生成模型,该模型能够生成超过10,000字的连贯文本,突破了以往AI模型在文本长度上的限制。LongWriter项目已开源,为学术研究、内容创作、出版行业、教育领域以及新闻媒体等多个行业提供了强大的文本生成支持。

项目背景

长期以来,AI模型在文本生成方面存在一定的长度限制,这主要源于监督式微调(SFT)数据集的特性。为了解决这一问题,清华大学联合智谱AI团队分析了现有大型语言模型的输出限制,并创建了“LongWriter-6k”数据集,成功扩展了AI模型的输出能力。

技术原理

LongWriter基于具有显著增加的内存容量的长上下文大型语言模型(LLMs),模型能处理超过100,000个token的历史记录。以下是LongWriter的核心技术原理:

  • 长上下文处理能力:LongWriter能够处理超过100,000个token的历史记录,这使得模型在生成超长文本时具有更高的连贯性和准确性。

  • 输出长度限制分析:通过分析现有模型在不同查询下的最大输出长度,LongWriter识别出模型输出长度的限制主要源自于监督式微调(SFT)数据集的特性。

  • 监督式微调(SFT):LongWriter在SFT阶段使用“LongWriter-6k”数据集,通过这种方式,模型学习到了如何生成更长的文本。

  • 直接偏好优化(DPO)技术:LongWriter还采用了直接偏好优化(DPO)技术,以进一步提高模型的输出质量和遵循指令中长度限制的能力。

主要功能

LongWriter具备以下主要功能:

  • 超长文本生成:LongWriter能生成超过10,000字的连贯文本,突破了以往AI模型在文本长度上的限制。

  • 数据集构建:通过创建“LongWriter-6k”数据集,包含从2,000到32,000字不等的写作样本,为模型训练提供了丰富的长文本数据。

  • AgentWrite方法:使用现有LLMs自动构建超长输出SFT数据的方法,采用分而治之的策略,有效提升了模型的长文本生成能力。

应用场景

LongWriter在多个领域具有广泛的应用前景:

  • 学术研究:LongWriter可以辅助学者和研究人员撰写长篇学术论文、研究报告或文献综述。

  • 内容创作:作家和内容创作者可以用LongWriter来生成小说、剧本或其他创意写作的初稿。

  • 出版行业:出版社可以用LongWriter来辅助编辑和校对工作,或自动生成书籍内容。

  • 教育领域:教育工作者可以用LongWriter生成教学材料、课程内容或学习指南。

  • 新闻媒体:新闻机构可以用LongWriter快速生成新闻报道、深度分析文章或专题报道。

使用方法

使用LongWriter需要确保有足够的计算资源,包括高性能的GPU和足够的内存。用户可以从GitHub获取LongWriter的开源代码和模型,并根据项目文档安装所需的依赖库和工具。数据准备、模型加载、编写提示和生成文本等步骤均按照项目指南进行。

LongWriter的推出,为AI文本生成领域带来了新的突破,有望在多个行业产生深远影响。


read more

Views: 1

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注