清华智谱联手打造长文本生成模型LongWriter问世

作者智能小编

9 月 10, 2024 #新闻, #每日AI快讯

清华联合智谱AI推出长文本生成模型LongWriter，突破AI文本长度限制

北京，2024年8月28日 – 清华大学与智谱AI联合推出全新长文本生成模型LongWriter，该模型能够生成超过10,000字的连贯文本，突破了以往AI模型在文本长度上的限制。LongWriter项目已开源，为学术研究、内容创作、出版行业、教育领域以及新闻媒体等多个领域提供更强大的AI文本生成能力。

LongWriter的诞生源于对现有大型语言模型（LLMs）输出限制的深入分析。研究团队发现，LLMs的输出长度限制主要源自于监督式微调（SFT）数据集的特性。为了解决这一问题，他们创建了名为“LongWriter-6k”的数据集，该数据集包含从2,000到32,000字不等的写作样本，为模型训练提供了丰富的长文本数据。

除了数据集的构建，LongWriter还采用了AgentWrite方法和直接偏好优化（DPO）技术来提升模型的输出质量和遵循指令中长度限制的能力。AgentWrite方法使用现有LLMs自动构建超长输出SFT数据，采用分而治之的策略，有效提升了模型的长文本生成能力。DPO技术则通过优化模型，使其能够更好地遵循长度约束，并生成更符合用户期望的文本。

LongWriter的技术原理基于具有显著增加的内存容量的长上下文LLMs，模型能处理超过100,000个token的历史记录。这使得LongWriter能够更好地理解上下文信息，并生成更连贯、更具逻辑性的长文本。

LongWriter的应用场景十分广泛，包括：