清华联合智谱AI推出长文本生成模型LongWriter,突破AI文本长度限制
北京,2024年8月28日 – 清华大学与智谱AI联合推出全新长文本生成模型LongWriter,该模型能够生成超过10,000字的连贯文本,突破了以往AI模型在文本长度上的限制。LongWriter项目已开源,为学术研究、内容创作、出版行业、教育领域以及新闻媒体等多个领域提供更强大的AI文本生成能力。
LongWriter的诞生源于对现有大型语言模型(LLMs)输出限制的深入分析。研究团队发现,LLMs的输出长度限制主要源自于监督式微调(SFT)数据集的特性。为了解决这一问题,他们创建了名为“LongWriter-6k”的数据集,该数据集包含从2,000到32,000字不等的写作样本,为模型训练提供了丰富的长文本数据。
除了数据集的构建,LongWriter还采用了AgentWrite方法和直接偏好优化(DPO)技术来提升模型的输出质量和遵循指令中长度限制的能力。AgentWrite方法使用现有LLMs自动构建超长输出SFT数据,采用分而治之的策略,有效提升了模型的长文本生成能力。DPO技术则通过优化模型,使其能够更好地遵循长度约束,并生成更符合用户期望的文本。
LongWriter的技术原理基于具有显著增加的内存容量的长上下文LLMs,模型能处理超过100,000个token的历史记录。这使得LongWriter能够更好地理解上下文信息,并生成更连贯、更具逻辑性的长文本。
LongWriter的应用场景十分广泛,包括:
- 学术研究: 辅助学者和研究人员撰写长篇学术论文、研究报告或文献综述。
- 内容创作: 帮助作家和内容创作者生成小说、剧本或其他创意写作的初稿。
- 出版行业: 辅助编辑和校对工作,或自动生成书籍内容。
- 教育领域: 生成教学材料、课程内容或学习指南。
- 新闻媒体: 快速生成新闻报道、深度分析文章或专题报道。
LongWriter的开源项目地址为:
- GitHub仓库:https://github.com/THUDM/LongWriter
- HuggingFace模型库:https://huggingface.co/THUDM/LongWriter-glm4-9b
- arXiv技术论文:https://arxiv.org/pdf/2408.07055
LongWriter的推出标志着AI文本生成技术取得了重大突破,为未来AI技术的发展提供了新的方向。相信随着技术的不断进步,LongWriter将为更多领域带来革新,为人类创造更多价值。
Views: 2