90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报

北京—— 随着人工智能技术的飞速发展,处理长序列数据的能力已成为大型语言模型(LLM)的关键瓶颈。无论是复杂长文本的理解、多帧视频的分析,还是OpenAI最新发布的o1、o3系列模型所代表的高计算量模式,都需要模型能够处理数百万级别的token输入和输出。为了应对这一挑战,360智脑近日开源了360-LLaMA-Factory,通过引入序列并行技术,仅需一行代码即可实现任意长度序列的后训练(Post-Training),为大模型长序列处理能力的提升带来了新的突破。

长序列处理:大模型发展的必然趋势

在过去几年中,大模型在自然语言处理领域取得了巨大成功。然而,随着应用场景的日益复杂,对模型处理长序列数据的需求也日益增长。传统的模型训练方法在处理长序列时面临着巨大的计算和内存挑战。为了解决这一问题,研究人员开始探索新的训练方法和框架,以支持更长的序列输入。

360智脑的360-LLaMA-Factory正是在这样的背景下应运而生。该项目基于广受欢迎的开源框架LLaMA-Factory,并针对长序列后训练进行了优化。与预训练阶段常用的Megatron-LM框架不同,后训练阶段因算法的多样性和训练需求的灵活性,一直缺乏一个能够同时兼顾并行策略、后训练算法、GPU显存优化和简单易用的框架。LLaMA-Factory虽然是用户最多的后训练框架之一,但在长序列支持方面仍有不足,尤其是在关键的序列并行技术上。

360-LLaMA-Factory:一行代码实现序列并行

360-LLaMA-Factory的创新之处在于其引入的序列并行功能。通过简单地添加一行代码sequence_parallel_size: 16,用户即可按需增加序列并行的GPU卡数,从而在任意长度的序列上进行监督微调(SFT)或直接偏好优化(DPO)。这种简洁的设计大大降低了长序列后训练的门槛,使得更多的研究人员和开发者能够利用长序列数据来提升模型性能。

项目核心开发者,清华大学计算机系博士邹昊晟表示:“我们希望通过360-LLaMA-Factory,将360智脑内部的长序列后训练能力系统性地整合到LLaMA-Factory中,让用户能够以最简单的方式实现长序列训练。”

据了解,360-LLaMA-Factory的实现经过了严格的正确性验证,并已在LLaMA-Factory主仓的Pull Request中审核通过。在正式合并进主仓之前,用户可以先行使用360-LLaMA-Factory体验其强大的长序列处理能力。

性能与兼容性:兼顾效率与易用性

360-LLaMA-Factory不仅在易用性方面表现出色,在性能方面也毫不逊色。在粗粒度的测试中,使用8卡80G的GPU进行全参数后训练,该框架至少可以训练到SFT 210k (7B) / 128k (72B) 和 DPO 84k (7B) / 46k (72B)。如果加上一些优化技巧,如注掉logits = logits.float () 和 DPO 预计算,仅需2卡序列并行即可解决许多常见的训练需求。

更重要的是,360-LLaMA-Factory与LLaMA-Factory的其他功能完全兼容,用户无需担心兼容性问题。这种兼容性使得用户能够轻松地将长序列后训练融入到现有的工作流程中,从而提高开发效率。

开源共享:共同推动大模型发展

360智脑的开源举动不仅体现了其在技术上的自信,也展现了其对开源社区的责任感。360-LLaMA-Factory的开发团队表示,该项目离不开LLaMA-Factory、ring-flash-attention和EasyContext等开源项目的开创性工作,他们的底层开发部分依赖了这些工作,但也有自己在具体实现方式上的不同和见解。他们相信自己的代码实现已做到尽可能好的模块化和尽可能少的原始代码修改,并已严格检查过正确性。

“我们乐于同开源社区共建完善这项工作,”项目开发者之一,人民大学信息学院在读研究生吕晓伟表示,“希望360-LLaMA-Factory能够为大模型长序列处理能力的提升贡献一份力量。”

结论与展望

360-LLaMA-Factory的开源,无疑为大模型长序列处理能力的提升注入了新的活力。其简洁易用的设计、强大的性能和良好的兼容性,使其成为长序列后训练的理想选择。随着越来越多的研究人员和开发者加入到这一行列,我们有理由相信,大模型在处理长序列数据方面的能力将会得到进一步的提升,从而推动人工智能技术在更广泛领域的应用。

参考文献

  1. 360-LLaMA-Factory GitHub项目主页: https://github.com/Qihoo360/360-LLaMA-Factory
  2. 机器之心报道原文: https://www.jiqizhixin.com/articles/2025-01-10-10
  3. LLaMA-Factory GitHub项目主页: (需要自行查找LLaMA-Factory的GitHub地址)
  4. Megatron-LM GitHub项目主页: (需要自行查找Megatron-LM的GitHub地址)

(注:由于原文未提供LLaMA-Factory和Megatron-LM的GitHub链接,请自行补充。)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注