新加坡国立大学尤洋团队近日开源了一款名为VideoSys的视频生成系统,标志着视频生成技术迈向新的里程碑。VideoSys旨在简化视频生成过程,提高速度并降低生成成本,为个人和开发者提供更便捷的工具。

视频生成的基础设施建设

随着OpenAI的Sora等基于Diffusion in Time(DiT)模型的兴起,视频生成在人工智能领域引发了广泛关注。然而,该领域的基础设施仍需完善。今年2月,尤洋团队开源的OpenDiT项目为DiT模型的训练和部署提供了新的解决方案,支持文本到视频和文本到图像的生成。OpenDiT的受欢迎程度推动了团队继续深入研究,开发出VideoSys。

VideoSys的特性与优势

VideoSys与传统的Language Model(LLM)不同,它针对视频模型处理长序列和复杂流程的特点,优化了内存和计算需求。该系统设计简洁高效,目标是使视频生成对每个人来说都变得简单、快速且经济。此外,VideoSys作为开源项目,为视频生成提供了一个高性能且用户友好的基础设施,覆盖从训练、推理到服务和压缩的完整流程。

技术加速创新

VideoSys整合了Pyramid Attention Broadcast (PAB)和Dynamic Sequence Parallelism (DSP)等加速技术。PAB是首个可实现实时视频生成的无损质量方法,通过减少注意力计算的冗余,提高了运行速度。DSP则是一种适用于多维transformer架构的序列并行算法,能显著提升Open-Sora等模型的训练和推理效率。

尤洋团队的这一系列工作,包括OpenDiT和VideoSys,已经获得了1.4k的GitHub星标,显示出其在社区中的广泛认可。VideoSys的详细安装指南、使用方法和技术文档可在项目官方GitHub页面找到。

项目链接

VideoSys的推出,不仅为视频生成提供了一套全面的工具包,也为AI视频创新开辟了新的道路,有望推动视频生成技术的普及和应用。

【source】https://www.jiqizhixin.com/articles/2024-08-26-3

Views: 3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注