开源!上海AI Lab视频生成大模型书生·筑梦2.0来了
上海人工智能实验室近日发布了新一代视频生成大模型“书生·筑梦 2.0”(Vchitect 2.0),该模型集文生视频、图生视频、插帧超分、训练系统一体化,并已开源。
核心亮点:
- 支持更长的视频生成: 筑梦 2.0 支持5s-20s 长视频生成,超过其他开源模型的生成时长,并支持高达 720×480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。
- 新一代视频增强算法 VEnhancer: 筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。
- 全球首个支持长视频生成评测的框架: 筑梦 2.0 在原有的 VBench 评测框架基础上,优化并升级了对长视频生成的评测能力,目前已包含 Gen-3、可灵、OpenSora 等主流模型。这使开发者和用户能够更系统地评估模型性能,尤其是在长视频生成方面。
技术解析:
- 模型架构: 筑梦 2.0 采用了时下热门的扩散式 Transformer(Diffusion Transformer)网络模型。模型通过并行结构的 Transformer 模块处理视频的空间和时间信息,包括自注意力、交叉注意力和时间注意力。最终,模型通过线性层融合自注意力和交叉注意力的输出,再与时间注意力的结果相加,从而实现高效的视频生成任务处理。
- 训练框架: 筑梦 2.0 同步开源了他们的训练和推理框架 LiteGen。该框架针对性地提供了 diffusion 任务所需的各项优化,并采用了 Activation Offload 与 Sequence Parallel 技术进行优化,以支持更大序列长度的训练。
团队介绍:
上海人工智能实验室的书生·筑梦团队由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的成员组成,专注于视频生成技术的前沿研究与应用开发。
产业影响:
筑梦 2.0 的开源将促进视频生成技术的快速发展,并为相关产业带来新的机遇,例如:
- 内容创作: 筑梦 2.0 可以帮助创作者更轻松地制作高质量的视频内容,降低创作门槛。
- 教育培训: 筑梦 2.0 可以用于制作更生动、更具吸引力的教学视频,提升学习效率。
- 娱乐游戏: 筑梦 2.0 可以用于制作更逼真的游戏场景和动画,提升游戏体验。
总结:
书生·筑梦 2.0 的开源是一个重要的里程碑,标志着视频生成技术迈入了新的发展阶段。该模型的强大功能和易用性将为开发者和用户带来更多可能性,并推动视频生成技术的应用落地。
Views: 0