上海AI Lab发布书生·筑梦2.0：视频生成再升级！

9 月 23, 2024 #ailab, #上海, #机器之心

开源！上海AI Lab视频生成大模型书生·筑梦2.0来了

上海人工智能实验室近日发布了新一代视频生成大模型“书生·筑梦 2.0”(Vchitect 2.0)，该模型集文生视频、图生视频、插帧超分、训练系统一体化，并已开源。

核心亮点:

支持更长的视频生成: 筑梦 2.0 支持5s-20s 长视频生成，超过其他开源模型的生成时长，并支持高达 720×480 分辨率的生成。该模型还能够处理多种视频格式，包括横屏、竖屏、4:3、9:16 和 16:9 等比例，极大地扩展了其应用场景。
新一代视频增强算法 VEnhancer: 筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer，集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频，解决了视频抖动等常见问题，显著提升了视频的稳定性。
全球首个支持长视频生成评测的框架: 筑梦 2.0 在原有的 VBench 评测框架基础上，优化并升级了对长视频生成的评测能力，目前已包含 Gen-3、可灵、OpenSora 等主流模型。这使开发者和用户能够更系统地评估模型性能，尤其是在长视频生成方面。

技术解析:

模型架构: 筑梦 2.0 采用了时下热门的扩散式 Transformer（Diffusion Transformer）网络模型。模型通过并行结构的 Transformer 模块处理视频的空间和时间信息，包括自注意力、交叉注意力和时间注意力。最终，模型通过线性层融合自注意力和交叉注意力的输出，再与时间注意力的结果相加，从而实现高效的视频生成任务处理。
训练框架: 筑梦 2.0 同步开源了他们的训练和推理框架 LiteGen。该框架针对性地提供了 diffusion 任务所需的各项优化，并采用了 Activation Offload 与 Sequence Parallel 技术进行优化，以支持更大序列长度的训练。

团队介绍:

上海人工智能实验室的书生·筑梦团队由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的成员组成，专注于视频生成技术的前沿研究与应用开发。

产业影响:

筑梦 2.0 的开源将促进视频生成技术的快速发展，并为相关产业带来新的机遇，例如：