Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

开源!上海AI Lab视频生成大模型书生·筑梦2.0来了

上海人工智能实验室近日发布了新一代视频生成大模型“书生·筑梦 2.0”(Vchitect 2.0),该模型集文生视频、图生视频、插帧超分、训练系统一体化,并已开源。

核心亮点:

  • 支持更长的视频生成: 筑梦 2.0 支持5s-20s 长视频生成,超过其他开源模型的生成时长,并支持高达 720×480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。
  • 新一代视频增强算法 VEnhancer: 筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。
  • 全球首个支持长视频生成评测的框架: 筑梦 2.0 在原有的 VBench 评测框架基础上,优化并升级了对长视频生成的评测能力,目前已包含 Gen-3、可灵、OpenSora 等主流模型。这使开发者和用户能够更系统地评估模型性能,尤其是在长视频生成方面。

技术解析:

  • 模型架构: 筑梦 2.0 采用了时下热门的扩散式 Transformer(Diffusion Transformer)网络模型。模型通过并行结构的 Transformer 模块处理视频的空间和时间信息,包括自注意力、交叉注意力和时间注意力。最终,模型通过线性层融合自注意力和交叉注意力的输出,再与时间注意力的结果相加,从而实现高效的视频生成任务处理。
  • 训练框架: 筑梦 2.0 同步开源了他们的训练和推理框架 LiteGen。该框架针对性地提供了 diffusion 任务所需的各项优化,并采用了 Activation Offload 与 Sequence Parallel 技术进行优化,以支持更大序列长度的训练。

团队介绍:

上海人工智能实验室的书生·筑梦团队由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的成员组成,专注于视频生成技术的前沿研究与应用开发。

产业影响:

筑梦 2.0 的开源将促进视频生成技术的快速发展,并为相关产业带来新的机遇,例如:

  • 内容创作: 筑梦 2.0 可以帮助创作者更轻松地制作高质量的视频内容,降低创作门槛。
  • 教育培训: 筑梦 2.0 可以用于制作更生动、更具吸引力的教学视频,提升学习效率。
  • 娱乐游戏: 筑梦 2.0 可以用于制作更逼真的游戏场景和动画,提升游戏体验。

总结:

书生·筑梦 2.0 的开源是一个重要的里程碑,标志着视频生成技术迈入了新的发展阶段。该模型的强大功能和易用性将为开发者和用户带来更多可能性,并推动视频生成技术的应用落地。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注