Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

香港,中国香港 – 人工智能(AI)视频生成领域迎来一位新的重量级选手:Goku。这款由香港大学与字节跳动联合研发的视频生成模型,凭借其高质量的视频生成能力和极低的制作成本,有望彻底改变广告制作、内容创作等多个行业。

Goku的核心优势在于其能够以极低的成本(据称比传统方法低100倍)生成高质量的视频。这得益于其先进的rectified flow Transformer框架,该框架支持文生视频、图生视频以及文生图等多种模式,为用户提供了极大的灵活性。

技术解析:Goku背后的秘密

Goku的技术核心包括:

  • 图像-视频联合VAE: 通过3D联合图像-视频变分自编码器(VAE),Goku能够将图像和视频压缩到共享的潜在空间,从而在统一框架内处理多种媒体格式。
  • Transformer架构: Goku模型家族包含2B和8B参数的Transformer架构,利用全注意力机制有效处理图像和视频的复杂时空依赖关系,实现高质量、连贯的输出。
  • 校正流公式: 基于Rectified Flow(RF)算法,Goku通过线性插值在先验分布和目标数据分布之间进行训练,相比传统的扩散模型,展现出更快的收敛速度和更强的理论性质。
  • 多阶段训练策略: Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调,逐步提升模型的生成能力。

为了支撑Goku的训练,研究人员构建了一个包含约3600万视频和1.6亿图像的大规模数据集,并采用了多种数据过滤和增强技术来提高数据质量。此外,Goku的训练基础设施还包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术,显著提升了训练效率和稳定性。

Goku+:广告视频制作的利器

Goku的扩展版本Goku+,专注于广告视频创作,能够快速生成高质量的广告视频,支持20秒以上的视频生成,并具备稳定的手部动作和丰富的面部及身体表情。Goku+可以将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,增强广告吸引力。

Goku+的应用场景广泛,包括电商、品牌宣传、短视频广告和产品展示等。它能够显著降低广告制作成本,提升创作效率,为广告行业带来革命性的变革。

应用前景:Goku的无限可能

除了广告视频制作,Goku的应用前景还包括:

  • 虚拟数字人视频生成: Goku+可以生成虚拟数字人的视频,具有高度的逼真感和自然的动作,适用于虚拟主播、虚拟客服等场景。
  • 内容创作: Goku能够生成包括动画、自然风光、动物行为等多种场景的视频,为艺术创作者提供了丰富的灵感和创作素材。
  • 教育与培训: Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。
  • 娱乐产业: 在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成,为创作者提供更多可能性。

挑战与展望

尽管Goku展现出强大的潜力,但仍面临一些挑战。例如,如何进一步提高视频生成的质量和真实感,如何解决生成视频中的伦理问题,以及如何确保模型的公平性和透明度等。

尽管如此,Goku的出现无疑为视频生成领域注入了新的活力。随着技术的不断发展,我们有理由相信,Goku将在未来发挥更大的作用,为我们的生活带来更多便利和惊喜。

项目地址:

关键词: Goku,视频生成,香港大学,字节跳动,人工智能,AI,广告视频,虚拟数字人,内容创作

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注