港大字节联手，Goku视频生成模型问世！

香港，中国香港 – 人工智能（AI）视频生成领域迎来一位新的重量级选手：Goku。这款由香港大学与字节跳动联合研发的视频生成模型，凭借其高质量的视频生成能力和极低的制作成本，有望彻底改变广告制作、内容创作等多个行业。

Goku的核心优势在于其能够以极低的成本（据称比传统方法低100倍）生成高质量的视频。这得益于其先进的rectified flow Transformer框架，该框架支持文生视频、图生视频以及文生图等多种模式，为用户提供了极大的灵活性。

Goku的技术核心包括：

图像-视频联合VAE： 通过3D联合图像-视频变分自编码器（VAE），Goku能够将图像和视频压缩到共享的潜在空间，从而在统一框架内处理多种媒体格式。
Transformer架构： Goku模型家族包含2B和8B参数的Transformer架构，利用全注意力机制有效处理图像和视频的复杂时空依赖关系，实现高质量、连贯的输出。
校正流公式： 基于Rectified Flow（RF）算法，Goku通过线性插值在先验分布和目标数据分布之间进行训练，相比传统的扩散模型，展现出更快的收敛速度和更强的理论性质。
多阶段训练策略： Goku采用多阶段训练策略，包括图文语义对齐预训练、图像-视频联合训练，以及针对不同模态的微调，逐步提升模型的生成能力。

为了支撑Goku的训练，研究人员构建了一个包含约3600万视频和1.6亿图像的大规模数据集，并采用了多种数据过滤和增强技术来提高数据质量。此外，Goku的训练基础设施还包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术，显著提升了训练效率和稳定性。

Goku的扩展版本Goku+，专注于广告视频创作，能够快速生成高质量的广告视频，支持20秒以上的视频生成，并具备稳定的手部动作和丰富的面部及身体表情。Goku+可以将产品图片转化为吸引人的视频，支持虚拟数字人与产品互动，增强广告吸引力。

Goku+的应用场景广泛，包括电商、品牌宣传、短视频广告和产品展示等。它能够显著降低广告制作成本，提升创作效率，为广告行业带来革命性的变革。

除了广告视频制作，Goku的应用前景还包括：

尽管Goku展现出强大的潜力，但仍面临一些挑战。例如，如何进一步提高视频生成的质量和真实感，如何解决生成视频中的伦理问题，以及如何确保模型的公平性和透明度等。

尽管如此，Goku的出现无疑为视频生成领域注入了新的活力。随着技术的不断发展，我们有理由相信，Goku将在未来发挥更大的作用，为我们的生活带来更多便利和惊喜。

关键词： Goku，视频生成，香港大学，字节跳动，人工智能，AI，广告视频，虚拟数字人，内容创作

参考文献：

Saiyan-World. (n.d.). Goku. Retrieved from https://saiyan-world.github.io/goku/
Saiyan-World/goku. (n.d.). GitHub. Retrieved from https://github.com/Saiyan-World/goku
saiyan-world/Goku. (n.d.). Hugging Face. Retrieved from https://huggingface.co/datasets/saiyan-world/Goku
(假设的) arXiv技术论文: https://arxiv.org/pdf/2502.04896 (请注意，此链接为占位符，需要替换为实际论文链接)