新闻报道新闻报道

Meta Movie Gen:视频生成领域的“卷王”来了

Meta 又给OpenAI 一记重击,视频生成模型 Movie Gen 震撼登场,甚至可以配音、编辑。视频生成领域真是越来越卷且越来越迈向实用性!

在 OpenAI 的 Sora 迟迟未露真容之际,Meta 首次公开展示了自家的“用于媒体的突破性生成式 AI 研究”:Meta Movie Gen。Meta 在博客中使用了“premiere”一词,也就是初次展示,因此手痒的用户可能还得再等上一段时间。

Meta 表示:“无论是希望在好莱坞大展身手的电影制作人,还是爱好为观众制作视频的创作者,我们相信每个人都应该有机会使用有助于提高创造力的工具。”

根据 Meta 的描述,Movie Gen 的功能包括:

  • 文本生成视频和音频:输入文字描述,Movie Gen 就能生成相应的视频和音频。
  • 编辑已有视频:可以对已有视频进行修改,例如添加新的内容、更改背景等。
  • 图片生视频:输入一张图片,Movie Gen 可以生成一段以该图片为基础的视频。

并且,人类评估表明,Movie Gen 在这些任务上的表现均优于行业内类似模型。

Movie Gen 的惊艳之处

Meta Movie Gen 的强大之处在于其对细节的精准把握,以及对场景和动作的理解能力。

  • 细节逼真:小女孩奔跑时衣服的褶皱、猴子尾巴在遮挡后的运动轨迹、水面的波动和倒映,都展现出 Movie Gen 对细节的精雕细琢。
  • 动作自然:人物转头、微笑、奔跑等动作流畅自然,克服了形变问题。
  • 场景还原:背景生成结果与 prompt 十分贴合,例如南瓜田、温泉、海面等,都展现出 Movie Gen 对场景的理解能力。
  • 音频匹配:Movie Gen 可以根据视频内容自动生成匹配的背景音乐和音效,例如瀑布倾泻的水声、车轮飞速旋转的声音,都十分逼真。

技术背后的奥秘

Meta Movie Gen的强大能力源于其独特的技术架构。

  • 联合模型:Movie Gen 使用了一个针对文生图和文生视频任务优化过的联合模型,可以生成高质量和高清晰度的图像和视频。
  • 时空压缩隐空间:Movie Gen 通过时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,可以更好地理解视频中的时间和空间信息。
  • Transformer 架构:Movie Gen 基于 Llama 基础模型,采用了 Transformer 架构,可以处理长序列数据,并具有强大的学习能力。

未来展望

Movie Gen 的出现,标志着视频生成领域迈入了新的发展阶段。它不仅可以帮助电影制作人、视频创作者提高工作效率,还可以为普通用户提供创作视频的便捷工具。

Meta 表示,他们将继续改进 Movie Gen,使其能够生成更逼真、更具创意的视频内容。未来,我们或许能够看到Movie Gen 在电影、游戏、教育等领域得到更广泛的应用。

结语

Meta Movie Gen 的出现,再次证明了生成式 AI 的强大潜力。随着技术的不断发展,视频生成领域将会越来越卷,也将会越来越实用。未来,我们期待看到更多像 Movie Gen这样的优秀模型出现,为我们的生活带来更多惊喜和便利。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注