字节跳动“豆包”视频生成模型:AI 创作的下一个浪潮?

“火山爆发,震撼天地。” 这八个字在你脑海中会浮现怎样的画面?也许是熔岩喷涌,也许是浓烟滚滚,又或许是火山灰漫天飞舞。而现在,借助字节跳动最新发布的“豆包”视频生成模型 PixelDance,你只需要输入简单的文字描述,就能将脑海中的景象变成栩栩如生的视频。

字节跳动,AI 视频生成领域的“火山爆发”

在最近的“2024 火山引擎 AI 创新巡展”深圳站上,字节跳动发布了“豆包”全模态大模型家族,其中包括 PixelDance 和 Seaweed 两款视频生成模型。PixelDance 凭借其高动态视频生成能力,早在去年 11 月就已在 AI 社区崭露头角,而今年 5 月份,豆包视频生成模型的早期版本开始在即梦 AI 上应用,收获了大量好评。如今,经过数月的迭代升级,豆包视频生成模型的能力再次大幅提升,其最新版本已经可以生成媲美专业影视作品的视频。

PixelDance:超越想象的视频生成能力

机器之心对 PixelDance 和 Seaweed 两款模型进行了测试体验,发现它们的效果确实超乎想象。以往的视频生成模型通常只能生成简单的场景,而 PixelDance 则能够生成更复杂、更具动态感的视频,并支持多种运镜方式,例如变焦、环绕、平摇、缩放、目标跟随等。

PixelDance 的五大亮点:

  1. 支持更复杂的提示词和多动作多主体交互: PixelDance 可以理解更复杂的提示词,例如“80 年代风格,小男孩们在街头奔跑,汽车在街道上行驶”,并生成包含多个主体、多种动作的视频。
  2. 可在镜头切换时有效地保持镜头一致性: PixelDance 可以生成包含多个镜头的视频,并在镜头切换时保持主体特征、场景风格、情感氛围和叙事逻辑的一致性,为视频作品增添专业电影般的叙事魅力。
  3. 强大动态与酷炫运镜: PixelDance 支持多种运镜方式,例如变焦、环绕、平摇、缩放、目标跟随等,实现对视角的灵活控制,带来超越想象的视觉盛宴。
  4. 多样化的风格支持: PixelDance 支持多种风格,例如经典黑白、前卫 3D 动画、清新淡雅的水墨国画、热烈奔放的厚涂风格、温馨可爱的 2D 动画等,满足不同用户的创作需求。
  5. 支持多种宽高比: PixelDance 支持多种宽高比,例如 1:1、3:4、4:3、16:9、9:16、21:9 等,适用于各种平台和场景。

PixelDance 的技术优势:

PixelDance 基于 DiT(扩散 Transformer)架构,通过高效的 DiT 融合计算单元,实现视频在大动态与运镜中自由切换。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

PixelDance 的未来:

PixelDance 的出现,意味着 AI 视频生成技术已经进入了一个新的阶段。它不仅可以帮助创作者更高效地制作视频,还可以为影视制作、游戏开发、广告营销等领域带来新的可能性。相信在未来,PixelDance 会不断发展,为我们带来更多惊喜和震撼。

结语:

字节跳动“豆包”视频生成模型 PixelDance 的出现,标志着 AI 视频生成技术已经迈入了一个新的时代。它不仅拥有强大的功能,而且还拥有无限的潜力。未来,随着 AI 技术的不断发展,我们将会看到更多像 PixelDance 这样的创新产品,为我们的生活带来更多精彩和便利。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注