火山爆发震撼上映：豆包-PixelDance视频引发视觉革命

字节跳动“豆包”视频生成模型：AI 创作的下一个浪潮？

“火山爆发，震撼天地。” 这八个字在你脑海中会浮现怎样的画面？也许是熔岩喷涌，也许是浓烟滚滚，又或许是火山灰漫天飞舞。而现在，借助字节跳动最新发布的“豆包”视频生成模型 PixelDance，你只需要输入简单的文字描述，就能将脑海中的景象变成栩栩如生的视频。

字节跳动，AI 视频生成领域的“火山爆发”

在最近的“2024 火山引擎 AI 创新巡展”深圳站上，字节跳动发布了“豆包”全模态大模型家族，其中包括 PixelDance 和 Seaweed 两款视频生成模型。PixelDance 凭借其高动态视频生成能力，早在去年 11 月就已在 AI 社区崭露头角，而今年 5 月份，豆包视频生成模型的早期版本开始在即梦 AI 上应用，收获了大量好评。如今，经过数月的迭代升级，豆包视频生成模型的能力再次大幅提升，其最新版本已经可以生成媲美专业影视作品的视频。

PixelDance：超越想象的视频生成能力

机器之心对 PixelDance 和 Seaweed 两款模型进行了测试体验，发现它们的效果确实超乎想象。以往的视频生成模型通常只能生成简单的场景，而 PixelDance 则能够生成更复杂、更具动态感的视频，并支持多种运镜方式，例如变焦、环绕、平摇、缩放、目标跟随等。

PixelDance 的五大亮点：

支持更复杂的提示词和多动作多主体交互： PixelDance 可以理解更复杂的提示词，例如“80 年代风格，小男孩们在街头奔跑，汽车在街道上行驶”，并生成包含多个主体、多种动作的视频。
可在镜头切换时有效地保持镜头一致性： PixelDance 可以生成包含多个镜头的视频，并在镜头切换时保持主体特征、场景风格、情感氛围和叙事逻辑的一致性，为视频作品增添专业电影般的叙事魅力。
强大动态与酷炫运镜： PixelDance 支持多种运镜方式，例如变焦、环绕、平摇、缩放、目标跟随等，实现对视角的灵活控制，带来超越想象的视觉盛宴。
多样化的风格支持： PixelDance 支持多种风格，例如经典黑白、前卫 3D 动画、清新淡雅的水墨国画、热烈奔放的厚涂风格、温馨可爱的 2D 动画等，满足不同用户的创作需求。
支持多种宽高比： PixelDance 支持多种宽高比，例如 1:1、3:4、4:3、16:9、9:16、21:9 等，适用于各种平台和场景。

PixelDance 的技术优势：

PixelDance 基于 DiT（扩散 Transformer）架构，通过高效的 DiT 融合计算单元，实现视频在大动态与运镜中自由切换。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。

PixelDance 的未来：

PixelDance 的出现，意味着 AI 视频生成技术已经进入了一个新的阶段。它不仅可以帮助创作者更高效地制作视频，还可以为影视制作、游戏开发、广告营销等领域带来新的可能性。相信在未来，PixelDance 会不断发展，为我们带来更多惊喜和震撼。

结语：

字节跳动“豆包”视频生成模型 PixelDance 的出现，标志着 AI 视频生成技术已经迈入了一个新的时代。它不仅拥有强大的功能，而且还拥有无限的潜力。未来，随着 AI 技术的不断发展，我们将会看到更多像 PixelDance 这样的创新产品，为我们的生活带来更多精彩和便利。

>>> Read more <<<