周五. 11 月 15th, 2024

字节版Sora震撼来袭！两款视频模型引爆AI创作热潮

作者智能小编

9 月 24, 2024 #机器之心, #视频

news papper

news papper

字节跳动旗下的火山引擎于9月24日发布了两款视频生成大模型，PixelDance（P模型）和Seaweed（S模型），正式进军AI视频生成领域。 这两款模型在审美、动幅、多主体互动和一致性方面都取得了突破，为用户带来更逼真、更生动、更具创意的视频生成体验。

以下是对两款模型的深度测评：

1. 解锁多动作、多主体：

豆包视频生成模型（P模型和S模型的统称）可以遵循复杂Prompt，捕捉多动作序列和主体互动。例如，梵高站在自己的画作前，捂嘴大笑，随即又秒变严肃，手缓缓落下，捋捋胡子，整套动作行云流水，表情自然逼真。
*模型能够生成多人互动场景，例如两名宇航员行走在夜晚繁华的街道上，走路姿势正常，几乎与真人无异，没有模糊、扭曲，也没有出现各种诡异画面。
模型可以处理复杂的细节描述，例如一只蜗牛在雨后的森林地面上缓缓爬行，触角谨慎地移动，壳上有精细的纹理，特写镜头下，水滴和地面细节清晰可见。

2. 动作灵活，运镜酷炫：

豆包视频生成模型支持多种镜头语言，包括变焦、环绕、平摇、缩放、目标跟随等，灵活控制视角，视频细节更丰满，表情更丰富。
模型可以生成高质量的延时摄影，例如北极光在北极天空中舞动，星星闪烁，白雪覆盖的景观，画面如同纪录片拍摄般真实。
模型可以根据图片生成视频，例如上传金鱼图片，输入Prompt“金鱼游动，水中冒着气泡”，模型不仅完美遵循指令，还学会了摇镜头，画面生动逼真。

3. 审美高级，风格多变：

豆包视频生成模型采用深度优化的Transformer结构，大幅提升了视频生成的泛化能力，支持黑白、3D动画、2D动画、国画、厚涂等多种风格。
模型可以生成各种风格的视频，例如戴着墨镜的北极熊在海里游泳、拟人小猫在T台上走秀、二哈喝咖啡、企鹅晒太阳、毛绒小怪物跳舞、皮卡丘和哆啦A梦玩亲亲等等。
模型可以用于制作广告大片，例如通过即梦的文生图功能生成香水商品图，再通过图生视频功能生成蓝色的烟雾缓缓升起的画面。

4. 攻克多镜头切换难题：

豆包视频生成模型采用全新设计的扩散模型训练方法，成功攻克了多镜头切换时难以保持一致性的难题，可10秒讲述一个起承转合的故事。
例如，用它生成一段睡美人的故事，涉及多个镜头的切换，但主体、风格、氛围和逻辑仍能保持一致性。

总体而言，字节版Sora的发布标志着AI视频生成领域迈出了重要一步。 豆包视频生成模型展现了强大的能力和潜力，未来将逐步开放给所有用户，为用户带来更便捷、更具创意的视频创作体验。

此外，需要注意的是：

虽然豆包视频生成模型已经取得了显著进步，但仍存在一些不足，例如在某些场景下，人物动作可能会略显僵硬，画面细节也可能不够完美。
随着技术的不断发展，相信豆包视频生成模型会不断优化，为用户带来更完美的体验。

期待豆包视频生成模型的未来发展，并期待它在更多领域发挥作用。

>>> Read more <<<

Views: 0

相关文章

OpenAICo-Founder Brockman Returns as President Focusing on Major Tech Challenges

11 月 15, 2024 智能小编

ShopifySoars 20% What’s Behind the Surge?

11 月 15, 2024 智能小编

OpenAI联合创始人回归，担任总裁！

11 月 15, 2024 智能小编

发表回复取消回复

为您推荐

OpenAICo-Founder Brockman Returns as President Focusing on Major Tech Challenges

2024年11月15日

ShopifySoars 20% What’s Behind the Surge?

2024年11月15日

OpenAI联合创始人回归，担任总裁！

2024年11月15日

Shopify暴涨20%！秘密何在？

2024年11月15日