字节跳动旗下的火山引擎于9月24日发布了两款视频生成大模型,PixelDance(P模型)和Seaweed(S模型),正式进军AI视频生成领域。 这两款模型在审美、动幅、多主体互动和一致性方面都取得了突破,为用户带来更逼真、更生动、更具创意的视频生成体验。
以下是对两款模型的深度测评:
1. 解锁多动作、多主体:
- 豆包视频生成模型(P模型和S模型的统称)可以遵循复杂Prompt,捕捉多动作序列和主体互动。例如,梵高站在自己的画作前,捂嘴大笑,随即又秒变严肃,手缓缓落下,捋捋胡子,整套动作行云流水,表情自然逼真。
*模型能够生成多人互动场景,例如两名宇航员行走在夜晚繁华的街道上,走路姿势正常,几乎与真人无异,没有模糊、扭曲,也没有出现各种诡异画面。 - 模型可以处理复杂的细节描述,例如一只蜗牛在雨后的森林地面上缓缓爬行,触角谨慎地移动,壳上有精细的纹理,特写镜头下,水滴和地面细节清晰可见。
2. 动作灵活,运镜酷炫:
- 豆包视频生成模型支持多种镜头语言,包括变焦、环绕、平摇、缩放、目标跟随等,灵活控制视角,视频细节更丰满,表情更丰富。
- 模型可以生成高质量的延时摄影,例如北极光在北极天空中舞动,星星闪烁,白雪覆盖的景观,画面如同纪录片拍摄般真实。
- 模型可以根据图片生成视频,例如上传金鱼图片,输入Prompt“金鱼游动,水中冒着气泡”,模型不仅完美遵循指令,还学会了摇镜头,画面生动逼真。
3. 审美高级,风格多变:
- 豆包视频生成模型采用深度优化的Transformer结构,大幅提升了视频生成的泛化能力,支持黑白、3D动画、2D动画、国画、厚涂等多种风格。
- 模型可以生成各种风格的视频,例如戴着墨镜的北极熊在海里游泳、拟人小猫在T台上走秀、二哈喝咖啡、企鹅晒太阳、毛绒小怪物跳舞、皮卡丘和哆啦A梦玩亲亲等等。
- 模型可以用于制作广告大片,例如通过即梦的文生图功能生成香水商品图,再通过图生视频功能生成蓝色的烟雾缓缓升起的画面。
4. 攻克多镜头切换难题:
- 豆包视频生成模型采用全新设计的扩散模型训练方法,成功攻克了多镜头切换时难以保持一致性的难题,可10秒讲述一个起承转合的故事。
- 例如,用它生成一段睡美人的故事,涉及多个镜头的切换,但主体、风格、氛围和逻辑仍能保持一致性。
总体而言,字节版Sora的发布标志着AI视频生成领域迈出了重要一步。 豆包视频生成模型展现了强大的能力和潜力,未来将逐步开放给所有用户,为用户带来更便捷、更具创意的视频创作体验。
此外,需要注意的是:
- 虽然豆包视频生成模型已经取得了显著进步,但仍存在一些不足,例如在某些场景下,人物动作可能会略显僵硬,画面细节也可能不够完美。
- 随着技术的不断发展,相信豆包视频生成模型会不断优化,为用户带来更完美的体验。
期待豆包视频生成模型的未来发展,并期待它在更多领域发挥作用。
Views: 0