AI视频圈上演“神仙打架”,Vidu新功能搞定“美女变野兽”难题
机器之心报道编辑:杨文
AI视频圈正在上演“神仙打架”,全球网友开启花式整活。然而,摆在创作者面前的第一道槛儿,就是永远不知道下一秒会生成个啥。例如,上一秒还是美女,下一秒就蹿出个怪物史莱克;明明是个丑萌的布偶猴子,接着就蹦出个小浣熊;还有更离谱的,一秒变性。这类邪门视频层出不穷,究其原因,还是AI难以保持主体一致性。
不过就在昨天,生数科技的视频模型Vidu上线了新功能——主体参照,仅需一张图片即可实现主体可控。比如,上传一张猪八戒的照片,通过提示词任意切换场景,而猪八戒样貌不变。
提示词:猪八戒在街上玩滑板
提示词:猪八戒在河里游泳
提示词:猪八戒骑摩托送外卖
更重要的是,它免费开放,注册邮箱即可使用。体验地址:www.vidu.studio
实测:一张图,场景随意换
所谓“主体参照”,就是用户上传任意主体的一张图片,Vidu就能锁定该主体形象,通过提示词任意切换场景,输出主体一致的视频。啥叫任意主体?甭管是人物、动物、商品,还是动漫角色、虚构主体,它都能确保其视频生成的一致性。Vidu也是全球首个支持该能力的视频大模型。
接下来,我们就奉上一手实测。
Round 1:人物主体
我们上传一张“黑旋风”李逵的照片。
提示词:一个男子正在海边的沙滩上啃鸡腿。
李逵的硬汉形象在海边沙滩场景中得到了完美保留,动作幅度大且流畅自然。而且,脸部没有崩坏,也没有出现“六指狂魔”。
我们又上传了一张孙悟空的剧照。
提示词:孙悟空骑着摩托,行驶在路上。
孙猴子立马化身机车手,上演了一出“速度与激情”。Vidu对于细节的处理也挺到位。比如骑摩托时,风将袖子吹鼓起来,毛发微微向后晃动。
再来祸祸一下“硅谷钢铁侠”马斯克。
提示词:一个男子坐在咖啡馆里喝咖啡。
西装革履的马斯克坐在咖啡馆里,缓缓转过头来,端起了咖啡杯,整个过程一气呵成,相当逼真。
值得注意的是,为了防止生成违规视频,Vidu还在提示词中进行了限制,不能输入暴力、色情以及政治人物的名字等。
Round 2: 动物主体
Vidu还可以实现动物在不同环境下、大幅运动状态中细节特征保持一致。这意味着,我们只需上传一张萌宠照片,就能随心所欲生成一段Vlog。
提示词:一只北极熊在水里游泳。
满是冰川的北极,一只凶猛的北极熊在水里扑腾,周围溅起了圈圈水花。镜头中北极熊运动幅度很大,画面却很稳定清晰。
提示词:一只兔子在啃胡萝卜。
虽然我们投喂给Vidu的是一张兔子的侧面照,但它仍能生成兔子抱着胡萝卜啃的正面大特写。
提示词:一只企鹅在舞台上跳舞
从这则8秒视频可以看出,Vidu基本能遵循提示词的要求,生成的场景就是一个灯光闪烁的舞台。毛茸茸的企鹅跳着笨拙的舞蹈,还有表情变化。
视频链接:https://mp.weixin.qq.com/s/7a6EScdJ2M4nFT40JqGwZw
Round 3: 虚构角色
Vidu不仅能搞定写实风格的主体,针对虚构的主体,它也可以保持其高度一致。
提示词:一只蜗牛在海里冲浪,溅起浪花。
\u200d\u200d这只蜗牛扑闪着眼睛,在海浪里疾驰。
提示词:猫咪坐在电脑前打字。
Round 4: 动漫主体
动漫风格可以说是Vidu的强项,在之前的7大AI视频神器测评中,Vidu就凭借着该强大功能备受好评。而此次“主体参照”功能中,动漫角色仍是拿手好戏。
提示词:蜡笔小新踢球。
提示词:柯南在路上奔跑。
生成的视频中,无论是装扮还是面孔,都是那个熟悉的柯南。而且,整个镜头的画风均保持动漫风格。
不过,它也有些bug。例如,胳膊摆动时会有些虚化,随着镜头拉远,柯南竟然腾空飞起来了。
Vidu最让人惊喜的,还得是对于3D动画人物的处理。
提示词:男孩站在厨房切菜。
提示词:女孩在花园里跳舞。
Round 5:商品主体
众所周知,广告片的一大关键就是保证多个镜头、不同场景下品牌物形象的一致性。Vidu的“主体参照”功能就派上用场。
例如,我们上传一张可口可乐的商品图,并输入提示词:罐子垂直落在水里,溅起水花,Vidu随即完成产品的动态表现。
上效果:
提示词:食物摆在黑色大理石餐桌上,垂直洒下粉色的樱花花瓣。
效果最明显的,还要数下面的这则跑步鞋广告视频。
视频链接:https://mp.weixin.qq.com/s/7a6EScdJ2M4nFT40JqGwZw
这则跑步鞋广告中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。据悉,该广告视频仅由一个人花6小时完成的,包含前期策划、素材生成,后期剪辑。要知道,在传统广告片制作中,高质量的镜头依赖线下实拍和后期制作,时间周期长、成本投入大。而如今,Vidu凭一己之力,就可以在广告制作中挑大梁。
专业名词傻傻分不清?
目前,视频大模型领域已有“图生视频”和“角色一致性”等能力,那么,Vidu的“主体参照”功能到底强在哪儿?咱们先来缕缕这几个概念。
所谓“图生视频”(Image to Video),就是基于首帧画面的连续生成。它无法直接输出目标场景,这就限制了视频内容的多样性和场景的自由度。
“角色一致性”(Character to Video),则只限于人物面部特征的一致性,难以保证人物整体形象的稳定。
而Vidu的“主体参照”(Subject Consistency),不局限于人物,面向任意主体。其次在人物主体下,可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景。
例如,我们输入一张林黛玉的角色照,输入同样的提示词“在现代咖啡厅喝咖啡”。
图生视频效果:
\u200d“角色一致性”效果:
Vidu的“主体参照”效果:
我们能直观看到,在Vidu“主体参照”功能下,林黛玉的形象在现代场景中得到了完美保留,场景输出也自然而真实。
现在,你能分清了吗?
OK,今天的AI小课堂就到这儿,古德拜!
工具链接——Vidu官网:www.vidu.studio
以后我们会带来更多好玩的AI应用,也欢迎大家进群交流。
Views: 0