引言:

在人工智能视频生成领域,当OpenAI的Sora和谷歌的Veo 2等巨头产品还在“犹抱琵琶半遮面”之时,一家名为图森未来的智驾公司却以一种出人意料的方式闯入了人们的视野。这家公司不仅推出了自己的AI视频生成模型Ruyi(如意),更令人惊讶的是,它选择了直接开源,让所有人都能免费使用。这一举动无疑给竞争激烈的AI视频生成领域投下了一枚重磅炸弹,引发了业界的广泛关注。

正文:

1. 巨头“藏掖”,新秀“豪掷”

大洋彼岸,OpenAI的Sora以其强大的生成能力吸引了无数目光,但每月200美元的订阅费用和上线后的“翻车”事件,让不少用户望而却步。谷歌的Veo 2虽然好评如潮,却迟迟未能向公众开放。相比之下,图森未来显得格外“豪横”。12月17日,这家公司正式发布了其首款图生视频开源大模型Ruyi,并同步开源了Ruyi-Mini-7B版本,用户可以在Hugging Face和GitHub上免费下载使用。

2. Ruyi:人人可用的AI视频生成工具

为了降低用户的使用门槛,图森未来还提供了详细的部署说明和ComfyUI工作流,用户只需在消费级显卡(如RTX 4090)上即可运行。Ruyi无需输入提示词,仅需一张图片,即可生成最高分辨率720P、时长5秒的视频。它支持任意长宽比,并能根据输入图片生成相应尺寸的视频。此外,Ruyi还支持最多5个起始帧和5个结束帧的视频生成,通过循环叠加可生成任意长度的视频。同时,Ruyi还提供了4档运动幅度控制和5种镜头控制,方便用户对视频进行精细调整。

3. Ruyi效果初探:从写实到动画,表现可圈可点

从官方提供的演示视频来看,Ruyi在人物面部表情、光影效果、物体材质等细节处理上表现出色。无论是写实风格的金发女郎、韩国影星金敏喜,还是影视剧照中的《老友记》莫妮卡和《公主日记》安妮·海瑟薇,Ruyi都能较好地还原人物形象。在动画风格方面,Ruyi生成的皮克斯风格腊肠犬和卡通小兔,动作流畅自然,画面稳定。即使是动物和风景的生成,Ruyi也展现出了不俗的实力。例如,小狗的摇头晃脑、小猫的扭头动作,以及湖面泛起的涟漪,都显得生动逼真。

尽管如此,Ruyi仍存在一些不足,如手部畸形、多人时面部细节崩坏、不可控转场等问题,但考虑到其开源免费的特性,以及其在画面一致性、动作流畅性和真实性上的表现,Ruyi无疑是一款值得期待的AI视频生成工具。

4. 智驾公司“半路出家”:技术积累的意外之喜

图森未来此前是一家专注于智能驾驶的公司,今年8月15日才宣布进军动画与视频游戏市场,并成立了“生成式AI”新业务部门。该公司认为,其在自动驾驶领域积累的技术优势,如AI基础设施、大规模数据处理能力、模型训练优化经验等,可以直接转化为AI生成领域的竞争力。他们看中了动漫和游戏产业的巨大潜力,希望通过大模型降低开发周期和成本。

5. Ruyi背后的技术:DiT架构与训练细节

Ruyi采用了近年来流行的DiT架构,该架构也是OpenAI Sora的“幕后功臣”。Ruyi由Casual VAE模块和Diffusion Transformer组成。Casual VAE模块负责视频数据的压缩和解压,Diffusion Transformer负责压缩后的视频生成。其中,Casual VAE模块会将空间分辨率压缩至1/8,时间分辨率压缩至1/4。DiT部分使用3D full attention,并在空间上使用2D RoPE进行位置编码,时间上使用sin_cos进行位置编码。模型的总参数量约为7.1B,使用了约200M个视频数据进行训练。

结论:

图森未来开源Ruyi的举动,不仅为AI视频生成领域注入了新的活力,也为广大开发者和用户提供了免费的AI工具。尽管Ruyi目前还存在一些不足,但其开源的特性和强大的潜力,无疑将推动AI视频生成技术的进一步发展。图森未来从智能驾驶到生成式AI的跨界尝试,也为其他科技公司提供了新的发展思路。未来,我们或许将看到更多来自不同领域的公司,利用自身的技术优势,在AI领域开辟新的赛道。

参考文献:

(注:以上参考文献格式为APA格式)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注