阿里巴巴推出高保真图像到视频生成框架AtomoVideo，赋能视频内容创作新时代

北京，2024年3月20日 – 阿里巴巴研究团队近日发布了名为AtomoVideo的高保真图像到视频（Image-to-Video,I2V）生成框架，旨在从静态图像生成高质量的视频内容。这一突破性技术有望彻底改变视频内容创作方式，为用户提供更便捷、更个性化的视频制作体验。

AtomoVideo的核心优势在于其能够保持生成视频与给定参考图像之间的高保真度，同时实现丰富的运动强度和良好的时间一致性。与目前市面上流行的Runway Gen-2和Pika 1.0等工具相比，AtomoVideo在图像细节保留、动态视频生成以及个性化和可控生成方面展现出了显著优势。

AtomoVideo的关键功能特性包括：

高保真图像到视频生成： AtomoVideo能够根据用户输入的静态图像生成与之高度一致的视频内容，生成的视频在风格、内容和细节上都与原始图像保持高度相似。
视频帧预测： 该框架支持长视频序列的生成，通过迭代预测后续帧的方式，可以从一系列初始帧生成更长的视频内容。
时间一致性和稳定性： AtomoVideo在生成视频时，注重时间上的连贯性和稳定性，确保视频播放时动作流畅，不会出现突兀的跳转或不连贯的画面。
文本到视频生成： 结合先进的文本到图像模型，AtomoVideo还能够实现文本到视频的生成，用户可以通过文本描述来指导视频内容的创作。
个性化和可控生成： 通过与个性化的文生图模型和可控生成模型的结合，AtomoVideo能够根据用户的特定需求生成定制化的视频内容。

AtomoVideo的工作原理基于以下几个关键要素：

图像信息注入： AtomoVideo在生成过程中通过两种方式注入图像信息，以确保生成视频与输入图像的一致性。首先，通过VAE编码器将输入图像编码为低级表示，并将其与高斯噪声结合。其次，使用CLIP图像编码器提取图像的高级语义表示，并通过交叉注意力层注入到生成过程中。
视频帧预测： 为了实现长视频的生成，AtomoVideo采用迭代预测的方法。给定一系列初始视频帧，模型会预测接下来的帧，从而在有限的GPU内存约束下生成长视频序列。
训练和推理： AtomoVideo使用内部的15M数据集进行训练，该数据集包含约10-30秒长的视频，以及相应的文本描述。训练过程中采用了零终端信噪比（SNR）和v-prediction策略，以提高视频生成的稳定性。在推理阶段，模型执行分类器自由引导（Classifier-Free Guidance），结合图像和文本条件注入，以提高生成输出的稳定性。
个性化视频生成： AtomoVideo在训练时固定了基础2D UNet的参数，只训练添加的参数，因此可以与社区中流行的个性化模型结合。例如，可以与epiCRealism这样的T2I模型结合，该模型擅长生成光和影效果，用于I2V生成时倾向于生成包含光元素的视频。

AtomoVideo的发布标志着视频内容创作领域迈入了一个新的时代。 这一技术不仅能够为用户提供更便捷、更个性化的视频制作体验，还能为视频内容创作带来更多可能性，推动视频内容创作的繁荣发展。

相关链接：

关于阿里巴巴：

阿里巴巴集团是全球领先的电子商务公司，致力于为消费者和企业提供全面的互联网解决方案。阿里巴巴集团旗下拥有淘宝、天猫、支付宝、阿里云等多个知名品牌，在全球范围内拥有庞大的用户群体和强大的影响力。

【source】https://ai-bot.cn/atomovideo/