谷歌发布VideoPoet：AI革命，视频创作新纪元

作者智能小编

8 月 28, 2024 #VideoPoet, #每日AI快讯, #谷歌

谷歌的研究团队近日宣布了一项重大创新——VideoPoet，这是一款基于大模型的AI视频生成工具，能够从文本、图像或现有视频中创造出高质量的视频内容，并自动生成匹配的音频。VideoPoet的核心亮点在于其多模态设计，无需特定数据集或扩散模型，即可实现多种风格和动作的视频输出。

多功能视频生成

VideoPoet具备以下主要功能：

文本到视频转换：用户只需输入一段描述，模型即可自动生成相应的视频片段，将文字生动地转化为视觉画面。
图像到视频动画：静态图片也能摇身一变，成为动态视频，为静止的画面注入活力。
视频风格化：VideoPoet可将视频转换成不同的艺术风格，如油画或卡通，为视频创作带来无限可能。
视频编辑与扩展：编辑现有视频，改变物体动作，添加新元素，甚至可以生成更长的视频内容。
视频到音频转换：模型能为无声视频配上音效或音乐，实现视听一体的创作。

技术原理与优势

VideoPoet采用了多模态输入处理，通过特定分词器将不同类型的输入转换为离散标记，由解码器架构的Transformer处理。预训练与任务适应策略使模型具备强大基础，可适应多种视频生成任务。通过自回归生成方法，模型确保了视频内容的连贯性。此外，超分辨率模块则提升了视频的分辨率和质量。

VideoPoet的另一个突出特点是其零样本视频生成能力，即使面对未见过的输入，也能生成连贯的视频，展示了出色的泛化性能。同时，模型支持任务链式处理，能组合多个任务执行新的创作任务，如视频编辑和风格转换。

谷歌的VideoPoet标志着AI在视频创作领域的重大突破，为内容创作者提供了强大的工具，有望引领新一轮的创新潮流。对于新闻报道、广告制作、教育素材等领域的应用，VideoPoet将极大地提升效率和创造力。