PicsArt推出2分钟视频生成模型 StreamingT2V

8 月 28, 2024 #picsart, #每日AI快讯

PicsArt 推出全新 AI 模型 StreamingT2V，实现长达2分钟视频生成

北京时间 [日期] – PicsArt AI 研究团队近日发布了一款名为 StreamingT2V 的文本到视频生成模型，该模型能够根据文本描述生成长达 2 分钟的视频，突破了现有模型在生成长视频时遇到的质量下降、场景转换不一致和视频停滞等问题。

StreamingT2V 的出现为视频内容创作带来了新的可能性，它不仅可以帮助用户快速生成高质量的视频，还可以为电影、游戏、广告等领域提供更加高效的制作流程。

StreamingT2V 的优势

与传统的文本到视频生成模型相比，StreamingT2V 拥有以下优势：

长视频生成： StreamingT2V 可以生成长达 1200 帧的视频，相当于 2 分钟的时长，远超传统模型通常生成的短视频长度。
时间连贯性： 生成的视频帧之间具有平滑的过渡和一致性，避免了生成长视频时常见的硬切换或不连贯现象。
高质量图像帧： StreamingT2V 注重帧级别的图像质量，保证即使在视频较长的情况下，每一帧的图像也能保持清晰和细腻。
文本对齐： StreamingT2V 生成的视频紧密对齐于输入的文本提示描述，确保视频内容与用户的文本指导保持一致。
*视频增强：利用随机混合方法，StreamingT2V 可以对生成的视频进行质量增强，提高视频的分辨率和视觉效果。

StreamingT2V 的工作流程

StreamingT2V 的工作流程可以分为以下几个主要阶段：

初始化阶段：使用预训练的文本到视频模型生成一个初始的短视频序列。
流式生成阶段： 使用条件注意模块 (CAM) 和外观保持模块 (APM) 生成长视频的后续帧。CAM 利用短期记忆，通过注意力机制关注前一个视频块的特征，从而实现块之间的平滑过渡。APM 则利用长期记忆，从初始视频块中提取关键的视觉特征，确保在整个视频生成过程中保持场景和对象的一致性。
流式细化阶段： 使用高分辨率的文本到视频模型对生成的视频进行自回归增强，提高视频的整体质量和分辨率。

StreamingT2V 的应用前景

StreamingT2V 的出现为视频内容创作带来了新的可能性，它可以应用于以下领域：