港大与字节跳动联手打造长视频生成模型Loong,开启视频内容创作新纪元
香港–(2024年10月28日)— 香港大学与字节跳动今日联合宣布推出名为Loong的新型长视频生成模型,该模型能够生成外观一致、动态丰富、场景过渡自然的分钟级长视频。Loong的诞生标志着人工智能在视频内容创作领域的重大突破,为用户提供了一种前所未有的生成长视频内容的便捷方式。
Loong基于自回归大型语言模型(LLM),将文本和视频信息整合为统一序列,并采用渐进式短到长训练方案与损失重新加权策略,克服了长视频训练中面临的诸多挑战。与传统的视频生成模型相比,Loong在以下几个方面展现出显著优势:
1. 长视频生成: Loong能够生成长达一分钟或更长时间的视频内容,突破了传统视频生成模型在时长上的限制,为用户提供更丰富的视频内容创作可能性。
2. 文本到视频的转换: Loong可以根据给定的文本提示生成与之相符的视频内容,将文本信息转化为生动的视觉呈现,为用户提供了一种全新的内容创作方式。
3. 内容连贯性: Loong生成的视频在外观、动态变化和场景过渡上具有高度连贯性,确保了视频内容的完整性和逻辑性,为用户提供更加自然流畅的观影体验。
4. 动态丰富性: Loong能够捕捉并表现出视频中的复杂动态和动作变化,为用户呈现更加生动逼真的视频内容。
5. 场景自然过渡: Loong在视频的不同场景之间实现平滑过渡,保持视觉连贯性,为用户提供更加沉浸式的观影体验。
Loong的技术原理主要体现在以下几个方面:
1. 统一序列建模: Loong将文本标记和视频标记作为统一序列进行建模,让自回归大型语言模型(LLM)基于文本提示预测视频标记,实现文本和视频信息的有效融合。
2. 渐进式短到长训练: Loong基于分阶段训练策略,逐渐增加训练视频的长度,模型能学习并生成更复杂、更具连贯性的视频内容,有效解决长视频训练中的复杂性问题。
3. 损失重新加权:为了解决长视频训练中的损失不平衡问题,Loong对早期帧的损失进行加权,强化模型对早期帧的学习,确保视频内容的完整性和一致性。
4. 视频标记重新编码: 在视频推理过程中,Loong基于将预测的视频标记解码为像素空间的视频帧,重新编码,保持视频内容的连贯性和一致性,提高视频生成质量。
5. 采样策略: Loong基于Top-k采样策略,从最可能的标记中进行选择,减少潜在错误对后续标记生成的影响,缓解错误累积问题,确保视频内容的准确性和可靠性。
Loong的应用场景十分广泛,包括:
1. 娱乐和社交媒体: 用户可以使用Loong生成个性化的长视频内容,分享在社交媒体平台上,如音乐视频、旅行日志、趣味故事等,丰富用户的内容创作和分享体验。
2. 电影和视频制作: 在电影预告片、特效制作或者长视频内容的初步创意阶段,Loong可以快速生成视频草图,帮助导演和制片人探索不同的故事线和视觉效果,提高创作效率。
3. 广告和营销:企业可以使用Loong生成吸引人的广告视频,更生动的方式展示产品或服务,提高广告的吸引力和记忆度,提升营销效果。
4. 教育和培训: 在教育领域,Loong可以创建教育内容,如历史重现、科学实验模拟,提供更加直观和互动的学习体验,提高学习效率。
5. 新闻和报道: 新闻机构可以使用Loong快速生成新闻故事的视频摘要,提高报道的效率和吸引力,增强新闻传播效果。
Loong的推出将为视频内容创作带来革命性的改变,为用户提供更加便捷、高效、高质量的视频内容创作体验。未来,随着人工智能技术的不断发展,Loong将不断完善和升级,为用户提供更加智能、便捷、高效的视频内容创作工具,开启视频内容创作的新纪元。
Views: 0