港大携手字节，推出长视频生成模型“Loong”

港大与字节跳动联手打造长视频生成模型Loong，开启视频内容创作新纪元

香港–(2024年10月28日)— 香港大学与字节跳动今日联合宣布推出名为Loong的新型长视频生成模型，该模型能够生成外观一致、动态丰富、场景过渡自然的分钟级长视频。Loong的诞生标志着人工智能在视频内容创作领域的重大突破，为用户提供了一种前所未有的生成长视频内容的便捷方式。

Loong基于自回归大型语言模型（LLM），将文本和视频信息整合为统一序列，并采用渐进式短到长训练方案与损失重新加权策略，克服了长视频训练中面临的诸多挑战。与传统的视频生成模型相比，Loong在以下几个方面展现出显著优势：

1. 长视频生成： Loong能够生成长达一分钟或更长时间的视频内容，突破了传统视频生成模型在时长上的限制，为用户提供更丰富的视频内容创作可能性。

2. 文本到视频的转换： Loong可以根据给定的文本提示生成与之相符的视频内容，将文本信息转化为生动的视觉呈现，为用户提供了一种全新的内容创作方式。

3. 内容连贯性： Loong生成的视频在外观、动态变化和场景过渡上具有高度连贯性，确保了视频内容的完整性和逻辑性，为用户提供更加自然流畅的观影体验。

4. 动态丰富性： Loong能够捕捉并表现出视频中的复杂动态和动作变化，为用户呈现更加生动逼真的视频内容。

5. 场景自然过渡： Loong在视频的不同场景之间实现平滑过渡，保持视觉连贯性，为用户提供更加沉浸式的观影体验。

Loong的技术原理主要体现在以下几个方面：

1. 统一序列建模： Loong将文本标记和视频标记作为统一序列进行建模，让自回归大型语言模型（LLM）基于文本提示预测视频标记，实现文本和视频信息的有效融合。

2. 渐进式短到长训练： Loong基于分阶段训练策略，逐渐增加训练视频的长度，模型能学习并生成更复杂、更具连贯性的视频内容，有效解决长视频训练中的复杂性问题。

3. 损失重新加权：为了解决长视频训练中的损失不平衡问题，Loong对早期帧的损失进行加权，强化模型对早期帧的学习，确保视频内容的完整性和一致性。

4. 视频标记重新编码： 在视频推理过程中，Loong基于将预测的视频标记解码为像素空间的视频帧，重新编码，保持视频内容的连贯性和一致性，提高视频生成质量。

5. 采样策略： Loong基于Top-k采样策略，从最可能的标记中进行选择，减少潜在错误对后续标记生成的影响，缓解错误累积问题，确保视频内容的准确性和可靠性。

Loong的应用场景十分广泛，包括：

1. 娱乐和社交媒体： 用户可以使用Loong生成个性化的长视频内容，分享在社交媒体平台上，如音乐视频、旅行日志、趣味故事等，丰富用户的内容创作和分享体验。

2. 电影和视频制作： 在电影预告片、特效制作或者长视频内容的初步创意阶段，Loong可以快速生成视频草图，帮助导演和制片人探索不同的故事线和视觉效果，提高创作效率。

3. 广告和营销：企业可以使用Loong生成吸引人的广告视频，更生动的方式展示产品或服务，提高广告的吸引力和记忆度，提升营销效果。

4. 教育和培训： 在教育领域，Loong可以创建教育内容，如历史重现、科学实验模拟，提供更加直观和互动的学习体验，提高学习效率。

5. 新闻和报道： 新闻机构可以使用Loong快速生成新闻故事的视频摘要，提高报道的效率和吸引力，增强新闻传播效果。

Loong的推出将为视频内容创作带来革命性的改变，为用户提供更加便捷、高效、高质量的视频内容创作体验。未来，随着人工智能技术的不断发展，Loong将不断完善和升级，为用户提供更加智能、便捷、高效的视频内容创作工具，开启视频内容创作的新纪元。