智谱AI开源AI视频生成模型CogVideoX:文本变视频,创意无限
北京,2023年10月26日 – 智谱AI今日宣布开源其最新研发的AI视频生成模型CogVideoX,为AI视频生成领域注入新的活力。CogVideoX基于智谱AI的商业产品“清影”技术,支持英文提示词,能够生成6秒长、每秒8帧、分辨率为720*480的视频。该模型开源后,将为广大开发者和研究人员提供更多探索AI视频生成技术的机会。
CogVideoX:文本变视频,创意无限
CogVideoX的核心功能是将用户输入的文本提示词转化为视频内容,实现“文生视频”。这一功能将为视频创作领域带来革命性的变化,让用户无需专业技能,即可快速将脑海中的创意转化为生动的视频。
技术亮点:3D Causal VAE与专家Transformer
CogVideoX的技术原理基于深度学习模型,特别是基于Transformer的架构。其核心技术包括:
- 3D Causal VAE: 3D Causal Variational Autoencoder(变分自编码器)技术,能够高效地重建视频内容,减少存储和计算需求。
- 专家Transformer: 专家Transformer模型,通过多个专家处理不同的任务,例如空间和时间信息的处理,以及控制信息流动等,提升模型的效率和准确性。
应用场景:创意无限,潜力巨大
CogVideoX的应用场景十分广泛,包括:
- 创意视频制作: 为独立视频创作者和艺术家提供工具,快速将创意文本描述转化为视觉视频内容。
- 教育和培训材料: 自动化生成教育视频,帮助解释复杂概念或展示教学场景。
- 广告和品牌宣传: 企业可以用CogVideoX模型生成吸引眼球的广告视频,提升品牌宣传效果。
- 游戏和动画制作: CogVideoX可以帮助游戏开发者和动画师快速生成游戏场景和动画效果。
开源赋能:推动AI视频生成技术发展
CogVideoX的开源将为AI视频生成领域带来新的发展机遇,促进更多开发者和研究人员参与到该领域的研究和应用中。
性能评估:指标领先,质量优异
为了评估CogVideoX的性能,智谱AI使用了VBench中的多个指标,以及Dynamic Quality和GPT4o-MT Score等视频评估工具。结果表明,CogVideoX在视频生成质量方面表现出色,指标领先。
未来展望:持续优化,拓展应用
智谱AI表示,CogVideoX的开源只是第一步,未来将继续优化模型性能,拓展应用场景,为用户提供更强大、更便捷的AI视频生成工具。
CogVideoX项目地址:
- 智谱清影体验:https://ai-bot.cn/chatglm-video/
- GitHub仓库:https://github.com/THUDM/CogVideo
- HuggingFace模型库:https://huggingface.co/THUDM/CogVideoX-2b
- 技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
*arXiv技术论文:Coming soon
CogVideoX的出现,标志着AI视频生成技术迈上了新的台阶,为未来视频创作带来了无限可能。相信随着技术的不断发展,AI视频生成技术将更加成熟,为人们的生活带来更多便利和乐趣。
【source】https://ai-bot.cn/cogvideox/
Views: 0