Genmo开源AI视频生成模型Mochi 1问世！

Mochi 1：开源高质量AI视频生成模型，开启视频创作新纪元

引言

在人工智能飞速发展的时代，AI视频生成技术正以前所未有的速度改变着内容创作方式。Genmo公司近日发布了其开源高质量AI视频生成模型Mochi 1，这一突破性的技术将为视频创作者、艺术家、教育工作者以及各行各业的用户带来前所未有的创作自由和可能性。

Mochi 1：开启视频创作新纪元

Mochi 1是Genmo公司推出的开源AI视频生成模型，其在动作质量和遵循用户提示方面表现出色。该模型基于Apache 2.0许可证发布，支持个人和商业用途的免费使用。Mochi 1目前提供480p的基础版本，计划在年底前推出支持720p的高清版本Mochi 1 HD，提供更高保真度和更流畅的动作。

Mochi 1的主要功能

高保真度动作生成： Mochi 1在动作生成方面取得了显著进步，能够生成流畅的视频，模拟物理原理如流体动力学、毛发和头发模拟，以及连贯、流畅的人类动作，开始跨越恐怖谷。
强大的提示遵循能力： Mochi 1能够非常准确地遵循用户提供的提示，生成符合预期的视频内容。通过文本和视觉标记联合构建视频，类似于Stable Diffusion 3，流式架构通过更大的隐藏维度，参数数量几乎是文本流的四倍。
开源架构： Mochi 1的模型权重和源代码根据Apache 2.0开源许可证发布，可以自由下载和使用，支持个人或商业用途。
高效率： Mochi 1使用了Genmo自己的非对称扩散变压器（Asymmetric Diffusion Transformer，简称AsymmDiT）架构，架构通过简化文本处理以专注于视觉效果来有效地处理用户提示和压缩视频令牌。
托管游乐场： Genmo提供了一个新的托管游乐场，用户可以免费试用Mochi 1的功能，体验视频生成的过程。
高参数量： Mochi 1使用了100亿参数的扩散模型，用于训练模型更加准确的变量数量。

Mochi 1的技术原理

非对称扩散变压器（AsymmDiT）架构： Mochi 1使用了Genmo自主研发的非对称扩散变压器架构，这种架构通过简化文本处理以专注于视觉效果，有效地处理用户提示和压缩视频令牌。AsymmDiT使用文本和视觉标记联合构建视频，类似于Stable Diffusion 3，但其流式架构通过更大的隐藏维度，其参数数量几乎是文本流的四倍，使用非对称设计，可以降低部署时的内存使用量。
实时视频生成技术： Mochi 1采用了Pyramid Attention Broadcast（PAB）技术，通过减少冗余注意力计算，实现了高达21.6 FPS的帧率和10.6倍的加速，同时不会牺牲视频生成质量。这种技术可以为任何未来基于DiT的视频生成模型提供加速，让其具备实时生成的能力。

Mochi 1的应用场景

*视频内容创作： Mochi 1可以用于生成高质量的视频内容，包括动画、特效、短片等，为视频制作者和艺术家提供强大的创作工具。
* 教育和培训： 在教育领域，Mochi 1可以生成教学视频，帮助解释复杂的概念或模拟实验过程，提高学习效率。
* 娱乐和游戏： 在游戏和娱乐行业，Mochi 1可以用来生成游戏内的动态背景视频或故事情节，增强玩家的沉浸感。
* 广告和营销： Mochi 1可以用于生成吸引人的广告视频，帮助企业以更低的成本创造更具吸引力的广告内容。
* 社交媒体： 在社交媒体平台上，Mochi 1可以帮助内容创作者生成独特的视频内容，吸引更多关注和互动。
* 新闻和报道： 在新闻行业，Mochi 1可以用于生成新闻报道的背景视频或模拟事件的动态视觉效果，提高报道的吸引力。

结论

Mochi 1的开源发布标志着AI视频生成技术进入了一个新的发展阶段。其高保真度动作生成、强大的提示遵循能力、开源架构以及高效的生成速度，将为各行各业的用户带来前所未有的创作自由和可能性。随着技术的不断发展，我们相信Mochi 1将成为未来视频创作的重要工具，为我们带来更加精彩、多元的视频内容。

参考文献