上海–(第一财经) 8月31日,一向低调的“AI六小龙”之一——MiniMax首次正式对外,在上海举办了“MiniMax Link伙伴日”活动。会上,MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型,并预告新一代大模型abab7将在未来几周内发布,其速度和效果将对标GPT-4。
MiniMax的视频生成模型名为video-1,目前仅提供文生视频功能,未来将迭代图生视频、可编辑、可控性等功能。据介绍,与市面上的视频模型相比,video-1具有压缩率高、文本响应好和风格多样的特点,可生成原生高分辨率、高帧率视频。用户可以在海螺AI官网体验video-1的视频生成功能,输入一段简单的提示词,等待1-2分钟即可生成6秒的视频。
视频生成赛道:一场新的“军备竞赛”
MiniMax的加入,标志着国内视频生成赛道竞争进一步加剧。自今年2月OpenAI发布视频大模型Sora后,行业内掀起了一股视频生成热潮。生数科技、快手、Luma AI、Runway、阿里达摩院、爱诗科技、智谱、字节等国内外科技巨头纷纷推出各自的视频生成模型。
短短几个月内,数十款视频生成模型问世,这在过去是难以想象的。一位行业人士感慨,过去一年对于AI视频生成来说是一个历史性的时刻。
多模态内容:大模型的未来方向
MiniMax创始人闫俊杰认为,人类社会的信息更多体现在多模态内容上,而不仅仅是文字。为了能够有更高的用户覆盖度和使用深度,大模型厂商需要输出多模态的内容,而不是只局限于文字内容。
“我们每天看的大部分内容,都不是文字,都是一些动态的内容。你打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。”闫俊杰表示,“生活中的文字交互只是很小的一部分,更多的是语音和视频交互。”
因此,MiniMax选择布局视频生成,是其战略布局的一部分,也是大模型发展趋势的必然结果。
视频生成面临的挑战
尽管视频生成领域发展迅速,但仍面临着诸多挑战。
首先,目前的视频生成结果远远达不到用户的预期,模型并不懂物理规则,同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题,如通常会多长出一样东西或者少一样东西,或者手穿模到人身体里,精细化的视频,尤其是具有物理规则的视频目前很难生成。
其次,视频数据量巨大,处理起来难度更高。一个5秒的视频可能需要几M的存储空间,而5秒的文字可能只有100个字,不到1K的数据量。这使得视频数据的处理、清洗和标注都比文字数据更复杂。
闫俊杰也坦言,“视频生成这件事还挺难的”,否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难,因为视频的上下文文本天然很长。例如,一个视频是千万的输入和输出,天然就是一个很难的处理。
未来展望:视频生成将全面爆发
尽管挑战重重,但视频生成领域未来发展前景依然广阔。启明创投预测,未来3年内视频生成将全面爆发,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革。
未来,图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升五倍以上。这将为视频生成领域带来新的突破,也为大模型的应用带来新的可能性。
总结
MiniMax的加入,标志着视频生成赛道竞争进入白热化阶段。随着技术的不断发展,视频生成将成为大模型应用的重要方向,并将对各个行业产生深远的影响。未来,我们期待看到更多更强大的视频生成模型出现,以及更多令人惊叹的应用场景。
Views: 0