MiniMax推出AI视频音乐生成模型海螺AI开放体验

上海–(第一财经) 8月31日，一向低调的“AI六小龙”之一——MiniMax首次正式对外，在上海举办了“MiniMax Link伙伴日”活动。会上，MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型，并预告新一代大模型abab7将在未来几周内发布，其速度和效果将对标GPT-4。

MiniMax的视频生成模型名为video-1，目前仅提供文生视频功能，未来将迭代图生视频、可编辑、可控性等功能。据介绍，与市面上的视频模型相比，video-1具有压缩率高、文本响应好和风格多样的特点，可生成原生高分辨率、高帧率视频。用户可以在海螺AI官网体验video-1的视频生成功能，输入一段简单的提示词，等待1-2分钟即可生成6秒的视频。

视频生成赛道：一场新的“军备竞赛”

MiniMax的加入，标志着国内视频生成赛道竞争进一步加剧。自今年2月OpenAI发布视频大模型Sora后，行业内掀起了一股视频生成热潮。生数科技、快手、Luma AI、Runway、阿里达摩院、爱诗科技、智谱、字节等国内外科技巨头纷纷推出各自的视频生成模型。

短短几个月内，数十款视频生成模型问世，这在过去是难以想象的。一位行业人士感慨，过去一年对于AI视频生成来说是一个历史性的时刻。

多模态内容：大模型的未来方向

MiniMax创始人闫俊杰认为，人类社会的信息更多体现在多模态内容上，而不仅仅是文字。为了能够有更高的用户覆盖度和使用深度，大模型厂商需要输出多模态的内容，而不是只局限于文字内容。

“我们每天看的大部分内容，都不是文字，都是一些动态的内容。你打开小红书都是图文，打开抖音都是视频，甚至打开拼多多买东西，大部分时候也是图片。”闫俊杰表示，“生活中的文字交互只是很小的一部分，更多的是语音和视频交互。”

因此，MiniMax选择布局视频生成，是其战略布局的一部分，也是大模型发展趋势的必然结果。

视频生成面临的挑战

尽管视频生成领域发展迅速，但仍面临着诸多挑战。

首先，目前的视频生成结果远远达不到用户的预期，模型并不懂物理规则，同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题，如通常会多长出一样东西或者少一样东西，或者手穿模到人身体里，精细化的视频，尤其是具有物理规则的视频目前很难生成。

其次，视频数据量巨大，处理起来难度更高。一个5秒的视频可能需要几M的存储空间，而5秒的文字可能只有100个字，不到1K的数据量。这使得视频数据的处理、清洗和标注都比文字数据更复杂。

闫俊杰也坦言，“视频生成这件事还挺难的”，否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难，因为视频的上下文文本天然很长。例如，一个视频是千万的输入和输出，天然就是一个很难的处理。

未来展望：视频生成将全面爆发

尽管挑战重重，但视频生成领域未来发展前景依然广阔。启明创投预测，未来3年内视频生成将全面爆发，结合3D能力，可控的视频生成将对影视、动画、短片的生产模式带来变革。

未来，图像和视频隐空间表示的压缩率提升五倍以上，从而使生成速度提升五倍以上。这将为视频生成领域带来新的突破，也为大模型的应用带来新的可能性。

总结

MiniMax的加入，标志着视频生成赛道竞争进入白热化阶段。随着技术的不断发展，视频生成将成为大模型应用的重要方向，并将对各个行业产生深远的影响。未来，我们期待看到更多更强大的视频生成模型出现，以及更多令人惊叹的应用场景。

>>> Read more <<<

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

MiniMax推出AI视频音乐生成模型海螺AI开放体验

作者智能小编

相关文章

9月连环杀戮：16条人命竟成高价商品

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

日式反差：爆款App禁说日语，引爆热议

发表回复取消回复

为您推荐