北京青年报

MiniMax加入视频生成混战大模型的尽头是做视频？

第一财经 2024-09-02 15:25

又一家国内独角兽加入视频生成模型的混战。

8月31日，一向低调的“AI六小龙” 之一——MiniMax第一次正式对外，在上海办了场“MiniMax Link伙伴日”活动。在会上，MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。此外，他预告，新⼀版能从速度和效果都对标GPT-4o的大模型abab7，会在未来⼏周内发布。

这一视频生成模型的对外名称为video-1，在具体参数上MiniMax并未有太多介绍。闫俊杰提到，相比市面上的视频模型，video-1具有压缩率高、文本响应好和风格多样的特点，可生成原生高分辨率、高帧率视频。目前video-1只提供了文生视频，在未来产品会迭代图生视频、可编辑、可控性等功能。

闫俊杰在活动现场介绍MiniMax的大模型产品

目前所有用户都可以登录海螺AI官网体验video-1的视频生成功能，记者在现场体验了一下，输入一段简单的提示词，大概等待1-2分钟，可生成6秒的视频。从输出效果来看，画面基本覆盖了提示词说到的点，高清、色调审美合格，可以改进的地方是人物面部细节。

在大会讨论环节，闫俊杰提到一个点是，大模型是一个看起来很热，但是也有很多非共识的领域，“到底要做2B还是2C，到底做国内还是做海外，Scaling law到底能不能延续……”等等。

尽管有这么多非共识，但视频生成或许是今年各大模型厂商的共识。

自今年2月OpenAI发布视频大模型Sora后，行业叫得上名字的发布不少，4月生数科技发布视频大模型Vidu，6月快手发布AI视频生成大模型可灵，一周后Luma AI发布文生视频模型Dream Machine，Runway在7月初宣布，文生视频模型Gen-3 Alpha向所有用户开放使用，在世界人工智能大会期间阿里达摩院推出寻光，7月底，爱诗科技发布PixVerse V2，随后智谱正式发布清影视频，8月初，字节即梦AI上架应用商店……

一年前市面上还很少有面向公众的文生视频模型，短短几个月内我们目睹了几十款视频生成模型的问世，一位行业人士感慨，过去一年对于AI视频生成来说是一个历史性的时刻。

在采访中，第一财经记者问及MiniMax布局视频生成的必要性，闫俊杰表示，本质原因是，人类社会的信息更多体现在多模态内容上，“我们每天看的大部分内容，都不是文字，都是一些动态的内容。你打开小红书都是图文，打开抖音都是视频，甚至打开拼多多买东西，大部分时候也是图片。”⽣活中，⽂字交互只是很⼩的⼀部分，更多的是语⾳和视频交互。

因此，为了能够有非常高的用户覆盖度，以及更高的使用深度，作为大模型厂商，唯一的办法是能够输出多模态的内容，而不是只是输出单纯的基于文字的内容，闫俊杰解释，这是一个核心的判断。

“只是在之前我们先做出来文字，又做出来声音，很早做出来了图片，现在技术变得更强，（可以）把视频也做出来。这个路线是一以贯之的，一定要能做多模态。” 闫俊杰说。

但视频生成赛道很难，仅看OpenAI在年初发布Sora后，至今没有正式对外，也可以窥见行业的一些挑战。

一方面，目前的视频生成结果远远达不到用户的预期，模型并不懂物理规则，同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题，如通常会多长出一样东西或者少一样东西，或者手穿模到人身体里，精细化的视频、尤其是具有物理规则的视频目前很难生成。

在采访中，闫俊杰也表示“这件事还挺难的”，否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难，因为视频的上下文文本天然很长。例如，一个视频是千万的输入和输出，天然就是一个很难的处理。其次，视频量很大，看一个5秒的视频就有几M，但是5秒看的文字大概100个字，可能都不到1K的数据量，这是几千倍的存储差距。

“这里面的挑战在于，之前基于文本建的这套底层基础设施怎么来处理数据，怎么来清洗数据，以及怎么来标注，对视频上都不太适用。”闫俊杰认为，基础设施需要升级，其次就是耐心，做文字有很多开源，如果基于开源来做，自己研发会更快，如果做视频，开源内容没那么多，很多内容做出来也会发现需要重做，需要付出的耐心更大。

此前有行业从业者对记者表示，目前的视频生成有点像图像生成的2022年前夕，2022年8月Stable Diffusion开源后，AIGC图像生成开始爆发，但视频生成领域目前还没有一个特别厉害的“开源Sora”发布，大家还需要探路。

启明创投在7月发布了 “2024生成式AI十大展望”，其中一条是，3年内视频生成将全面爆发，他们认为，结合3D能力，可控的视频生成将对影视、动画、短片的生产模式带来变革。未来图像和视频隐空间表示的压缩率提升五倍以上，从而使生成速度提升五倍以上。

编辑/范辉