新王登基？MAGI-1自回归扩散视频生成模型究竟怎么样？-课多多

今天逛X的时候，

看到了Sand.ai官方发的推文，

截图如下：

开源的雪佬机器配置不行，

咱就不测了，

但是发现，网页端也有提供，

那雪佬就不客气了，

直接点开官网，网址如下：

https://sand.ai/

点开之后，直接点击使用Magi进行创作

点开之后可以看到新用户每月500免费积分，

好吧，那就用这500免费积分测试下吧，

老司机一顿操作行云流水，

先点击创建新项目，

然后上传图片

上传过图片后，来到下图这个界面，

为了方便大家观看，我局部截图一下

通过上图，大家可以看到，

持续时间，就是视频生成的时间长度，

最短可以选择1秒，最长10秒，

1秒钟是10积分，你可以1S-10S任意输入，

这个是高质量开启的情况下所花费的积分，

如果关掉高质量，积分减半。

为了看下生成质量，我的高质量是开启的。

输入过提示词之后，直接点击生成，

上面写的是2分钟，

其实测试下来，

实际生成一个视频的时间是5分钟。

第一个视频生成之后，如果满意的话，

你还可以继续点视频卡片右边那个黄色+号，

继续延长视频，

因为免费积分不多，

雪佬只延长了一次，

这里值得一说的是这个播放按钮，

当你第二个视频生成之后，

你点击这个播放按钮，

它就会第一个视频和第二个视频连续播放，

这个功能就非常的方便，

你可以直观的在网页端就能看到连续的镜头，

故事的连续性很直观的就能看到了，

不需要把视频导入到视频剪辑软件里了。

好了，以上就是整个视频生成的操作步骤，

看到这里，

各位观众老爷一定很想看看生成结果如何，

我知道你很急，

我这就发出来。

各位观众老爷可以看看这个视频怎么样，

前8秒是第一个镜头，

后2秒是延长的镜头，

延续的这个2秒镜头还是不错的，

丝滑，

至于这个视频的生成效果，

雪佬觉得，中规中矩吧，

下面这个古代士兵战斗的镜头，

就体现出很差了，

请看VCR，

看过上面视频的观众老爷，

一定会，惊呼，

什么鬼？

人物身上像是有1万只蜜蜂在飞，

看来上点强度（指武打动作）的镜头，

MAGI-1还是不行的，

当然，这个我只是在网页端测试，

免费积分也比较少，

不能抽卡多生几次，

样本有点少，

另外雪佬的电脑也比较垃圾，

不能在本地跑，

所以，各位观众老爷也可以去官网试一试，

或者能在本地跑的朋友，

跑出来的视频，

欢迎在评论区交流经验。

那么有的观众老爷至今肯定还有个疑问，

到底什么是自回归模型，

那么，官方的说明是这个

我们提出了 MAGI-1，这是一个世界模型，它通过自回归预测一系列视频块（定义为固定长度的连续帧片段）来生成视频。MAGI-1 经过训练，可以去除随时间单调递增的单块噪声，从而实现因果时间建模，并自然支持流式生成。它在以文本指令为条件的图像到视频 (I2V) 任务中表现出色，提供了高度的时间一致性和可扩展性，这得益于多项算法创新和专用的基础架构堆栈。MAGI-1 还通过逐块提示支持可控生成，从而实现流畅的场景过渡、长时域合成和细粒度的文本驱动控制。我们相信，MAGI-1 为统一高保真视频生成、灵活的指令控制和实时部署提供了一个充满希望的方向。

另外，我也去问了GPT，

它给出的答案是这个，

自回归模型（Autoregressive Model）是一种常见的统计模型，它在生成数据时依赖于先前的生成结果。在生成式AI中，尤其是在文本生成和视频生成领域，自回归模型可以根据先前的输入或部分输出，逐步预测并生成后续的内容。

自回归模型的工作原理：

逐步生成：模型通过已经生成的部分数据来预测下一个数据点。例如，在文本生成中，模型会根据已经生成的单词或句子，预测下一个单词的出现概率。视频生成中，也是根据生成的帧或画面，预测下一帧的内容。
阶梯依赖：生成的每一部分都依赖于前面生成的部分。模型每一步的输出都会影响接下来的输出。
训练方式：在训练时，自回归模型通常通过已知的输入来学习如何生成新的内容。例如，给定一个图像，模型可以对学会渐进生成每个像素点，或者给定一段视频，它可以学习如何根据前一帧的内容生成下一个帧。