MoonShot:在多模态条件下实现可控视频生成和编辑
“MoonShot: Towards Controllable Video Generation and Editing with Multimodal Conditions”
摘要
简介
相关工作
模型结构和适配
实验
人类评估
在Amazon Mechanical Turk上进行的人类评估,包括视频编辑任务、ControlNet评估和文本到视频消融研究。对于视频编辑任务,评估者需要根据三个标准(提示到编辑帧的精度、视频的时间连贯性和整体质量)从五种方法中选择最优结果。对于ControlNet评估,评估者需要判断创建的视频是否符合控制信号。对于文本到视频消融研究,评估者需要评估视频的整体质量、文本视频对齐的准确性和运动保真度。
主题定制生成
在DreamBooth数据集上进行了实验,评估了主题定制视频生成的效果。通过使用DINO和CLIP-I分数来评估主题对齐性,使用CLIP-T来评估视频文本对齐性,计算所有帧的平均分数。实验结果表明,该方法在零样本定制方面表现出色,远远超过非定制的文本到视频模型。与需要针对新主题进行重复训练的AnimateDiff不同,该方法利用预训练的解耦多模态注意力层,实现了零样本定制,并且性能相当。如果使用80个步骤进行微调,该方法的性能进一步超过了AnimateDiff,证明了模型的有效性。此外,该模型还能够与图像ControlNet直接集成,实现对几何结构的控制。
图像动画
通过对128个视频-文本对进行评估,该方法在身份保留、时间一致性和文本对齐等方面表现出色,优于其他方法。与其他方法相比,该方法能更好地保持外观,使动画与文本提示相一致。同时,该方法还与I2VGEN-XL、DynamiCrafter和VideoComposer进行了定性比较,证明了其优越性。
本文比较了四种视频编辑方法,并介绍了作者的方法在时间一致性和帧编辑准确性方面的优势。作者的方法使用基础VDM模型进行视频编辑,相比于使用图像模型的方法,具有更好的时间一致性。在定性结果中,作者的方法成功地根据条件图像替换了吉普车,并符合文本提示。
文本到视频生成
本文介绍了一种基于文本和图像的多模态生成模型,该模型在零样本生成方面表现出色,使用MSR-VTT数据集进行评估,取得了最佳结果。模型在训练过程中冻结空间层,先生成图像,再与文本结合进行多模态生成。该模型在FID-vid、FVD和CLIP-T等方面表现优异,具有更好的视觉质量和文本对齐效果。
消融分析
时空模块设计。研究了时空模块设计对图像控制网络的影响,发现将时间卷积插入空间模块会影响空间特征,而将时间注意力放在空间模块之后可以保持图像控制网络的有效性。
图像条件对视频一致性和质量的影响。探究了多模态条件对视频生成的影响,发现仅使用文本条件会导致较弱的时间一致性、运动保真度和视觉质量,而加入图像交叉注意力可以提供有效的视觉信号,从而使时间模块专注于视频一致性,减少闪烁和提高视频质量。
图像条件和遮罩条件对图像动画的影响。研究了图像条件和掩码条件对图像动画的影响,发现掩码条件可以产生与条件图像匹配的第一帧动画,但不能保证时间一致性,而加入图像条件可以提高时间一致性和主体识别度。同时,使用掩码条件和图像条件可以产生高度保留条件图像的第一帧和视觉一致的动画。
总结
MoonShot是一个新的视频生成模型,它通过Multimodal Video Block (MVB)同时对图像和文本进行条件约束。该模型在生成高质量视频方面表现出色,并且能够利用预训练的图像ControlNet来控制几何特征,无需额外的训练开销。该模型具有通用的架构和多功能的条件约束机制,可以轻松适应各种视频生成任务,如图像动画、视频编辑和主题定制视频生成,生成质量优于先前的方法,展示了其在视频生成研究和应用中的巨大潜力。