字节发表Boximator,为视频合成生成丰富和可控的运动,可以控制由图片生成的视频中物体的运动轨迹
摘要
简介
相关工作
视频扩散模型
Boximator:盒形运动控制
实验
使用Fr ´echet Video Distance (FVD)和CLIP similarity score (CLIPSIM)进行测量。同时,使用平均精度(AP)指标评估运动控制,计算方法为检测边界框与真实边界框的重叠度。最后,报告了平均平均精度(mAP)作为10个IoU阈值的平均AP。
定量评估
在MSR-VTT和ActivityNet数据集上进行了测试。Boximator模型在动态场景处理方面表现出色,通过添加盒子约束可以提高视频质量。在运动控制精度方面,添加盒子约束可以显著提高平均精度得分。需要注意的是,AP得分并不等同于运动控制的成功率。在实验中,更有意义的是关注不同方法之间AP得分的差异。
人类评估
通过对100个样本进行用户偏好研究,发现Boximator模型在视频质量和运动控制方面都优于基础模型PixelDance,76%的情况下Boximator模型的运动控制表现更好,视频质量也更受欢迎。这可能是由于Boximator模型使用了盒约束,产生了动态和生动的内容。
消融分析
首先,我们在训练过程中排除了自我追踪。观察到排除自我追踪会极大地挑战模型将控制标记与相应对象关联的能力。接下来,我们研究了在推理过程中使用软框的作用。移除这些软框会导致平均精度得分显著下降。最后,我们研究了冻结基础模型权重的影响。结果表明,不需要训练所有U-Net参数。新模型在视频质量和运动控制精度方面与默认模型相似。
案例分析
实验结果表明,Boximator能够精确控制物体数量和位置,并且能够生成动态场景和组合对象。该模型的盒子约束能够有效地指导模型生成复杂场景,提高模型的泛化能力。
总结
Boximator是一种控制视频合成中物体运动的通用方法。它利用两种类型的框来允许用户选择任意对象并定义它们的运动,而无需输入额外的文本。它可以建立在任何视频扩散模型上,而无需修改原始模型权重,因此其性能可以随着基础模型的发展而提高。此外,我们提出了一种自我跟踪方法,极大地简化了控制模块的训练。我们相信我们的设计选择和训练技术可以适应其他形式的控制,如与人体姿势和关键点的条件配对。