字节发表Magic-Me,仅需几张图片即可实现特定人物的AI视频生成
摘要
简介
- 提出一种新的框架,视频自定义扩散(VCD),致力于生成高质量的特定id视频。VCD展示了将IDs与所提供的图像和文本描述进行对齐的实质性改进。
- 提出一种鲁棒的3D高斯噪声先验用于视频帧去噪,增强帧间相关性,从而改善视频一致性。
- 提出两个V2V模块,即Face VCD和Tiled VCD,以将视频放大到更高的分辨率。
- 设计了一种新的训练范式,通过提示到分割来掩盖损失,以减少ID token中的噪声。
相关工作
文本到视频生成
T2V是生成模型的新应用,比图像生成更具挑战性。视频生成需要高计算成本,需要在多个帧之间保持长期的空间和时间一致性,并且需要根据简短的视频字幕进行条件控制。早期的探索使用GAN和VAE方法生成帧,但这些方法仅适用于低分辨率视频。最新的扩散模型成功地引领了视频生成的新浪潮,MagicVideo和Video LDM等先驱性工作引入了新的条件采样技术。
视频编辑
一些方法可以通过微调模型来改变视频内容,同时保留运动。其他方法则结合可训练的运动动态模块和预训练的稳定扩散模型,进一步实现由文本、姿势/边缘/图像引导的视频合成,而无需使用任何配对的文本-视频数据。最近,一种名为AnimateDiff的方法通过在运动模块的训练中提取合理的运动先验,使现有的个性化文本到图像模型动画化。
图像动画
以前的图像动画主要集中在将静态图像扩展为一系列帧,而没有改变场景或修改角色属性。我们的框架不仅能够动画化给定的帧,还能修改主体的属性和更改背景,所有这些都以合理的动作呈现。
Video Custom Diffusion (VCD)
实验
限制和未来工作
总结
Video Custom Diffusion(VCD)旨在解决主体身份可控视频生成的挑战。通过聚焦身份信息和帧间相关性的融合,VCD为生成不仅能在帧间保持主体身份,而且稳定清晰的视频铺平了道路。本文的创新贡献包括ID模块、T2V VCD模块和V2V模块,共同为视频内容中的身份保护建立了新的标准。通过广泛的实验,证实了VCD在生成高质量、稳定的视频方面的优越性。此外,我们的ID模块适用于现有的文本到图像模型,增强了VCD的实用性,使其适用于广泛的应用。