PoseAnimate:首个高质量零样本角色动画生成方法
“PoseAnimate: Zero-shot high fidelity pose controllable character animation”论文地址:https://arxiv.org/pdf/2404.13680.pdf
摘要
简介
相关工作
方法
PoseAnimate采用渐进式的方法将源角色图像平滑地过渡到目标动作序列。该模型包括Pose Alignment Transition Algorithm(PATA)、pose-aware control module(PACM)、dual consistency attention module(DCAM)和mask-guided decoupling module(MGDM)等模块,用于优化生成的动作的姿态、一致性和细节表现。同时,该模型还引入了Stable Diffusion和motion awareness等技术,提高了生成动作的质量和真实感。
姿态感知控制模块
为了从源图像中生成高保真度的角色动画,需要完成两个任务。首先,在生成的动画中,保持角色与背景的一致性至关重要,我们通过一种计算高效的基于重建的方法来实现。其次,生成的帧中的动作需要与目标姿态保持一致。尽管预训练的OpenPose控制网络在可控条件合成中具有很大的空间控制能力,但本文的目的是抛弃原始姿态并生成新的连续运动。因此,直接通过ControlNet引入姿态信号可能会与原始姿态产生冲突,导致运动区域出现严重的鬼影和模糊。
本文提出姿态感知控制模块,分别基于原始姿态和目标姿态,通过两次优化嵌入文本实现姿态信号感知。在第一个优化中,即姿态感知反转,我们迭代优化原文本嵌入,以准确重建源图像在原始姿态下的复杂细节。
为了纳入姿态信号,将ControlNet集成到模块的所有过程中。不同于通过优化无条件嵌入实现图像重建的空文本反转,我们的姿态感知反转在重建过程中优化了文本提示的条件嵌入。其动机源于观察到条件嵌入包含更丰富和更鲁棒的语义信息,这赋予了它编码姿态信号的更高潜力。
对偶一致注意力模块
此外,重要的是要注意,我们不会将所有的U-Net Transformer块替换为DCAM。仅将DC注意力纳入U-Net架构的上采样块,而保持其余不变,可以保持与源的身份和背景细节的一致性,而不影响当前帧的姿态和布局。
掩码引导解耦模块
直接利用整个图像特征进行注意力融合会导致细粒度细节的大量丢失。针对这一问题,本文提出掩码引导的解耦模块,将人物和背景解耦,并通过帧间交互进一步细化空间特征感知。
对于源图像Is,我们获得了一个精确的人体掩码Ms,通过一个现成的分割模型将字符从背景中分离。目标姿态先验信息不足以为生成的每个角色帧推导出身体掩码。考虑到提示到提示中交叉注意力层具有较强的语义对齐能力,从交叉注意力图中提取每一帧对应的人体掩码。利用Ms和M xi,根据掩码引导的解耦模块,只计算对应区域内的特征和背景注意力:
然后我们可以得到最终的DC注意力输出:
解耦模块在字符和背景之间引入了显式的学习边界,允许网络独立关注它们各自的内容,而不是混合特征。因此,角色和背景的复杂细节都得到了保留,从而大大提高了动画的保真度。
实验
实验设置
PoseAnimate是基于ControlNet和Stable Diffusion v1.5的预训练权重实现的,生成的角色动画包含16帧,分辨率为512×512,实验在一台NVIDIA A100 GPU上完成。
结果
将PoseAnimate与MagicAnimate和Disco进行了比较。值得注意的是,这些方法都是基于训练的,而我们的方法不需要训练。
定性结果。通过设置两种不同水平的姿态进行实验,充分证明了该方法的优越性。视觉对比结果如图4所示,左侧显示简单动作,右侧显示复杂动作。PoseAnimate在图像保真到源图像方面表现出最好的性能,并有效地保留了复杂的细粒度外观细节和时间一致性。
定量结果。为了进行定量分析,随机采样了50对真实的图像-文本和10个不同的不同姿态序列进行评估。采用了四个评价指标:
- LPIPS衡量了生成帧和源图像之间的保真度。
- CLIP-I表示生成帧与源图像之间CLIP图像嵌入的相似度。
- 帧一致性(FC)通过计算连续两帧的平均剪辑余弦相似度来评估视频的连续性。
- 扭曲误差(WE)通过光流算法评估生成动画的时间一致性。
PoseAnimate在LPIPS和CLIP-I上取得了最好的分数,并在对源图像的保真度方面大大超过了其他比较方法,表现出了杰出的细节保持能力。此外,PoseAnimate在帧间一致性方面也优于其他两种基于训练的方法。也取得了良好的扭曲误差分数,表明所提出方法能够在没有额外训练的情况下保持良好的时间一致性。
消融分析
进行消融研究以验证框架每个组件的有效性,结果见图5。第一行最左边的是源图像,其他的是目标姿态序列。以下行是没有某些组件的生成结果:
- 位姿感知控制模块(PACM),有效地消除了字符原始姿态的干扰,并保持与字符无关内容的一致性
- 双一致性注意力模块(DCAM),保持源图像的保真度并提高时间一致性
- 保留图像细节的掩模引导解耦模块(MGDM)
- 解决不对齐问题的姿态对齐过渡算法(PATA)
总结
本文首次提出一种新的零样本方法PoseAnimate来实现角色动画。PoseAnimate可以为任意图像在不同姿态序列下生成时间一致且高保真的动画。实验结果表明,poseanimate在角色一致性和细节保真度方面优于目前最先进的基于训练的方法。