DreamGaussian4D:高效4D动画生成,生成时间从几小时缩短至几分钟
“DreamGaussian4D: Generative 4D Gaussian Splatting”
论文地址:https://arxiv.org/abs/2312.17142
Github地址:https://github.com/jiawei-ren/dreamgaussian4d
摘要
近年来,4D内容生成技术取得了显著进展。然而,现有方法存在优化时间长、运动可控性不足、细节水平低等问题。本文提出DreamGaussian4D,一种高效的4D生成框架,建立在4D高斯Splatting表示之上。与隐式表示相比,高斯Splatting对空间变换的显式建模使其更适合于4D生成设置。DreamGaussian4D将优化时间从几个小时减少到仅仅几分钟,允许灵活控制生成的3D运动,并产生可以在3D引擎中有效渲染的动画网格。
简介
相关工作
方法
DreamGaussianHD用于静态生成
DreamGaussian是一个用于图像到3D生成的模型,但是原始版本存在一个问题,就是在生成静态模型的未见区域时会引入显著的模糊,这会对后续的动态优化过程产生不利影响。为了解决这个问题,研究者们设计了一种改进的实现方法,称为DreamGaussianHD,它可以可靠地提高图像到3D生成的质量,虽然会增加一定的优化时间。
多视角优化
DreamGaussian在SDS优化过程中通常只对参考视图进行采样,这导致优化和收敛不平衡。通过增加每次优化步骤中采样的视图数量(批处理大小),可以显著缓解这个问题。例如,采样16个视图可以在3D高斯分布的未见区域生成高质量的几何形状。然而,这种方法会增加SDS计算的内存使用量并延长优化时间。
修复底色
3D图像扩散模型通常使用白色背景渲染训练对象,而黑色背景会引入噪声,导致模糊。为了获得更精细的结果,DreamGaussian在背景颜色上采样白色。
高斯变形用于动态生成
生成驱动视频
本文提出了一种新的图像到4D生成方法,与其他方法不同的是,它使用任何描绘输入图像的视频进行显式监督。该方法不依赖于视频扩散模型,因此可以选择质量更高、具有更好时间一致性和运动的视频,从而实现更好的可控性和多样性。作者使用了现成的稳定扩散视频生成器来生成视频。
静态到动态初始化
为了将静态的3D高斯分布转化为动态的4D高斯分布,使用变形网络来预测每个高斯分布在时间戳下的位置、旋转和缩放的变化。为了避免随机初始化变形网络导致动态和静态模型发散,初始化变形模型以预测零变形。为了实现梯度反向传播,引入跳跃连接到预测头中。
变形场优化
通过优化变形场来实现从参考视角到整个3D模型的运动传播,并利用Zero-1-to-3-XL来预测未见部分的变形。在训练过程中,采样多个视角以保持时序一致性。由于静态模型初始化,可以在较低的噪声水平下开始SDS。
视频到视频纹理优化
本文介绍了一种视频重建方法,通过提取每一帧的网格来实现,但这些网格缺乏时间关联,因此采用了视频到视频的流程来增强UV空间纹理映射并保持时间一致性。该流程包括合成相机轨迹、渲染视频、引入噪声和使用图像到视频扩散模型来转换噪声视频为干净的视频。最后,通过计算MSE损失并反向传播来改善所有时间步骤的纹理映射。
实验
实现细节
实验使用单个80GB A100 GPU,采用DreamGaussian4D框架和Stable Video Diffusion生成14帧驱动视频。静态优化运行500次迭代,批量大小为16,线性衰减T max从0.98到0.02。动态表示运行200次迭代,批量大小为4,线性衰减T max从0.5到0.02。可选的网格细化运行50次迭代,T为0.7,持续3.5分钟。
定量结果
我们使用Animate124数据集进行了评估,使用CLIP-I作为评估指标,该指标衡量了生成图像与原始图像之间的余弦相似度。结果表明,DreamGaussian的表现最佳,并且DreamGaussian4D可以将优化时间从几小时缩短到几分钟。
定性结果
图4展示了我们的定性图像到4D结果,结果在不同的时间步长和相机视角下进行渲染。图5中,我们将我们的方法与Animate124进行了比较。我们的方法在保持输入图像的真实性、更强的运动以及更丰富的几何和纹理细节方面取得了更好的效果。我们进一步将4D GS导出为具有纹理细化的网格,并在Blender引擎中进行组合。我们在图6中从不同的视角渲染了组合场景。所有的定性结果最好在项目页面的视频中查看。
消融分析
DreamGaussianHD
DreamGaussianHD的图像到3D质量有很大改进,但从侧面和背面观察时存在严重模糊问题。通过引入多视角优化和背景修复,新视角质量得到了显著提高。
零初始化
动态模型在优化过程中需要进行零初始化,否则初始状态可能与静态模型不同,导致优化结果不理想。零初始化可以解决这个问题。例如,在优化过程中,熊猫的背部可能会变成全黑色,而零初始化可以避免这种情况。
运动驱动
与现有的4D生成方法不同,我们的方法可以更好地控制和生成多样化的运动。不同的驱动视频可以生成不同的4D运动。在图9中,我们为输入图像生成了三个不同的驱动视频,从而产生了三种不同的3D运动。
视频到视频的纹理细化
视频中的每个帧都有单独的纹理贴图,因此在表示中没有时间上的一致性限制。直接优化纹理贴图会导致相邻帧之间的闪烁。相反,视频扩散模型提供了时间上的一致性,并且产生更平滑的时间变化。