3D Copy-Paste:单目3D场景物体插入
“3D Copy-Paste: Physically Plausible Object Insertion for Monocular 3D Detection”
项目主页:https://gyhandy.github.io/3D-Copy-Paste/
论文地址:https://arxiv.org/pdf/2312.05277.pdf
Github地址:https://github.com/gyhandy/3D-Copy-Paste
摘要
本文研究了在复杂的室内场景中使用虚拟物体增强现实场景以提高单目三维物体检测的性能。作者提出了一种物理可行的室内三维物体插入方法,可以自动将虚拟物体复制并粘贴到真实场景中,从而提高数据集中物体的多样性和数量。该方法首先确定插入物体的物理可行位置和姿态,然后估计插入位置的空间变化照明,使虚拟物体与原始场景融合,具有合理的外观和投影阴影。实验结果表明,该方法可以显著提高单目三维物体检测的性能,为后续任务提供了更好的数据增强技术。
简介
相关工作
方法
实验
物理上合理的位置、姿态、大小和光照会带来更好的单目检测性能
实验结果表明,使用3D Copy-Paste可以提高模型性能,特别是在应用物理约束和动态光照的情况下,可以达到新的最优性能。该方法可以作为一种有效的数据增强方法,有助于提高3D物体检测的性能。
表4展示了在ScanNet数据集上进行单目3D物体检测的结果。我们使用每个视频的一个RGB-D图像进行训练和验证,其中训练集有1,201个图像,验证集有312个图像。我们根据提供的场景级标签为每个视角计算了真实的3D边界框标签。对于基准模型,我们在训练集上训练了一个ImVoxelNet单目3D物体检测模型,并在验证集上进行测试。对于我们的方法,在ScanNet的18个类别中,我们的Objaverse数据中有8个重叠的类别(沙发、书架、椅子、桌子、床、写字桌、马桶、浴缸)。我们使用我们的3D复制粘贴来增强训练集,并训练了一个ImVoxelNet模型。所有的训练参数与在SUN RGB-D数据集上的训练相同。表4展示了8个重叠类别(mAP@0.25)的平均准确率结果。我们的3D复制粘贴将ImVoxelNet的mAP提高了2.8%。
嵌入光照和位置对单目三维目标检测影响的消融研究
光照对插入物体的影响以及全局上下文对单目3D物体检测任务的重要性进行了探索。光照不仅影响人眼对插入物体的视觉感知,还显著影响下游检测任务的性能。因此,准确和物理合理的光照估计对于理解场景和实际应用下游检测任务至关重要。全局上下文的考虑与随机类别选择设置相当,并且下游检测模型对此可能不敏感。
定性分析
在SUN RGB-D数据集上展示了单目3D物体检测的定性结果。该方法在检测具有显著遮挡的物体、提供改进的姿态估计和有效抑制误报方面具有增强能力。
总结和讨论
本文提出了一种物理可行的室内三维物体插入方法,可以有效地增强现有的室内场景数据集,如SUN RGB-D,从而实现大规模注释的三维物体检测。该方法考虑了插入物体的物理位置、大小和姿态,避免与现有房间布局发生碰撞,并估计空间变化的照明,将物体无缝地融入原始场景。该方法可以作为一种有效的生成数据增强技术,提高三维感知任务的性能。本文的发现突显了三维数据增强在提高三维感知任务性能方面的潜力,为研究和实际应用开辟了新的途径。