SceneVerse:百万级别的3D视觉语言数据集,3D场景理解新SOTA
“SCENEVERSE: Scaling 3D Vision-Language Learning for Grounded Scene Understanding”
摘要
简介
相关工作
SCENE VERSE
场景理解预训练
场景级别理解
通过将对象空间位置特征与提取的对象特征相结合来编码场景。同时,通过投影层和最大池化对所有对象特征进行场景级别的对齐,并使用可调整的语言模型将场景标题转换为文本特征进行对齐。最后,通过对齐的场景-文本对进行对比学习来提高模型性能。
实验
3D场景理解
我们使用SCENE VERSE数据集对GPS进行了训练,并在三个常用的3D-VL数据集上进行了评估。结果表明,GPS在所有现有的3D-VL基准测试中均取得了最先进的结果。作者还发现,当GPS直接在基准数据集的训练集上进行训练时,其性能不如现有模型。但是,当GPS在SCENE VERSE上进行了大量训练后,其结果显著提高,并且已经在像ScanRefer这样的基准测试中取得了最先进的结果。此外,作者还发现,只需在预训练模型上添加一个简单的投影MLP,就可以在数据集特定的微调模型上实现一致的优异表现。这些结果突显了SCENE VERSE和GPS在3D-VL任务中的强大潜力。
零样本迁移
我们使用了一个新的数据集SCENE VERSE,该数据集包含了超过100,000个三维场景和物体的注释。作者还进行了零样本迁移实验,结果表明该方法在四个基准测试中表现出色。作者的方法与最近的预训练模型3D-VisTA进行了比较。GPS模型在未见过的场景中表现出比3D-VisTA模型更好的泛化能力,特别是在零样本迁移场景中表现更佳。SCENE VERSE数据集可以显著提高3D-VL grounding的能力,特别是在提供相对有限的训练数据时。自动产生的场景-文本对对于理解场景分布有很大的帮助,可以显著提高零样本文本设置下的性能。
消融分析和讨论
数据缩放对模型性能有重要影响,增加数据规模可以提高模型在预训练和零样本迁移设置下的性能。使用基于模板的生成文本和大型语言模型(LLM)精炼文本训练的模型在ScanRefer数据集上表现显著优于仅使用ScanRefer训练的模型,并且已经达到了先前基线的最新结果。添加人工注释数据仍然有益于模型性能,但相对于使用生成数据训练的模型,改进相对较小。
本文研究了在三维视觉语言任务中,合成场景在规模扩大过程中的作用。通过使用大规模、多样化的合成数据,评估模型的领域转移能力。结果表明,仅仅增加场景数量是不够的,还需要保证场景的自然性和质量。因此,收集多样化、高质量、真实的场景是进一步扩大三维视觉语言任务的关键。
总结
本文介绍了 SCENE VERSE 数据集和 Grounded Pre-training for Scenes 模型,用于在场景理解中扩展 3D-VL。SCENE VERSE 数据集包含多个场景和多级场景描述,通过人工注释和文本生成方法获取。Grounded Pre-training for Scenes 模型通过多级场景-语言对齐训练,实现了所有现有 3D-VL 推理任务的最佳结果,并在零样本迁移实验中展示了比以前基线更好的泛化性能。这些工作为 3D-VL 研究开辟了新的研究范式。