Pose Anything:类别无关通用姿态估计方法,实现任意目标类别的关键点定位
“Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation”
摘要
简介
相关工作
方法
基于图的方法
本文工作的核心思想是利用姿态图中编码的几何结构。所提出方法建立在增强的基线之上,用新的Graph Transformer Decoder取代Transformer Decoder模块。
Graph Transformer Decoder(GTD)。如图3所示,GTD在Transformer Decoder层中使用了一个新的前馈网络,其中包括一个图卷积网络层(GCN)。GTD基于原始的CapeFormer Decoder,将前馈网络从简单的MLP改变为GCN网络。图神经网络(GCN)层,可以纳入先验几何知识,进一步集中了关键点特征,促进了已知关键点连接之间的信息交换。
最后一层Decode的关键点位置被用作最终的关键点预测。
训练损失。在CapeFormer之后,我们使用两个监督信号:heatmap loss和offset loss。heatmap loss用于指导相似性度量和初始坐标建议,而offset loss用于指导定位输出:
总损失项为:
实验
增强的骨干。在最终特征层上应用直接的双线性上采样,在保持简单性的同时产生了类似的结果。此外,我们通过使用具有较低方差的高斯内核掩码来优化支持关键点特征的提取。这些简单的调整导致了3.2%的改善。
禁用Support Keypoint Identifie。CapeFormer引入了关键点位置编码,称为“Support Keypoint Identifie”。本文认为,类别无关的姿态估计(CAPE)不应该依赖于这种假设,应该在不强制规定特定顺序的情况下容纳支持关键点。因此,我们选择从基线中删除该编码。
结果
本文与之前的CAPE方法CapeFormer、POMNet以及三个基线ProtoNet、MAML和Fine-tuned进行了比较。在表1中展示了1-shot和5-shot设置下MP-100数据集的结果。可以看出,增强的基线模型优于之前的方法,在1-shot的设置下,平均PCK提高了0.94%,在5-shot的设置下提高了1.60%。所提出的基于图的方法进一步提高了性能,在1-shot设置下将增强基线提高了1.22%,在5-shot设置下提高了0.22%,在两种设置下都实现了新的最先进的结果。
我们还展示了设计的可扩展性。与基于detr的模型类似,采用更大的骨干可以提高性能。图解码器设计还提高了较大的增强基线的性能,在1-shot和5-shot设置下分别将结果提高了1.02%和0.34%。
Out-of-Distribution性能。为了评估模型的鲁棒性,我们使用来自不同域的图像评估了网络的小型版本。结果如图6所示。该模型仅在真实图像上进行训练,证明了其在不同数据源中的适应性和有效性。此外,即使支持图像和查询图像来自不同的领域,该模型也表现出令人满意的性能。
消融分析
我们在MP-100数据集上进行了一系列消融研究。首先,我们使用不同的骨干网络评估了我们的方法,展示了Swin Transformer架构在定位任务中的优势。然后,通过使用错误的骨架关系评估我们的模型,展示了几何结构先验的贡献。最后,通过使用掩码输入评估性能,展示了图结构的强大能力。我们在MP-100 split1的测试集上进行了所有消融实验,遵循1-shot设置。不同的骨干网络方面,我们评估了使用不同预训练骨干网络的性能,包括基于CNN的骨干网络(ResNet-50)和两个不同的预训练Transformer骨干网络,即Dino和Swin V2。通过表2可以看出,SwinV2在效率与CNN骨干网络相当的情况下,提供了更好的结果。此外,使用更大的骨干网络可以提高性能,但代价是效率和大小。关于图结构的贡献方面,我们通过使用随机图输入来评估我们的方法,即为每个实例随机选择边连接。结果显示,这导致性能下降了9.57%,验证了图解码器和结构知识的贡献。
图结构的贡献。实验结果表明,该模型在支持图像部分遮挡的情况下仍能准确预测关键点,证明了该模型已经学会了每个类别的关键点,并能根据结构将其匹配到支持图像的特征上。同时,当查询图像的大部分区域被遮挡时,模型的性能会迅速下降,但仍能保留结构。
总结