浙大&蚂蚁发表Osprey,首个像素级多模态AI大模型
摘要
简介
相关工作
Osprey-724K数据集
Osprey
实验
实验结果
Osprey可以进行像素级区域识别、分类和复杂描述,包括开放词汇分割、指代对象分类、详细区域描述和区域级字幕。我们通过实验验证了Osprey的有效性,并展示了一些视觉结果。
Open-Vocabulary分割
与其他方法相比,Osprey在城市景观数据集上表现出色,超过了其他方法15.94%的PQ、7.24%的AP和13.05%的mIoU。在ADE20K-150数据集上,Osprey也取得了高竞争力的表现。这些结果表明Osprey可以在细粒度物体区域上实现强大的识别和理解。
参考对象分类
该任务旨在对图像中特定区域的对象进行分类。使用语义相似度(SS)和语义IoU(S-IOU)这两个语义相关性度量来评估模型的分类能力。在LVIS和PACO数据集上进行实验,并使用特定提示来进行性能评估。与其他方法相比,Osprey在LVIS和PACO数据集上表现出更好的性能,具有强大的细粒度部分级分类和理解能力。
区域详细描述
本文评估了Osprey和其他区域级方法的指令遵循详细描述能力。使用GPT-4对模型生成的响应进行全面评估,评估结果表明Osprey模型的性能最佳,准确率为77.54%,明显优于基于区域的GPT4RoI。同时,本文还介绍了MLLMs的有效性。
区域级描述
Osprey在RefCOCOg数据集上进行了实验,表现出与基于盒子区域的方法相比具有竞争力的性能。Osprey模型能够生成与物体区域相关的语义描述,展示了其优越的能力。
消融分析
本文通过实验比较了使用ViT-L和ConvNeXt-L作为CLIP视觉编码器对开放词汇语义分割的影响。实验结果表明,随着输入尺寸的增加,CNN-based CLIP表现出更好的泛化性能。因此,Osprey采用了CNN-based CLIP作为视觉编码器。在使用512×512输入尺寸的ConvNeXt-L模型时,Osprey的PQ达到了42.50%,比使用224×224输入尺寸的ViT-L模型提高了3.64%。
短形提示和正/负数据对Osprey-724K数据集的影响进行了实验评估。实验结果表明,使用短形提示和正/负样本的Osprey模型在对象级LVIS数据集上获得了65.24%的SS和38.19%的S-IoU,相比于没有使用短形提示数据的模型,性能提升了8.83%和12.54%。在部分级PACO数据集上,仅使用短形提示的Osprey模型获得了22.80%的SS和29.43%的S-IoU改进。在包含正/负样本的情况下,Osprey模型在对象级LVIS数据集上的性能提升了1.69%的SS和1.49%的S-IoU。在部分级PACO数据集上,使用正/负样本数据时获得了1.47%的SS和2.33%的S-IoU性能改进。这些实验结果表明,将短形提示和正/负数据纳入Osprey-724K模型中可以提高模型性能。
本文探讨了输入图像大小对Osprey中基于ConvNeXt的CLIP视觉编码器的影响。实验结果表明,随着输入大小的增加,Osprey的性能也随之提高。但是,随着输入大小的增加,LLM的计算负担也会显著增加。为了在性能和计算成本之间取得平衡,Osprey选择了512×512的输入图像大小。
总结
本文介绍了Osprey,一种将像素级掩码区域引用融入语言指令的新方法,显著增强了细粒度视觉理解的多模态大型语言模型(MLLMs)。通过结合掩码感知的视觉提取器和卷积CLIP骨干网络,Osprey能够在部分级和对象级区域进行图像理解。为了促进视觉和语言之间的细粒度像素级对齐,我们精心策划了Osprey-724K数据集,其中包含了724K个高质量的基于掩码的区域-文本对。在Osprey-724K数据集上训练的Osprey模型在各种区域理解任务中表现出优越的性能,超过了最先进的方法。预计我们的Osprey-724K数据集和Osprey模型可以促进MLLM在像素级视觉理解方面在实际应用中的进展。