NUS&清华发表NExT-Chat,对话、检测、分割多模态大模型
为了提高视觉理解水平,最近的研究通过将对象边界框坐标表示为一系列文本序列(pix2seq),使LMMs具有区域级理解能力。本文提出一种新的对象位置建模范式,称为pix2emb方法,要求LMM输出位置嵌入,然后用不同的解码器解码。这种范式允许我们在多模态对话中使用不同的位置格式(例如边界框和掩码)。利用所提出的pix2emb方法,训练了一个名为NExT-Chat的LMM,并展示了其处理视觉定位、区域描述和推理等多个任务的能力。综合实验表明了NExT-Chat在各种任务上的有效性。
论文地址:https://arxiv.org/pdf/2311.04498.pdf
Github地址:https://github.com/NExT-ChatV/NExT-Chat
摘要
大型语言模型(LLMs)的发展推动了多模态理解领域的进步,引出了大型多模态模型(LMMs)。最近的研究通过将物体边界框坐标表示为一系列文本序列(pix2seq),为LMMs增加了区域级理解能力,以提高视觉理解水平。本文介绍了一种名为pix2emb方法的新型对象定位建模范式,其中我们要求LMM输出位置嵌入,然后使用不同的解码器对其进行解码。这种范式允许我们在多模态对话中使用不同的位置格式(如边界框和掩码)。利用提出的pix2emb方法,我们训练了一个名为NExT-Chat的LMM,并展示了它处理多个任务(如视觉定位、区域描述和基于地面的推理)的能力。全面的实验证明了我们的NExT-Chat在各种任务上的有效性,例如NExTChat(87.7)对POPE-Random的Shikra(86.9),NExTChat(68.9)对指代表达分割任务的LISA(67.9),以及NExT-Chat(79.6)对区域描述任务的Kosmos-2(62.3)。
简介
大型语言模型(LLMs)在不同领域中展现出了广泛的影响,其中大型多模态模型(LMMs)是最具吸引力的领域之一。为了实现区域级别的理解,当前的解决方案利用了pix2seq范例,将对象坐标转换为LLM可理解的文本标记。然而,pix2seq范例仅限于离散坐标输出,难以提供其他细粒度格式,如分割掩模。
提出了pix2emb模型,可以适应不同的位置格式,将所有位置信息建模为嵌入,通过相应的解码器将其解码为目标格式。引入了和两个新标记,用作定位触发器,用作对象位置嵌入的占位符。pix2emb模型不仅支持灵活的输出格式,还允许使用现有的定位实践。
本文介绍了一种名为NExT-Chat的新型LMM,它是在pix2emb方法的基础上构建的。NExT-Chat可以处理各种对话场景,包括视觉定位、区域描述和图像描述。通过引入LLM,NExT-Chat还可以处理需要基于推理的场景。通过提供大量的示例,我们有效地展示了NExT-Chat在理解背景元素、细微对象和将对象与相关知识关联方面的出色能力。此外,我们还在各种数据集上验证了NExT-Chat的性能。在POPE-Random数据集上,NExT-Chat的准确率达到了87.7,超过了Shikra的86.9。在指代表达分割(RES)方面,它的平均cIoU为68.9,优于LISA的67.9。此外,NExT-Chat在RefCOCOg区域描述中获得了令人瞩目的79.6的CIDEr分数,显著超过了Kosmos-2的62.3。
本文的主要贡献如下:
- 有效的方法。我们提出了pix2emb方法,可以适应不同的输出格式,如边界框和分割掩模。
- NExT-Chat模型。基于提出的pix2emb方法,我们构建了NExT-Chat,可以将聊天、区域输入、检测和分割统一在一个单一的LMM中。
- 实验和演示。我们提供了丰富的定性和定量结果,展示了我们提出的方法的有效性。
相关工作
用于区域推理的LMM
本文介绍了几种不同的方法来处理物体定位问题,其中一些方法使用特征编码或文本标记来表示物体位置,而另一些方法则使用触发器标记来解码边界框和分割掩模。与其他方法不同,本文提出的NExT-Chat方法使用触发器标记来解码物体位置,然后使用隐藏状态来解码边界框和分割掩模。
方法
LMM架构
LMM架构采用了LLaVA类似的结构,其中使用了CLIP ViT-L/14@336px作为视觉编码器。输入图像被转换为24×24的补丁嵌入,并投影到与LLM的词嵌入相同的维度。这些补丁嵌入作为视觉标记。然后,将视觉标记输入到仅解码的LLM中进行条件文本生成。选择了最近发布的Vicuna-1.5模型作为LLM的选择。
Pix2Emb方法
检测。为了将对象位置建模为输出,引入了一个特殊的标记,称为<trigger>,用于触发定位。
如图2所示,在预测位置之前,LMM被训练成生成<trigger> token。然后,<trigger>的嵌入t∈rn传递到边界框解码器进行回归。数学上可以表示为:
其中b∈R 4表示预测的边界框坐标,格式为[x 0, y 0, x 1, y 1]。
在我们的下一个聊天模型中,边界框解码器由2层MLP组成。为了监督位置输出,我们在训练过程中使用由L1损失和GIoU损失组成的联合损失函数:
其中b gt表示真实值坐标,α = 2, β = 0.8遵循DETR中使用的比率。
分割。与检测过程类似,我们利用<trigger>的隐藏状态t作为掩码头的输入。受到LISA的启发,我们使用SAM作为我们的掩模头,它也将原始图像作为输入。为了保证隐藏状态与SAM的兼容性,首先利用线性投影仪对隐藏状态进行投影,使其与SAM提示嵌入的维度相匹配;然后,将投影的隐藏状态作为提示嵌入输入SAM。为了提高性能,我们还用SAM的提示编码器将检测到的边界框编码为提示嵌入,并将其与投影嵌入连接起来。为了训练掩码输出,我们按照lightning-SAM中概述的做法:
其中IoU、D和F分别为IoU损失、Dice损失和Focal损失。在我们的实验中β被设置为20。
位置作为输入。除了位置输出,也必须将位置作为输入。为了与位置输出建模保持一致,我们还使用单个嵌入来表示位置信息。因此,输出位置嵌入也可以作为输入嵌入。引入了另一个2层MLP,称为位置编码器g。为了简化问题,将所有位置格式转换为边界框b,随后将其转换为适合LLM的嵌入t∈rn。位置编码器可以通过标准文本生成损失L文本进行监督。例如,当询问边界框b1和b2之间的关系时,位置编码器被迫提供精确的信息。
然而,位置编码器不能仅仅通过L文本的间接监督来有效训练。引入了一个额外的周期损失,以促进编码器与解码器的训练。如图3 (a)所示,将对边界框进行编码,然后解码,其中两个边界框被要求相同。同样,<trigger>的隐藏状态也将用于计算周期损耗(图3 (b))。形式上,L cyc定义为:
其中b和t分别为边界框和预测嵌入。L1和L2分别对应L1损失和L2损失。
本文介绍了一种三阶段训练过程,用于训练图像定位和对话的模型。
阶段1。使用来自各种来源的混合数据进行预训练,包括Flickr30K Entities、Visual Genome、RefCOCO、RefCOCO+、RefCOCOg、VQAv2、PointQA、Visual7W、VCR。模型以64的批量大小和2e-5的学习率进行训练,步骤为65k。在这个预训练阶段,在保持图像编码器冻结的同时,对带有box解码器的整个语言模型进行训练。训练损失表示为:
第1阶段的训练使用8块A100 (80G) gpu进行大约59小时。
由于训练参数少,使用8个A100 (80G) gpu可以在3小时内完成训练。此训练是使用RefCOCO、RefCOCO+和RefCOCOg数据集的参考分割进行的。
实验
本节首先通过严格的评估验证了我们的pix2emb方法在公平比较环境中的有效性。随后,我们通过展示不同场景下的广泛定性结果,展示了我们的NExT-Chat模型的潜力。最后,我们提供了定量结果,比较了我们的NExT-Chat模型在图像级幻觉、指称表达分割、指称表达检测和区域级标题任务上与当前SOTA方法的性能。
跨不同场景的应用程序
视觉定位。如图4所示,NExT-Chat准确地检测和分割了所查询的对象,为了确保模型不偏向于特定的对象,我们用不同的查询来测试它。此外,该模型通过具有挑战性的接地问题展示了推理能力。
区域描述。如图6所示,NExT-Chat一致地产生专门为所提供区域量身定制的准确描述,而不受整体图像内容或显著区域的影响。我们在不同的例子中观察到这种行为是一致的。
定位描述。NExT-Chat的另一个引人注目的应用是它通过引用图像中存在的特定对象来描述图像的能力。图7表明,我们的模型能够准确地识别和描述图像中主要的2到3个物体,并有效地将它们组织成连贯的句子。
推理。如图8的第三个示例所示,NExT-Chat展示了通过分析上下文线索来推断图像中男子的职业的能力。这种推断是由模型在图像中定位相关区域的能力支持的。
与SOTAs比较
幻觉
NExT-Chat模型在POPE数据集上与其他SOTA模型进行了综合评估,结果表明我们的模型在随机和热门分割上表现最好,并在对抗性分割上表现第二好。这表明我们的NExT-Chat模型在生成准确回答方面表现出色,位居该领域的顶尖模型之一。
分割
NExT-Chat模型在生成分割掩码方面表现出色,与其他基线模型相比具有优势。与非LMM方法相比,NExT-Chat在各个数据集划分上始终取得最高或次高的性能,唯一的例外是RefCOCO+验证集。与基于LMM的方法相比,特别是LISA-7B模型,NExT-Chat在六个数据集划分上表现出更好的性能,尤其是在RefCOCO+ testA划分上取得了4.5个百分点的显著改进。值得注意的是,NExT-Chat只使用了一个数量明显较小的数据集进行训练,其中包含了仅127k个对象分割掩码,而LISA等基线模型则使用了数量级更大的数据集。这些结果突显了我们训练范式的高效性,大大减少了对广泛且昂贵的分割注释数据集的依赖。
理解
本文介绍了一个实验设置,该设置不仅验证了我们方法的分割能力,还验证了其检测能力。我们采用了RefCOCO、RefCOCO+和RefCOCOg的REC数据集。作为基线,我们首先包括了LMM方法(pix2seq):VisionLLM-H和Shikra。我们还包括了非LLM方法:MAttNet、OFA-L、UniTab、G-DINO-L等。结果显示,我们的NExT-Chat在所有数据集上都取得了优秀的REC结果,甚至超过了一系列经过精细调整的方法。有趣的是,尽管我们的NExT-Chat与Shikra-7B在检测训练上使用了类似的数据,但我们的结果略低于Shikra-7B。我们推测原因可能是:(1)很难在LM损失和定位损失之间找到完美的平衡,而pix2seq方法不会遇到这个问题。(2)LLM没有在回归任务上进行预训练,可能会增加训练的难度。然而,我们认为在LLM中加入回归任务将是必要的,特别是对于像具身化AI这样的目标。
区域描述
NExT-Chat在RefCOCOg数据集上进行了实验,结果表明该模型在描述给定区域方面表现出色,CIDEr评价指标上优于GRIT、Kosmos-2和ASM等基线模型。特别是在Kosmos-2数据集上,NExT-Chat的表现超过了4-shot版本。
总结
本文介绍了一种新的位置建模方法pixel2emb,利用嵌入实现多种位置输出格式,如边界框和分割掩模。通过全面的探索性实验,证明了pix2emb方法的有效性。此外,训练了一个名为NExT-Chat的LMM,展示了其处理多种任务的能力,包括视觉定位、区域字幕、基于位置的字幕和复杂问题推理。未来的研究方向包括提高模型在检测和分割方面的能力,以及将NExT-Chat模型扩展到多模态代理,以处理需要区域理解的复杂任务。
限制
训练过程中的数据集主要包含单个图像输入,导致NExT-Chat模型在处理多个图像输入时存在限制。缺乏来自不同领域的充足训练数据,限制了模型在医学和卫星图像分析等任务中生成准确预测的能力。