美团&浙大发表MobileVLM V2,端侧实时运行,更快更强的轻量化VLM
“MobileVLM V2: Faster and Stronger Baseline for Vision Language Model”
项目主页:
论文地址:https://arxiv.org/pdf/2402.03766.pdf
Github地址:https://github.com/Meituan-AutoML/MobileVLM
摘要
简介
- 我们探索并评估了对小型视觉语言模型增加训练数据的性能,从而显著缩小了MobileVLM等小型模型与大型模型之间的差距。
- 我们深入研究了移动场景下的更好训练策略,并设计了一种新颖的训练方案,以充分利用更多高质量的多模态数据。我们提出了一个非常轻量级的Projector,可以显著减少视觉Token并略微降低性能。
- 我们的方法在几个视觉语言基准测试中实现了性能和推理速度之间的新的最优平衡。通过将模型扩展到70亿参数,我们的方法在性能上超过了以前的SOTA模型。
方法
MobileVLM V2是一个多模态问答模型,采用预训练的视觉编码器提取图像特征,预训练的大型语言模型MobileLLaMA处理多模态Token并生成最终答案,以及轻量级下采样Projector LDPv2来对齐图像特征和语言模型。
视觉编码器
使用CLIP ViT-L/14作为视觉编码器,提取图像的高级视觉嵌入表示。
语言模型
使用MobileLLaMA作为基础大型语言模型,优点包括易于部署、实时速度和开放数据集等。作者采用MobileLLaMA-1.4B-Chat和MobileLLaMA-2.7B-Chat作为模型,并通过Projector将文本和视觉信息输入到语言模型中,生成自回归的响应。
轻量级下采样Projector
本文介绍了一种新的Projector LDPv2,用于更好地实现视觉-语言特征对齐,同时参数更少。它包含三个组件:特征转换、Token减少和位置信息增强。通过两个点卷积层和平均池化层,将图像Token压缩到极致,然后应用简单但有效的位置信息增强模块PEG。与LDP相比,这个位置部分更高效,减少了99.8%的参数,并且运行速度略快。该设计也易于部署,由主流推理框架支持。
训练策略
MobileVLM V2的训练过程分为两个阶段:预训练和多任务训练。与之前的训练范式不同,MobileVLM V2在两个阶段中都保持了Projector和大型语言模型的开启,但视觉编码器被冻结。
预训练
模型在预训练期间冻结了视觉编码器和语言模型,以避免优化困难。该模型使用ShareGPT4V-PT数据集进行预训练,该数据集包含120万个图像-文本对,可以提高模型的图像-文本对齐能力。在预训练后,该模型允许完全训练Projector和LLM,同时固定视觉编码器。该模型的训练目标是预测下一个Token,利用自回归损失函数。通过专注于这个特定的任务,该模型更好地学习了在视觉信息背景下的语言生成的复杂性,从而在多模态任务上表现更好。
多任务训练
MobileVLM V2在图文对齐学习的预训练阶段后,已经具备了理解图像内容的初步能力。然而,在一系列下游任务中,它在利用视觉信息进行分析和对话方面还不够熟练。因此,在多任务训练阶段,我们引入了多个视觉语言任务,通过训练过程中的参数来赋予模型进行多任务分析和图文对话的能力。我们使用了多个数据集来进一步开发模型的技能,包括Visual Dialog、TextVQA、COCO Caption、SBU和VSR等。总共有240万个样本,确保在不同的模态和任务中进行全面的学习。
实验
实现细节
在预训练阶段,LDPv2随机初始化,语言模型和视觉编码器分别使用MobileLLaMA和CLIP ViT-L/14的预训练权重。使用AdamW优化器进行优化,预训练阶段的全局批量大小为256,学习率为1e-3。在多任务训练阶段,使用MobileVLM V2的权重进行初始化,学习率为4e-5,全局批量大小为128。训练时间分别为5小时和9小时。
与SOTA比较
MobileVLM V2是一个新的小型语言模型,它在多个基准测试中表现出色,比之前的模型更快更强。它的训练成本与计算友好的LLaVA-1.5相当,而且比MoE-LLaVA-2.7B ×4更快,同时保持着更高的平均性能。MobileVLM V2还比MobileVLM更准确,平均准确率提高了5.3个百分点。MobileVLM V2的优势在于它的新设计和增强的数据和训练策略。MobileVLM V2可以与MoE设计相结合,但如何在不牺牲MobileVLM V2的内存和延迟优势的情况下进行组合,仍然是未来的工作。
模型规模分析
MobileVLM V2 7B是一个强大的多模态模型,相比其他大规模VLMs,它在准确性和推理速度上都有明显优势。通过移除平均池化组件,MobileVLM V2 7B的推理速度与ShareGPT4V相当,但在平均性能上表现更好。这进一步证明了数据扩展策略、训练策略和新型Projector设计的有效性。未来的工作将探索如何有效利用高分辨率输入。
移动设备的延迟测量
MobileVLM V2在NVIDIA AGX Jetson Orin平台上具有更低的推理延迟,并且在相同参数规模下比其他模型表现更好。通过优化Projector的设计,将原始的576个视觉提示Token优化为144个,同时保持了平均准确性。
消融分析
总结
MobileVLM V2是一系列高效的视觉语言模型,基于MobileVLM进行改进。通过数据缩放方案、改进的训练策略和高效的模态对齐设计,我们提高了小型VLM模型的整体性能。我们的方法在准确性和延迟方面取得了新的最优结果,适用于真实产品环境。我们的模型在推理效率上超过了许多更大的模型,为在资源有限的场景中享受先进的人工智能铺平了道路。