高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
AIxiv专栏 | 机器之心
2024年11月4日
是否还在苦恼如何评估自己预训练好的多模态 LLM 的性能? 是否还在使用并不靠谱的损失 Loss,困惑度 Perplexity(PPL),上下文 In-Context 评估,亦或是一遍遍地通过有监督微调(SFT)之后下游测试基准的分数来判断自己的预训练是否有效?来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标Modality Integration Rate(MIR),能够快速准确地评估多模态预训练的模态对齐程度。
标题:Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
论文: https://arxiv.org/abs/2410.07167
代码: https://github.com/shikiw/Modality-Integration-Rate
研究背景
预训练(Pre-training)是现有多模态大模型(MLLM)在训练过程中一个不可或缺的阶段。不同于大型语言模型(LLM)的预训练,多模态预训练的主要目标聚焦于不同模态之间的对齐。随着近两年的发展,多模态预训练已经从轻量级图像 – 文本对的对齐,发展为基于广泛多样的多模态数据进行深层次模态集成,旨在构建更通用的多模态大模型。
然而,多模态预训练的评估对于业界仍然是一个未被充分解决的挑战。现有最常用的评估手段为通过进一步的有监督微调(SFT)来测试在下游基准上的模型能力,但是其伴随的计算成本和复杂性不容忽视。另外有一些方法通过借用 LLM 的预训练评估指标,包括损失值 Loss、困惑度 PPL 和上下文 In-Context 评估等方式,在多模态预训练评估中都被证明是不稳定和不可靠的。
研究者们通过在不同规模的高质量预训练数据上预训练 LLaVA-v1.5 的 7B 模型,用上述不同的方法评估其预训练质量,并与有监督微调之后在下游测试基准上的得分进行对照。如下图所示,损失值 Loss、困惑度 PPL、以及上下文 In-Context 评估都无法准确的对应 SFT 之后在下游测试基准上的模型性能,而本文提出的模态融合率 MIR 则能完美对应。
实际上,PPL 等指标的不适用主要由于 LLM 与 MLLM 在预训练目标上的差异。LLM 预训练主要学习建模语言的基本模式,而 MLLM 预训练则侧重于缩小不同模态之间的差距。如果用多个不同来源的图像和文本数据,并在 LLaVA-v1.5 的大模型输入层去可视化它们的特征分布,会发现尽管图像或文本内容多样,但在每种模态内,它们的分布相对均匀,而模态之间则存在明显的分布差距,如下图(左)所示。
如上图(右)所示,通过进一步计算现有 MLLM 的在大模型不同层中的模态差距,会观察到浅层的时候仍然有较大差距,但当到越来越深的层,这一差距逐渐缩小,这表明 MLLM 在训练过程中仍需要学习对齐不同分布,以理解新引入的模态。
技术方案
本文提出模态融合率 MIR,能够用于评估多模态预训练的跨模态对齐质量。该指标能准确反映各种预训练配置(如数据、策略、训练配方和架构选择)对模型性能的影响,而无需再进行有监督微调 SFT 并于下游测试基准上评估。
对于一个预训练的多模态大模型 M = (E, P, D),其中 E 表示视觉编码器,P 表示视觉语言映射模块,D = (Dt, F) 表示包含分词器 Dt 和 K 层 transformer 的底座大模型 F。当输入一组 “图像 – 文本” 对 {vn, tn}, n = 1,…, N 给模型,会从大模型第 k 层 Fk 得到该层关于数据对 {vn, tn} 的视觉 token 特征 fk^{vn} 和文本 token 特征 fk^{tn},即研究者们将多个样本的特征 fk^{vn} 合并到一起得到 fk^v,同理 fk^{tn} 可以合并得到 fk^t,并且定义 f{k, i}^v 为第 i 个视觉 token 特征,f_{k, j}^t 为第 j 个语言 token 特征。
文本中心归一化
由于越深层的 token 特征在数值绝对尺度上明显比浅层的大,并且不同模态特征间在绝对尺度上存在差异,直接使用 Frechet 距离等度量函数、或是把所有 token 特征统一归一化后再使用度量函数都是不合适的。为此,研究者们设计了一种文本中心的归一化方法,对于 f_k^t 中的总共 s 个文本 token 特征,计算尺度因子:
s_k = ||f_k^t||_2 / s
然后对第 k 层对应的视觉特征和文本特征都使用该因子进行放缩,在保证跨层对比合理性的同时,保持模态间绝对尺度带来的差异。
离群值筛除
许多工作如 StreamLLM [1] 等在评估跨模态对齐质量时,会直接使用所有 token 特征,但实际上,一些 token 特征可能与其他特征差距较大,会对最终的评估结果产生负面影响。因此,研究者们在计算 MIR 时,会先筛除离群值,以提高评估结果的准确性。
模态融合率 MIR 的定义
研究者们定义模态融合率 MIR 为:
MIR(k) = 1 - ||f_k^v - f_k^t||_2 / (||f_k^v||_2 + ||f_k^t||_2)
其中,k 表示 transformer 层数。MIR 的取值范围为 0 到 1,值越大表示模态对齐程度越高。
实验结果
研究者们在多个数据集上进行了实验,结果表明 MIR 能有效地评估多模态预训练的跨模态对齐质量。
- MIR 与 SFT 性能高度相关: MIR 与 SFT 之后在下游测试基准上的模型性能高度相关,证明了 MIR 的有效性。
- MIR 对不同预训练配置敏感: MIR 对不同的预训练配置(如数据、策略、训练配方和架构选择)敏感,能够准确反映这些配置对模型性能的影响。
结论
本文提出的模态融合率 MIR 能够有效地评估多模态预训练的跨模态对齐质量,为多模态大模型的预训练研究提供了新的评估工具。MIR 的出现将有助于研究者们更好地理解多模态预训练过程,并设计出更高效、更有效的预训练方法。
参考文献
[1] StreamLLM: Efficient and Scalable Multimodal Pretraining with Streaming Data.
注: 本文内容主要来自论文和代码仓库,并进行了部分改写和补充。
Views: 0