机器之心原创
在人工智能领域,模型的泛化能力一直是研究的重点。近日,四川大学XLearning团队在Test-time Adaptation (TTA) 领域取得重要突破,提出了一种新的范式,有效解决了跨模态检索中“查询偏移”(Query Shift)的挑战。该研究成果已被机器学习国际顶会ICLR 2025接收,并被评选为 Spotlight 论文(入选比例仅为5.1%)。
背景:Inference Time Compute 的重要性
OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上指出,增强模型在推理阶段的能力(Inference Time Compute)是未来基础模型的重要研究方向。TTA 作为 Inference Time Compute 的关键技术之一,旨在使预训练模型能够动态适应推理阶段不同分布的数据,从而提高模型的泛化能力。
挑战:跨模态检索中的“查询偏移”
尽管 TTA 在单模态任务中取得了显著进展,但在跨模态检索领域仍面临挑战。跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,例如通过文本检索图像,或通过图像检索文本。然而,现实场景中,用户的查询往往具有高度个性化的特点,导致查询数据与训练数据分布不一致,即“查询偏移”。
四川大学XLearning团队的研究指出,查询偏移会破坏查询模态的均匀性,使得模型难以区分多样化的查询,同时还会增大查询模态与候选模态间的差异,破坏预训练模型构建的跨模态对齐关系。此外,检索任务中候选项目数量远大于分类任务中的类别数量,导致更高的噪声,进一步加剧了问题的复杂性。
突破:TCR 范式应对“查询偏移”
针对上述挑战,四川大学XLearning团队提出了 TCR (Test-time Adaptation for Cross-modal Retrieval) 范式,其主要贡献包括:
- 揭示了查询偏移导致检索性能下降的根本原因: 从模态内分布和模态间差异两个层面,深入分析了查询偏移对公共空间的负面影响。
- 将 TTA 范式扩展至跨模态检索领域: 通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现了查询偏移下的鲁棒跨模态检索。
- 建立了统一的基准: 涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP 和 CLIP 等主流预训练模型。
方法:模态内均匀性与模态间差异的平衡
研究团队通过实验发现,增大模态内均匀性和降低模态间差异可以提升检索性能。基于此,TCR 范式提出了以下损失函数:
- 模态内分布约束: 让当前查询远离查询模态的样本中心,从而显式增大模态内均匀性。
- 模态间差异约束: 对齐目标域和源域的模态间差异,借助预训练模型构建的良好跨模态关系,保障模型性能。
意义与展望
四川大学XLearning团队的这项研究将 TTA 范式成功拓展至跨模态检索领域,为解决“查询偏移”难题提供了新的思路。该研究成果有望推动 Inference time compute 向跨模态应用发展,并在搜索引擎、推荐系统等领域具有广阔的应用前景。
参考文献
[1] Sutskever, I. (2024). Inference Time Compute. NeurIPS 2024.
[2] Li, J., et al. (2022). BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. ICML.
[3] Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. ICML.
[4] Wang, X., et al. (2020). Deep alignment network: A convolutional neural network for image retrieval. IEEE Transactions on Image Processing.
相关链接
Views: 0