Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

机器之心原创

在人工智能领域,模型的泛化能力一直是研究的重点。近日,四川大学XLearning团队在Test-time Adaptation (TTA) 领域取得重要突破,提出了一种新的范式,有效解决了跨模态检索中“查询偏移”(Query Shift)的挑战。该研究成果已被机器学习国际顶会ICLR 2025接收,并被评选为 Spotlight 论文(入选比例仅为5.1%)。

背景:Inference Time Compute 的重要性

OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上指出,增强模型在推理阶段的能力(Inference Time Compute)是未来基础模型的重要研究方向。TTA 作为 Inference Time Compute 的关键技术之一,旨在使预训练模型能够动态适应推理阶段不同分布的数据,从而提高模型的泛化能力。

挑战:跨模态检索中的“查询偏移”

尽管 TTA 在单模态任务中取得了显著进展,但在跨模态检索领域仍面临挑战。跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据,例如通过文本检索图像,或通过图像检索文本。然而,现实场景中,用户的查询往往具有高度个性化的特点,导致查询数据与训练数据分布不一致,即“查询偏移”。

四川大学XLearning团队的研究指出,查询偏移会破坏查询模态的均匀性,使得模型难以区分多样化的查询,同时还会增大查询模态与候选模态间的差异,破坏预训练模型构建的跨模态对齐关系。此外,检索任务中候选项目数量远大于分类任务中的类别数量,导致更高的噪声,进一步加剧了问题的复杂性。

突破:TCR 范式应对“查询偏移”

针对上述挑战,四川大学XLearning团队提出了 TCR (Test-time Adaptation for Cross-modal Retrieval) 范式,其主要贡献包括:

  • 揭示了查询偏移导致检索性能下降的根本原因: 从模态内分布和模态间差异两个层面,深入分析了查询偏移对公共空间的负面影响。
  • 将 TTA 范式扩展至跨模态检索领域: 通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象,实现了查询偏移下的鲁棒跨模态检索。
  • 建立了统一的基准: 涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景,支持包括 BLIP 和 CLIP 等主流预训练模型。

方法:模态内均匀性与模态间差异的平衡

研究团队通过实验发现,增大模态内均匀性和降低模态间差异可以提升检索性能。基于此,TCR 范式提出了以下损失函数:

  • 模态内分布约束: 让当前查询远离查询模态的样本中心,从而显式增大模态内均匀性。
  • 模态间差异约束: 对齐目标域和源域的模态间差异,借助预训练模型构建的良好跨模态关系,保障模型性能。

意义与展望

四川大学XLearning团队的这项研究将 TTA 范式成功拓展至跨模态检索领域,为解决“查询偏移”难题提供了新的思路。该研究成果有望推动 Inference time compute 向跨模态应用发展,并在搜索引擎、推荐系统等领域具有广阔的应用前景。

参考文献

[1] Sutskever, I. (2024). Inference Time Compute. NeurIPS 2024.

[2] Li, J., et al. (2022). BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. ICML.

[3] Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. ICML.

[4] Wang, X., et al. (2020). Deep alignment network: A convolutional neural network for image retrieval. IEEE Transactions on Image Processing.

相关链接


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注