川大ICLR新突破，破解查询偏移难题

机器之心原创

在人工智能领域，模型的泛化能力一直是研究的重点。近日，四川大学XLearning团队在Test-time Adaptation (TTA) 领域取得重要突破，提出了一种新的范式，有效解决了跨模态检索中“查询偏移”（Query Shift）的挑战。该研究成果已被机器学习国际顶会ICLR 2025接收，并被评选为 Spotlight 论文（入选比例仅为5.1%）。

背景：Inference Time Compute 的重要性

OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在 NeurIPS 2024 大会上指出，增强模型在推理阶段的能力（Inference Time Compute）是未来基础模型的重要研究方向。TTA 作为 Inference Time Compute 的关键技术之一，旨在使预训练模型能够动态适应推理阶段不同分布的数据，从而提高模型的泛化能力。

挑战：跨模态检索中的“查询偏移”

尽管 TTA 在单模态任务中取得了显著进展，但在跨模态检索领域仍面临挑战。跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据，例如通过文本检索图像，或通过图像检索文本。然而，现实场景中，用户的查询往往具有高度个性化的特点，导致查询数据与训练数据分布不一致，即“查询偏移”。

四川大学XLearning团队的研究指出，查询偏移会破坏查询模态的均匀性，使得模型难以区分多样化的查询，同时还会增大查询模态与候选模态间的差异，破坏预训练模型构建的跨模态对齐关系。此外，检索任务中候选项目数量远大于分类任务中的类别数量，导致更高的噪声，进一步加剧了问题的复杂性。

突破：TCR 范式应对“查询偏移”

针对上述挑战，四川大学XLearning团队提出了 TCR (Test-time Adaptation for Cross-modal Retrieval) 范式，其主要贡献包括：

揭示了查询偏移导致检索性能下降的根本原因： 从模态内分布和模态间差异两个层面，深入分析了查询偏移对公共空间的负面影响。
将 TTA 范式扩展至跨模态检索领域： 通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象，实现了查询偏移下的鲁棒跨模态检索。
建立了统一的基准： 涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景，支持包括 BLIP 和 CLIP 等主流预训练模型。

方法：模态内均匀性与模态间差异的平衡

研究团队通过实验发现，增大模态内均匀性和降低模态间差异可以提升检索性能。基于此，TCR 范式提出了以下损失函数：

模态内分布约束： 让当前查询远离查询模态的样本中心，从而显式增大模态内均匀性。
模态间差异约束： 对齐目标域和源域的模态间差异，借助预训练模型构建的良好跨模态关系，保障模型性能。

意义与展望

四川大学XLearning团队的这项研究将 TTA 范式成功拓展至跨模态检索领域，为解决“查询偏移”难题提供了新的思路。该研究成果有望推动 Inference time compute 向跨模态应用发展，并在搜索引擎、推荐系统等领域具有广阔的应用前景。

参考文献

[1] Sutskever, I. (2024). Inference Time Compute. NeurIPS 2024.

[2] Li, J., et al. (2022). BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation. ICML.

[3] Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. ICML.

[4] Wang, X., et al. (2020). Deep alignment network: A convolutional neural network for image retrieval. IEEE Transactions on Image Processing.

相关链接

论文地址: https://openreview.net/forum?id=BmG88rONaU
项目地址: https://hbinli.github.io/TCR/

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

川大ICLR新突破，破解查询偏移难题

作者智能小编

相关文章

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

发表回复取消回复

为您推荐