LeCun 团队重新定义自监督学习:MMCR 迈向更深层次
自监督学习(SSL) 正在改变机器学习领域,它利用无标注数据来训练模型,从而减少对昂贵的人工标注数据的依赖。其中,多视图自监督学习(MVSSL) 是一种强大的 SSL 方法,它通过创建数据的多个视图来学习有用的表示。最大流形容量表示(MMCR) 是一种独特的 MVSSL 方法,它不依赖于对比学习、聚类或蒸馏,却能达到甚至超越其他领先方法的性能。
近日,来自斯坦福、MIT、纽约大学和 Meta-FAIR 等机构的研究人员,在 LeCun 的带领下,对 MMCR 进行了更深入的研究,揭示了其背后的机制,并将其应用扩展到了多模态数据。
MMCR 的核心思想是最大化表示空间的利用率,就像在有限的画布上尽可能展现丰富的细节。 为了实现这一点,MMCR 鼓励学习到的嵌入对齐且均匀分布,从而最大化视图之间的互信息。
研究人员通过高维概率工具证明了 MMCR 的几何基础与信息论原理之间的联系。他们还发现了 MMCR 预训练损失的非单调变化,这种现象类似于双下降,并揭示了计算上的缩放定律,可以预测预训练损失与梯度步长、批量大小、嵌入维度和视图数量之间的关系。
这项研究的亮点包括:
- 将 MMCR 的几何视角与信息论视角联系起来: 研究人员证明了 MMCR 激励表示的最大化,对应于同一数据的两个视图的两个嵌入共享的互信息的下限。
- 揭示了 MMCR 预训练损失的双下降行为: 理论分析和实验结果表明,MMCR 预训练损失在特定参数下表现出非单调变化,类似于双下降。
- 发现了计算上的缩放定律: 研究人员发现,MMCR 预训练百分比误差与计算量之间存在幂律缩放关系,这为优化训练过程提供了理论依据。
- 将 MMCR 应用于多模态数据: 研究人员将 MMCR 应用于图像文本对,证明了其在多模态数据上的有效性。
这项研究对自监督学习领域具有重要意义,它不仅重新定义了 MMCR 的可能性,还为理解和应用自监督学习提供了新的思路。 未来,研究人员将继续探索 MMCR 的潜力,并将其应用于更广泛的领域,例如自然语言处理、语音识别和机器人技术。
参考文献:
注: 本文参考了论文和 LeCun 的推文,并进行了整理和补充。
Views: 0