自监督学习新突破：LeCun团队MMCR再升级

作者智能小编

10 月 17, 2024 #IT资讯, #mmcr, #监督, #视图

shanghai

LeCun 团队重新定义自监督学习：MMCR 迈向更深层次

自监督学习（SSL） 正在改变机器学习领域，它利用无标注数据来训练模型，从而减少对昂贵的人工标注数据的依赖。其中，多视图自监督学习（MVSSL） 是一种强大的 SSL 方法，它通过创建数据的多个视图来学习有用的表示。最大流形容量表示（MMCR） 是一种独特的 MVSSL 方法，它不依赖于对比学习、聚类或蒸馏，却能达到甚至超越其他领先方法的性能。

近日，来自斯坦福、MIT、纽约大学和 Meta-FAIR 等机构的研究人员，在 LeCun 的带领下，对 MMCR 进行了更深入的研究，揭示了其背后的机制，并将其应用扩展到了多模态数据。

MMCR 的核心思想是最大化表示空间的利用率，就像在有限的画布上尽可能展现丰富的细节。 为了实现这一点，MMCR 鼓励学习到的嵌入对齐且均匀分布，从而最大化视图之间的互信息。

研究人员通过高维概率工具证明了 MMCR 的几何基础与信息论原理之间的联系。他们还发现了 MMCR 预训练损失的非单调变化，这种现象类似于双下降，并揭示了计算上的缩放定律，可以预测预训练损失与梯度步长、批量大小、嵌入维度和视图数量之间的关系。

这项研究的亮点包括：