NeurIPS 2024 | FaceChain 团队新作,开源拓扑对齐人脸表征模型 TopoFR
AIxiv 专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心 AIxiv 专栏接收报道了 2000 多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇论文已被 NeurIPS 2024 接收,论文第一作者但俊来自浙江大学&FaceChain 社区,共一作者刘洋来自伦敦国王学院&FaceChain 社区,通讯作者孙佰贵来自阿里巴巴&FaceChain 社区,还有合作作者包括帝国理工学院邓健康,FaceChain 社区谢昊宇、李思远,伦敦国王学院罗山。
一、前言
在数字人领域,形象的生成需要依赖于基础的表征学习。FaceChain 团队除了在数字人生成领域持续贡献之外,在基础的人脸表征学习领域也一直在进行深入研究。采用了新一代的Transformer 人脸表征模型 TransFace 后,FaceChain 去年也是推出了 10s 直接推理的人物写真极速生成工作,FaceChain-FACT。继 TransFace 之后,FaceChain 团队最近被机器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作,TopoFR: A Closer Look at Topology Alignment on Face Recognition,让我们一睹为快。
论文链接:https://arxiv.org/pdf/2410.10587
开源代码:https://github.com/modelscope/facechain/tree/main/face_module/TopoFR
二、背景
- 人脸识别
卷积神经网络在自动提取人脸特征并用于人脸识别任务上已经取得了巨大的成功。训练基于卷积神经网络的人脸识别模型的损失函数主要分为以下两种类型:
- 基于 Metric 的损失函数,例如 Triplet loss, Tuplet loss 以及 Center loss。
- 基于 Margin 的损失函数,例如 ArcFace, CosFace, CurricularFace 与 AdaFace。
相比于基于 Metric 的损失函数,基于 Margin 的损失函数能够鼓励模型执行更加高效的样本到类别的比较,因此能够促进人脸识别模型取得更好的识别精度。其中,ArcFace 成为业界训练人脸识别模型首选的损失函数。
- 持续同调
持续同调是一种计算拓扑学方法,它致力于捕捉 Vietoris-Rips 复形随着尺度参数变化而进化的过程中所呈现的拓扑不变性特征,其主要用于分析复杂点云的潜在拓扑结构。近年来,持续同调技术在信号处理、视频分析、神经科学、疾病诊断以及表征学习策略评估等领域表现出了极大的优势。在机器学习领域,一些研究已经证明了在神经网络训练过程中融入样本的拓扑特征可以有效地提高模型的性能。
- 符号:
- 表示一个点云
- 表示一个在空间中的距离度量
- 矩阵表示点云中各点之间的成对距离矩阵
- Vietoris-Rips 复形: Vietoris-Rips 复形是从度量空间中一组点构建的特殊单纯复形,可用于近似表示底层空间的拓扑结构。对于,我们表示点云在尺度处所对应的 Vietoris-Rips 复形为,其包含了点云中所有的单纯形(即子集),并且点云中的每个成分满足一个距离约束:,。此外 Vietoris-Rips 复形还满足一个嵌套关系:。基于这个关系,我们能够随着尺度系数的增加而追踪单纯复形的进化过程。值得注意的是和是等价的,因为构建 Vietoris-Rips 复形只需要距离信息。
- 同调群: 同调群是一种代数结构,用于分析不同维度下单纯复形的拓扑特征,例如连通分量 ()、环 ()、空洞 () 和更高维特征 ()。通过跟踪 Vietoris-Rips 复形的拓扑特征 随着尺度 增加而呈现的相应变化,可以深入了解底层空间的多尺度拓扑信息。
- 持续图和持续配对: 持续图是笛卡尔平面中点的多重集合,其编码了关于拓扑特征寿命的信息。具体来说,它总结了每个拓扑特征的诞生时间b和消失时间d ,其中诞生时间b表示特征被创建的尺度,而消失时间d指的是特征被销毁的尺度。持续配对包含与持久图中标识的拓扑特征的诞生和消失相对应的单纯形的索引。
三、方法
- 本文动机
现存的人脸识别工作主要关注于设计更高效的基于 Margin 的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸识别数据集中天然地蕴含着丰富的数据结构信息,然而,在人脸识别任务中,目前还没有研究探索过如何挖掘并利用大规模数据集中所蕴含的结构信息来提升人脸识别模型在真实场景中的泛化性能。
因此本文致力于将大规模人脸数据集中内在的结构信息注入进隐层空间中,以此来显著提升人脸识别模型在真实场景中的泛化性能。我们使用持续同调技术调研了现存的基于卷积神经网络的人脸识别模型框架数据结构信息的变化趋势,如图 1 与图 2 所示,并得到了以下三个新颖观测结论:
- (i) 随着数据规模的增加,人脸识别模型的隐层空间中拓扑结构的复杂度也随之增加。
- (ii)不同人脸识别模型的隐层空间中拓扑结构的演化趋势存在显著差异。
- (iii) 在人脸识别模型训练过程中,隐层空间中的拓扑结构会逐渐趋于稳定。
- TopoFR 模型
基于上述观察结果,本文提出了一种新的拓扑对齐人脸表征模型 TopoFR,该模型旨在通过对齐人脸识别模型隐层空间中的拓扑结构来提升模型的泛化性能。TopoFR 模型主要包含以下三个关键组件:
- 拓扑特征提取模块: 该模块使用持续同调技术提取人脸识别模型隐层空间中的拓扑特征,并将其编码为持续图。
- 拓扑对齐模块: 该模块使用一种新的基于 Wasserstein 距离的拓扑对齐方法,将不同人脸识别模型隐层空间中的持续图对齐到一个共同的拓扑空间中。
- 拓扑感知损失函数: 该损失函数鼓励人脸识别模型学习到具有相同拓扑结构的特征,从而提升模型的泛化性能。
四、实验结果
TopoFR 模型在多个公开的人脸识别数据集上进行了测试,实验结果表明,TopoFR 模型能够显著提升人脸识别模型的泛化性能,尤其是在跨数据集测试场景下。
五、结论
本文提出了一种新的拓扑对齐人脸表征模型 TopoFR,该模型通过对齐人脸识别模型隐层空间中的拓扑结构来提升模型的泛化性能。实验结果表明,TopoFR 模型能够有效提升人脸识别模型的性能,尤其是在跨数据集测试场景下。TopoFR 模型的提出为人脸识别模型的训练和优化提供了新的思路,也为其他机器学习任务的拓扑结构分析和利用提供了参考。
六、未来展望
未来,我们将继续探索以下几个方向:
- 研究更有效的拓扑特征提取方法,以更准确地捕捉人脸识别模型隐层空间中的拓扑结构。
- 开发更强大的拓扑对齐方法,以更好地对齐不同人脸识别模型隐层空间中的拓扑结构。
- 将 TopoFR 模型应用于其他机器学习任务,例如图像分类、目标检测等。
七、参考文献
八、联系方式
如果您对本文有任何疑问,欢迎联系:
- liyazhou@jiqizhixin.com
- zhaoyunfeng@jiqizhixin.com
九、免责声明
本文仅代表作者个人观点,不代表机器之心立场。
Views: 0