在人工智能技术迅猛发展的今天,AI换脸视频诈骗逐渐成为金融行业面临的一大安全挑战。近日,中电金信与复旦大学联合提出了一种创新的多模态鉴伪方法,旨在有效防范AI换脸视频诈骗。该方法不仅入选了顶级国际会议ACM MultiMedia 2024,并在大会上进行了口头报告,其研究成果备受瞩目。
背景介绍
AI换脸技术,作为一种深度伪造手段,利用人工智能生成逼真的虚假人脸图片或视频。近年来,以AI换脸为代表的AIGC技术被用于诈骗活动,给金融行业带来了巨大的安全风险。在此背景下,中电金信与复旦大学的研究团队联手,共同研发了一种多模态鉴伪方法,以期提升金融行业的安全防护能力。
多模态鉴伪法
传统的伪造检测方法主要关注单个模态,如检测图像或音频的真假。然而,这种单模态鉴伪方法在场景泛化性能上存在局限。为此,研究团队提出了参照辅助的多模态鉴伪方法(R-MFDN),该方法利用丰富的身份信息,挖掘跨模态不一致性来进行伪造检测。
核心技术
R-MFDN 方法由三个模块组成:多模态特征提取模块、特征信息融合模块和伪造鉴别模块。其中,多模态特征提取模块包含视频编码部分和音频编码部分,通过ResNet和音频频谱图Transformer提取图像和音频的高级特征。特征信息融合模块则通过自注意力层和交叉注意力层实现视觉特征与音频特征的融合。最后,伪造鉴别模块根据融合特征进行类别判断。
损失函数
为了监督R-MFDN模型的训练,研究团队使用了三个损失函数:分类结果的交叉熵损失函数、视觉特征与音频特征的跨模态对比学习损失函数,以及身份驱动的对比学习损失函数。这些损失函数共同约束模型参数的更新,提升了模型的判别能力和泛化性能。
IDForge数据集
由于多模态伪造视频鉴别领域缺乏大规模高质量的开源数据集,研究团队构建了一个高质量的AI换脸拟声数据集——IDForge。该数据集包含针对54位名人讲话的249,138个视频片段,其中包括169,311个伪造视频片段,模拟了文本、音频和视频多模态的全方位伪造。
实验验证
研究团队在IDForge数据集上进行了大量实验,结果表明R-MFDN在多媒体检测任务上的有效性。这一创新的多模态鉴伪方法不仅为金融行业提供了有效的安全防护手段,也为学术界和业界带来了新的研究思路。
在人工智能技术不断发展的今天,防范AI换脸视频诈骗已成为当务之急。中电金信与复旦大学的研究团队通过不懈努力,提出的多模态鉴伪方法为金融行业的安全防护提供了新的解决方案。未来,随着技术的进一步发展和应用,这一方法有望在更广泛的领域发挥重要作用。
Views: 0