华为、复旦联合推出3D数字人框架 EmoTalk3D:赋予虚拟角色更丰富的情感表达
北京,2024年8月28日 – 华为诺亚方舟实验室、南京大学和复旦大学近日联合发布了3D数字人框架 EmoTalk3D,该框架能够合成具有丰富情感表达的3D会说话头像,为虚拟角色注入更生动、更人性化的灵魂。
EmoTalk3D 的核心技术在于其独特的“Speech-to-Geometry-to-Appearance”映射框架,能够将音频特征转化为动态的3D几何序列,最终合成逼真的3D头像外观。该框架能够捕捉和再现人类在说话时的唇部动作、面部表情,甚至是更微妙的情感细节,如皱纹和其他面部微动。
EmoTalk3D 的主要功能包括:
- 情感表达合成: EmoTalk3D 可以根据输入的音频信号合成具有相应情感表达的3D头像动画,包括喜悦、悲伤、愤怒等多种情感状态。
- 唇部同步: EmoTalk3D 能够实现高度准确的唇部运动与语音同步,确保3D头像在说话时唇部动作与实际发音相匹配。
- 多视角渲染: EmoTalk3D 支持从不同角度渲染3D头像,确保在不同视角下观看时都能保持高质量和一致性。
- 动态细节捕捉: EmoTalk3D 能捕捉并再现说话时的面部微表情和动态细节,如皱纹、微妙的表情变化等。
- 可控情感渲染: 用户可根据需要控制3D头像的情感表达,实现情感的实时调整和控制。
- 高保真度: 通过先进的渲染技术,EmoTalk3D 能生成高分辨率、高真实感的3D头像。
EmoTalk3D 的技术原理:
EmoTalk3D 的实现基于以下关键步骤:
- 数据集建立 (EmoTalk3D Dataset): 收集了多视角视频数据,包括情感标注和每帧的3D面部几何信息。数据集来源于多个受试者,每个受试者在不同情感状态下录制了多视角视频。
- 音频特征提取: 使用预训练的 HuBERT 模型作为音频编码器,将输入语音转换为音频特征。通过情感提取器从音频特征中提取情感标签。
- Speech-to-Geometry Network (S2GNet): 将音频特征和情感标签作为输入,预测动态的 3D 点云序列。基于门控循环单元 (GRU) 作为核心架构,生成 4D 网格序列。
- 3D 几何到外观的映射 (Geometry-to-Appearance): 基于预测的 4D 点云,使用 Geometry-to-Appearance Network (G2ANet) 合成 3D 头像的外观。将外观分解为规范高斯 (静态外观)和动态高斯 (由面部运动引起的皱纹、阴影等)。
- 4D 高斯模型: 使用 3D 高斯 Splatting 技术来表示 3D 头像的外观。每个 3D 高斯由位置、尺度、旋转和透明度等参数化表示。
- 动态细节合成: 通过 FeatureNet 和 RotationNet 网络预测动态细节,如皱纹和微妙的表情变化。
- 头部完整性: 对于非面部区域 (如头发、颈部和肩部),使用优化算法从均匀分布的点开始构建。
- 渲染模块: 将动态高斯和规范高斯融合,渲染出具有自由视角的 3D 头像动画。
- 情感控制: 通过情感标签的人工设置和时间序列的变化,控制生成头像的情感表达。
EmoTalk3D 的应用场景:
EmoTalk3D 在多个领域拥有广阔的应用前景,包括:
- 虚拟助手和客服: 作为智能客服或虚拟助手的角色,提供更加自然和情感丰富的交互体验。
- 电影和视频制作: 在电影、电视和视频游戏中生成逼真的角色和动画,提高视觉体验。
- 虚拟现实 (VR) 和增强现实 (AR): 在 VR 和 AR 应用中提供沉浸式体验,与用户进行更真实的互动。
- 社交媒体和直播: 用户可用 EmoTalk3D 创建和自定义自己的 3D 形象,在社交媒体平台或直播中。
- 广告和市场营销: 创建吸引人的 3D 角色,用于广告宣传或品牌推广。
EmoTalk3D 的发布标志着 3D 数字人技术取得了新的突破,将为虚拟角色赋予更丰富的情感表达,为用户带来更加生动、更具沉浸感的体验。未来,EmoTalk3D 有望在更多领域得到应用,推动虚拟现实、人工智能等领域的进一步发展。
【source】https://ai-bot.cn/emotalk3d/
Views: 0