北京,2024年10月26日 -京东近日宣布开源其数字人模型JoyHallo,该模型专为普通话设计,能够根据音频生成逼真的说话视频,为虚拟主播、在线教育、客户服务等多个领域提供更具沉浸感和互动性的体验。
JoyHallo的推出标志着京东在数字人技术领域取得了重大突破。该模型基于中文wav2vec2模型进行音频特征嵌入,采用半解耦结构来提升推理速度,提高了14.3%。与其他数字人模型相比,JoyHallo在处理普通话的复杂口型和语调方面表现出色,并具有跨语言生成视频的能力。
JoyHallo的主要功能包括:
- 音频驱动的视频生成: JoyHallo能够根据音频输入生成对应的视频,特别是普通话视频。
- 跨语言生成能力: 除普通话外,JoyHallo还能生成英语视频,显示其跨语言的视频生成能力。
- 唇部同步: 模型能精确地同步音频与视频中的唇部运动,提高视频的真实感。
- 面部表情生成: 根据音频中的情感和语调生成相应的面部表情。
JoyHallo的技术原理:
JoyHallo的核心技术在于其半解耦结构,该结构将关键的面部动画组件(如唇部、表情和头部姿态)进行集成和分离,实现更精确的建模。此外,JoyHallo还采用了特征嵌入技术,利用中国的wav2vec2模型嵌入音频特征,帮助模型更好地理解和生成与音频同步的面部动作。交叉注意力机制和卷积网络的应用进一步提高了模型的性能。
JoyHallo的训练数据集:
JoyHallo的训练基于jdh-Hallo数据集,该数据集包含多种年龄和说话风格的普通话视频,涵盖日常对话和专业医疗话题。丰富的训练数据使JoyHallo能够生成更自然、更逼真的数字人视频。
JoyHallo的应用场景:
JoyHallo在多个领域拥有广泛的应用前景,例如:
- 虚拟主播: 在新闻播报、天气预报、体育赛事解说等领域,JoyHallo可以生成虚拟主播的视频,提供24小时不间断的节目制作。
- 在线教育: 在语言学习、在线课程等领域,JoyHallo可以生成教师的虚拟形象,提供更加生动的教学体验。
- 客户服务: 在客户服务领域,JoyHallo可以生成虚拟客服代表,提供更加亲切和专业的客户服务。
- 娱乐产业: 在电影、游戏、动画制作等领域,JoyHallo可以生成角色的面部动画,提高制作效率和降低成本。
- 社交媒体: 用户可以用JoyHallo生成自己的虚拟形象,在社交媒体上发布视频内容,增加互动性和趣味性。
- 广告制作: 在广告行业,JoyHallo可以生成定制化的广告视频,提高广告的吸引力和个性化程度。
开源的意义:
京东开源JoyHallo模型,旨在促进数字人技术的发展,为开发者提供更便捷的工具和资源。开发者可以利用JoyHallo模型进行二次开发,创造更多新颖的应用场景。
未来展望:
随着人工智能技术的不断发展,数字人技术将迎来更加广阔的应用空间。京东将持续投入数字人技术研发,不断提升JoyHallo模型的性能,为用户提供更优质的服务。
相关链接:
- 项目官网:jdh-algo.github.io/JoyHallo
- GitHub仓库:https://github.com/jdh-algo/JoyHallo
- HuggingFace模型库:https://huggingface.co/jdh-algo/JoyHallo-v1
- arXiv技术论文:https://arxiv.org/pdf/2409.13268
结语:
JoyHallo的推出标志着京东在数字人技术领域取得了重大突破,为数字人技术的应用提供了新的可能性。相信随着技术的不断发展,数字人将更加智能化、个性化,为人们的生活带来更多便利和乐趣。
Views: 0