京东推出音频驱动视频生成数字人模型JoyHallo

北京，2024年10月26日 -京东近日宣布开源其数字人模型JoyHallo，该模型专为普通话设计，能够根据音频生成逼真的说话视频，为虚拟主播、在线教育、客户服务等多个领域提供更具沉浸感和互动性的体验。

JoyHallo的推出标志着京东在数字人技术领域取得了重大突破。该模型基于中文wav2vec2模型进行音频特征嵌入，采用半解耦结构来提升推理速度，提高了14.3%。与其他数字人模型相比，JoyHallo在处理普通话的复杂口型和语调方面表现出色，并具有跨语言生成视频的能力。

JoyHallo的主要功能包括：

音频驱动的视频生成： JoyHallo能够根据音频输入生成对应的视频，特别是普通话视频。
跨语言生成能力： 除普通话外，JoyHallo还能生成英语视频，显示其跨语言的视频生成能力。
唇部同步： 模型能精确地同步音频与视频中的唇部运动，提高视频的真实感。
面部表情生成： 根据音频中的情感和语调生成相应的面部表情。

JoyHallo的技术原理：

JoyHallo的核心技术在于其半解耦结构，该结构将关键的面部动画组件（如唇部、表情和头部姿态）进行集成和分离，实现更精确的建模。此外，JoyHallo还采用了特征嵌入技术，利用中国的wav2vec2模型嵌入音频特征，帮助模型更好地理解和生成与音频同步的面部动作。交叉注意力机制和卷积网络的应用进一步提高了模型的性能。

JoyHallo的训练数据集：

JoyHallo的训练基于jdh-Hallo数据集，该数据集包含多种年龄和说话风格的普通话视频，涵盖日常对话和专业医疗话题。丰富的训练数据使JoyHallo能够生成更自然、更逼真的数字人视频。

JoyHallo的应用场景：

JoyHallo在多个领域拥有广泛的应用前景，例如：

虚拟主播： 在新闻播报、天气预报、体育赛事解说等领域，JoyHallo可以生成虚拟主播的视频，提供24小时不间断的节目制作。
在线教育： 在语言学习、在线课程等领域，JoyHallo可以生成教师的虚拟形象，提供更加生动的教学体验。
客户服务： 在客户服务领域，JoyHallo可以生成虚拟客服代表，提供更加亲切和专业的客户服务。
娱乐产业： 在电影、游戏、动画制作等领域，JoyHallo可以生成角色的面部动画，提高制作效率和降低成本。
社交媒体： 用户可以用JoyHallo生成自己的虚拟形象，在社交媒体上发布视频内容，增加互动性和趣味性。
广告制作： 在广告行业，JoyHallo可以生成定制化的广告视频，提高广告的吸引力和个性化程度。

开源的意义：

京东开源JoyHallo模型，旨在促进数字人技术的发展，为开发者提供更便捷的工具和资源。开发者可以利用JoyHallo模型进行二次开发，创造更多新颖的应用场景。

未来展望：

随着人工智能技术的不断发展，数字人技术将迎来更加广阔的应用空间。京东将持续投入数字人技术研发，不断提升JoyHallo模型的性能，为用户提供更优质的服务。

相关链接：

项目官网：jdh-algo.github.io/JoyHallo
GitHub仓库：https://github.com/jdh-algo/JoyHallo
HuggingFace模型库：https://huggingface.co/jdh-algo/JoyHallo-v1
arXiv技术论文：https://arxiv.org/pdf/2409.13268

结语：

JoyHallo的推出标志着京东在数字人技术领域取得了重大突破，为数字人技术的应用提供了新的可能性。相信随着技术的不断发展，数字人将更加智能化、个性化，为人们的生活带来更多便利和乐趣。

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

京东推出音频驱动视频生成数字人模型JoyHallo

作者智能小编

相关文章

WiFi8时代：即将到来！或：WiFi 8：速度革命在路上或：WiFi 8来了！你准备好了吗？

FourWords to Business Godhood A Chinese CEO’s Secret

Millionaire Influencer’s Satellite Launch Masks “Kinship Capital” Secret

发表回复取消回复

为您推荐