京东推出音频驱动视频生成数字人模型JoyHallo

作者智能小编

10 月 5, 2024 #京东, #每日AI快讯

引言

在人工智能技术飞速发展的今天，数字人技术正逐渐走进我们的生活。京东近日推出的JoyHallo——一款基于音频驱动的视频生成数字人模型，无疑为这一领域带来了新的突破。JoyHallo不仅能够根据音频生成逼真的说话视频，还能实现跨语言生成，为各行各业带来无限可能。

主体

一、JoyHallo：音频驱动的视频生成

JoyHallo是京东开源的数字人模型，专为普通话设计，能根据音频输入生成对应的视频。这一技术的出现，打破了传统视频生成的局限，使得数字人技术更加智能化、个性化。

二、跨语言生成能力

JoyHallo不仅支持普通话视频生成，还能生成英语视频，展现出其强大的跨语言生成能力。这一特性使得JoyHallo在全球化语境下具有更高的应用价值。

三、唇部同步与面部表情生成

JoyHallo在唇部同步和面部表情生成方面表现出色。通过精确同步音频与视频中的唇部运动，以及根据音频中的情感和语调生成相应的面部表情，JoyHallo为用户带来了更加逼真的视频体验。

四、技术原理

JoyHallo的技术原理主要包括以下几个方面：

半解耦结构：通过集成然后分离关键的面部动画组件，如唇部、表情和头部姿态，实现更精确的建模。
特征嵌入：使用中国的wav2vec2模型嵌入音频特征，有助于模型更好地理解和生成与音频同步的面部动作。
交叉注意力机制：在半解耦结构中，交叉注意力模块处理集成的特征，捕捉相关性。
卷积网络：在解耦阶段，用卷积网络分离不同的特征，使模型专注于每个特征的特定细节。

五、数据集与项目地址

JoyHallo的训练基于jdh-Hallo数据集，一个包含多种年龄和说话风格的普通话视频数据集，涵盖日常对话和专业医疗话题。项目地址包括官网、GitHub仓库、HuggingFace模型库和arXiv技术论文。

结论

京东JoyHallo的推出，标志着音频驱动视频生成数字人技术的又一重大突破。随着技术的不断进步，JoyHallo有望在虚拟主播、在线教育、客户服务、娱乐产业、社交媒体和广告制作等领域发挥重要作用，为我们的生活带来更多便捷与惊喜。

参考文献

[1] JoyHallo – 京东推出音频驱动视频生成的数字人模型. AI工具集. (2024-10-26). https://www.ai-tools.com/JoyHallo-%E4%BA%AC%E4%B8%9C%E6%8E%A8%E5%87%BA%E9%9F%B3%E9%A2%91%E9%A2%84%E7%94%9F%E8%A7%86%E9%A2%91%E7%94%9F%E6%95%88%E6%95%B0%E5%AD%97%E4%BA%BA%E6%A8%A1%E5%9E%8B/

[2] JoyHallo GitHub仓库: https://github.com/jdh-algo/JoyHallo

[3] HuggingFace模型库: https://huggingface.co/jdh-algo/JoyHallo-v1

[4] arXiv技术论文: https://arxiv.org/pdf/2409.13268

>>> Read more <<<

智能新闻

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

京东推出音频驱动视频生成数字人模型JoyHallo

作者智能小编

引言

主体

结论

参考文献

相关文章

9月连环杀戮：16条人命竟成高价商品

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

日式反差：爆款App禁说日语，引爆热议

发表回复取消回复

为您推荐

9月连环杀戮：16条人命竟成高价商品

JapaneseApp Bans Japanese Users Forced to Speak Foreign Languages

日式反差：爆款App禁说日语，引爆热议

AI设计电影海报：百万成本变零，惊艳之作频出

作者智能小编

引言

主体

结论

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复