引言

近日,中国科学技术大学(简称“中科大”)研究团队推出了一款名为PortraitGen的AI人像视频编辑工具。该工具基于先进的3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4D高斯场,实现高质量的3D和时间一致性编辑。PortraitGen的问世,标志着我国在AI人像视频编辑领域迈出了重要一步。

PortraitGen的主要功能

PortraitGen具有以下主要功能:

1. 多模态人像编辑:支持文本驱动和图像驱动两种编辑模式,用户可以通过输入文字描述或参考图像来指定人物的动作、表情以及场景的变化。

2. 光照调节:基于IC-Light技术,可动态调整视频中的光照效果,使光照与场景自然融合。

3. 人脸感知编辑:通过面部感知编辑模块,确保在视频编辑过程中,保留人物的面部结构和个性化特征,优化人物的表情和面部动作的自然性和一致性。

4. 风格转换与虚拟试穿:支持风格转换和虚拟试穿,用户可以通过参考图像实现全局风格的迁移,或为视频中的人物添加虚拟服装等物品。

5. 多镜头和复杂场景处理:能处理多镜头视频,保持风格、人物一致性,并通过高斯纹理技术实现复杂风格的视频渲染。

6. 快速生成与高帧率输出:能在短时间内完成编辑,生成视频时支持高达100帧每秒(FPS)的渲染速度,适合用于高效视频制作场景。

技术原理

PortraitGen的技术原理主要包括以下几个方面:

1. 3D高斯溅射(3DGS):基于3D高斯表示场景,通过3D协方差矩阵定义每个高斯的中心点、方向和大小,及不透明度和颜色属性,实现动态3D场的构建。

2. 神经高斯纹理机制:在SMPL-X模型的UV空间上维护一个3D高斯场,根据输入视频跟踪的底层网格变形来变形高斯,用UV映射和2D神经渲染器将特征图转换为RGB信号。

3. 面部感知编辑模块:对头部区域进行两次编辑,增强面部结构感知,提高编辑质量。

4. 表达式相似性指导:将渲染图像和输入源图像映射到EMOCA的潜在表达式空间,用损失函数确保表情的相似性。

5. 多模态编辑技术:结合大规模2D生成模型的知识,实现文本驱动编辑、图像驱动编辑和重新照明。

应用场景

PortraitGen的应用场景十分广泛,包括:

1. 电影和影视制作:在电影、电视剧或短片制作中,创建或修改角色的外貌,实现特效化妆或风格化的场景转换。

2. 艺术创作:艺术家和插画师用PortraitGen创作具有特定风格的人像艺术作品,如将肖像转换为像素艺术或油画风格。

3. 广告和宣传:在广告行业中,根据品牌形象或产品特点,对人物肖像进行定制化编辑,吸引目标受众。

4. 时尚行业:时尚设计师和零售商基于虚拟试穿功能,在虚拟环境中展示服装和配饰,为客户提供新的购物体验。

5. 社交媒体和短视频:内容创作者和影响者用PortraitGen编辑自己的肖像视频,增加创意效果,提高内容的吸引力和互动性。

6. 游戏开发:在游戏角色设计中,快速生成或编辑角色的外貌,提高游戏的个性化和丰富性。

总结

PortraitGen的推出,为我国AI人像视频编辑领域注入了新的活力。相信在不久的将来,PortraitGen将在更多领域发挥重要作用,为人们带来更多惊喜。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注