Adobe 推出 AI 即时图像编辑模型 TurboEdit,开启图像编辑新纪元
北京时间 2024 年 8 月28 日 Adobe Research 宣布推出全新 AI 即时图像编辑模型 TurboEdit,该模型凭借其快速、高效和精准的图像编辑能力,有望彻底改变图像编辑领域。
TurboEdit 利用编码器迭代反演和基于文本的精细控制,能够在几步内实现对图像的精确编辑。用户只需通过修改详细的文本提示,就能实现图像中相应属性的精确改变,同时保持其他特征不变。例如,用户可以将提示中的“蓝色天空”改为“红色天空”,TurboEdit 就会将图像中的天空颜色调整为红色,而其他部分保持不变。
TurboEdit 的主要优势包括:
- 快速高效: TurboEdit 仅需 8 次功能评估即可完成图像反演,每次编辑仅需 4 次功能评估,大大提升了图像编辑的速度和质量。
- 文本引导: 用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。
- 分离式编辑: TurboEdit 能够在图像中实现单一属性的更改,而不影响其他部分。
- 实时编辑能力: TurboEdit 能够在毫秒级时间内完成图像的反演和编辑,提供了实时的图像编辑体验。
TurboEdit 的技术原理主要基于以下几个方面:
- 迭代反演技术: 使用一个基于编码器的迭代网络来预测噪声,重建输入图像。网络接受输入图像和前一步重建的图像作为条件,逐步校正重建过程。
- 条件扩散模型: 在几步式扩散模型的上下文中,TurboEdit 用条件扩散来生成图像。要求模型在生成过程中考虑文本提示,确保生成的图像与文本描述相匹配。
- 文本提示的详细控制: 通过自动生成或用户指定的详细文本提示,TurboEdit 能实现对图像中特定属性的精确操作。文本提示的详细程度有助于分离编辑,确保只有指定的属性被改变。
- 噪声图的冻结与修改: 在编辑过程中,通过冻结噪声图并修改文本提示中的特定属性,TurboEdit 能生成与原始图像相似但具有单一属性变化的新图像。
- 编辑强度的控制: 通过调整文本嵌入的线性插值,TurboEdit 支持用户控制编辑的强度,实现从微妙到显著的编辑效果。
- 基于指令的编辑: 利用大型语言模型(LLM),TurboEdit 能根据用户的指令性文本提示自动转换描述性源提示,生成目标提示,并输入到扩散模型中,实现基于指令的图像编辑。
- 局部掩码编辑: TurboEdit 支持用户上传二进制掩码来指定编辑区域,编辑效果仅限于特定区域,提高编辑的精确度。
- 高效的计算性能: TurboEdit 优化了计算过程,图像反演和编辑过程非常快速,每次编辑只需要极少的计算资源,实现实时编辑。
TurboEdit 的应用场景非常广泛,包括:
- 创意编辑: 艺术家和设计师可以用 TurboEdit 快速实现创意构思,通过文本提示调整图像风格、颜色、布局。
- 社交媒体: 用户可以用 TurboEdit 在社交媒体上分享个性化的图片,比如更换服装、发型或添加配饰。
- 电子商务: 在线零售商可以提供虚拟试穿服务,让消费者看到不同颜色或款式的服装在模特身上的效果。
- 游戏开发: 游戏设计师可以快速迭代游戏资产的视觉效果,如角色、环境或道具的实时修改。
- 电影和视频制作: 在后期制作中,TurboEdit 可以用来快速调整场景元素,比如改变天空颜色或添加特效。
TurboEdit 的出现标志着 AI 图像编辑领域迈入了一个新的纪元。它不仅为专业人士提供了更强大的工具,也为普通用户打开了图像编辑的大门,让每个人都能轻松地创造出个性化的图像作品。
项目地址:
- 项目官网:https://turboedit-paper.github.io/
- Hugging Face 模型库:https://huggingface.co/spaces/turboedit/turbo_edit
- arXiv 技术论文:https://arxiv.org/pdf/2408.08332
【source】https://ai-bot.cn/turboedit/
Views: 1