深圳 [日期] – 你是否曾希望一张照片能传递更丰富的情感?深圳大学可视计算研究中心(VCC)黄惠教授课题组在即将到来的计算机视觉顶级会议CVPR 2025上,将展示一项突破性技术——EmoEdit,让你通过人工智能编辑图像的情感,赋予照片全新的生命力。
EmoEdit由深圳大学助理教授杨景媛担任第一作者,它允许用户通过输入简单的情感词汇,来调整图像的视觉元素,从而改变观者对图像的情感感知。想象一下,只需输入“温暖”,一张普通的风景照就能呈现出阳光明媚、充满活力的氛围;输入“忧郁”,画面则会笼罩上一层淡淡的哀愁,引人深思。
情感编辑:结构与情感的平衡
心理学研究表明,视觉刺激是情感唤起的重要来源。图像情感编辑(Affective Image Manipulation, AIM)的目标在于,既要保持编辑后图像与原图的结构一致性,又要精准地唤起目标情感。然而,这两者之间存在着固有的冲突,如何巧妙地权衡成为关键挑战。
现有的图像编辑方法往往依赖颜色调整或风格变化,难以呈现丰富且生动的情感效果。EmoEdit的出现,正是为了解决这一难题。
EmoEdit:内容感知的AIM框架
EmoEdit的核心在于其内容感知的AIM框架。该框架能够理解图像的内容,并根据用户输入的情感词汇,智能地调整图像的各个方面,以达到情感编辑的目的。
为了训练EmoEdit,深大VCC构建了首个大规模AIM数据集EmoEditSet,包含40,120组图像对,为视觉情感研究提供了高质量、语义丰富的情感编辑基准。
此外,研究团队还设计了即插即用的情感增强模块Emotion Adapter,通过融合EmoEditSet的情感知识,有效提升扩散模型的情感感知能力。
技术细节:情感因素树与Emotion Adapter
EmoEditSet的构建并非易事。研究人员首先在CLIP空间中对情感图片进行聚类,并利用GPT-4V总结各类共性语义,构建情感因素树。每个叶节点因素都能有效激发根节点的目标情感。
Emotion Adapter则借鉴了Q-Former的思路,结合情感词典、目标情感和输入图像,生成最合适的情感嵌入。在训练过程中,扩散损失侧重于像素级相似性,而指令损失则有助于更好地平衡语义准确性。
实验结果:卓越的性能表现
实验结果表明,与其他方法相比,EmoEdit编辑后的图像不仅有效保留了原始构图特征,还能显著传达目标情感。消融实验也证明了Emotion Adapter在情感表达方面的有效性。
定量评估方面,EmoEdit在涵盖像素、语义和情感三个层面的六项指标上,均优于对比方法。
更令人兴奋的是,Emotion Adapter不仅适用于图像编辑,还可拓展至风格图像生成。通过一次训练,它即可将情感极性编码为准确、多元的语义表示。
未来展望:情感编辑的无限可能
EmoEdit的发布,标志着图像编辑技术进入了一个全新的时代。它不仅能够改变图像的视觉效果,更能够改变图像的情感表达,为用户提供了前所未有的创作空间。
深圳大学可视计算研究中心(VCC)以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础,致力于前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。
随着人工智能技术的不断发展,我们有理由相信,情感编辑将在未来发挥更大的作用,为我们的生活带来更多的惊喜。
更多信息:
- 论文链接:https://arxiv.org/pdf/2405.12661
- 项目主页:https://vcc.tech/research/2025/EmoEdit
- 项目代码:https://github.com/JingyuanYY/EmoEdit
Views: 0