腾讯推出ELLA:扩散模型适配器,增强语义对齐,提升文本到图像生成质量

北京,2024年4月1日 – 腾讯AI团队近日发布了一款名为ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)的扩散模型适配器,旨在提升文本到图像生成模型在处理复杂文本提示时的语义对齐能力。

ELLA的出现,旨在解决现有扩散模型在处理包含多个对象、详细属性和复杂关系等信息的长文本提示时存在的局限性。传统的扩散模型通常依赖于CLIP作为文本编码器,在面对复杂文本提示时难以准确理解和提取关键信息,导致生成的图像与文本描述不符。

腾讯研究团队通过引入一个时序感知语义连接器(TSC)来克服这一挑战。TSC模块能够动态提取预训练LLM中的时序依赖条件,并将其与扩散模型的生成过程相结合,从而提高模型解释复杂提示的能力。

ELLA的主要功能特性包括:

  • 语义对齐增强: ELLA通过与大型语言模型(LLM)的结合,提高了扩散模型对文本提示中包含的多个对象、详细属性和复杂关系的理解能力,从而生成与文本更贴合的图像。
  • 时序感知语义提取: ELLA的TSC模块能够根据扩散过程中的不同时间步动态提取语义特征,使得模型能够在生成图像的不同阶段关注不同的文本信息。
  • 无需重新训练: ELLA的设计允许其直接应用于预训练的LLM和U-Net模型,无需对这些模型进行额外的训练,从而节省了大量的计算资源和时间。
  • 兼容性: ELLA可以与现有的社区模型(如Stable Diffusion)和下游工具(如ControlNet)无缝集成,提升这些模型和工具在处理复杂文本提示时的表现。

ELLA的工作原理:

ELLA的核心是通过一个轻量级的、可训练的TSC模块,将强大的LLM的语义理解能力与现有的图像生成扩散模型相结合。

  1. 文本编码: ELLA首先使用一个预训练的大型语言模型(LLM)来编码输入的文本提示,提取出丰富的语义特征。
  2. 时序感知语义连接器(TSC): TSC模块负责将LLM提取的文本特征与图像生成模型(如U-Net)的扩散过程相结合。TSC模块根据生成过程中的不同时间步长动态地提取和调整语义特征,以便更好地对齐文本提示和生成的图像内容。
    3.冻结的U-Net: 在ELLA的架构中,U-Net模型和LLM保持冻结状态,避免重新训练整个模型,节省资源并保持原有模型的性能。
  3. 语义特征适应: TSC模块接收来自LLM的文本特征和时间步嵌入,然后输出固定长度的语义查询。这些查询通过交叉注意力机制与U-Net模型交互,指导图像生成过程中的噪声预测和去噪步骤。
  4. 训练TSC模块: TSC模块在包含高信息密度的文本-图像对数据集上进行训练,学习如何根据文本提示的不同部分和扩散过程的不同阶段提取和适应语义特征。
  5. 生成图像: 在生成图像时,ELLA的TSC模块会根据文本提示和当前的扩散时间步,提供条件性的特征给U-Net模型,帮助U-Net在每个时间步生成与文本更紧密对齐的图像。

评估和优化: 腾讯研究团队使用如Dense Prompt Graph Benchmark(DPGBench)这样的基准测试来评估ELLA的性能。结果表明,ELLA在处理复杂文本提示时,能够生成更符合文本描述的图像,显著提升了文本到图像生成模型的语义对齐能力。

ELLA的发布,标志着文本到图像生成领域取得了新的进展。它不仅能够提升图像生成质量,还能为用户提供更强大的文本控制能力,为创意设计、艺术创作等领域带来新的可能性。

ELLA的官方项目主页: https://ella-diffusion.github.io/

GitHub代码库: https://github.com/ELLA-Diffusion/ELLA

arXiv研究论文: https://arxiv.org/abs/2403.05135

【source】https://ai-bot.cn/ella-diffusion/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注