Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: Meta与卡内基梅隆大学近日联合开源了名为SynCD(Synthetic Customization Dataset)的文生图合成训练数据集。该数据集旨在提升文本到图像模型的定制化能力,通过提供多样化、高质量的合成图像,解决了现实世界中多视角、多背景对象图像难以大规模收集的难题,为无调优(tuning-free)的模型定制化提供了强大的训练资源。

华盛顿特区—— 在人工智能领域,生成式模型正以惊人的速度发展,尤其是在文本到图像的合成方面。然而,要让这些模型真正理解并生成用户所需的特定对象,仍然面临着数据稀缺和训练成本高昂的挑战。为了解决这一难题,Meta与卡内基梅隆大学强强联手,推出了SynCD数据集,为文生图模型的定制化开启了新的篇章。

SynCD:定制化文生图模型的基石

SynCD,全称Synthetic Customization Dataset,顾名思义,是一个合成的定制化数据集。它主要用于提升文本到图像模型的定制化能力,让模型能够更好地理解并生成用户指定的特定对象。与以往的数据集不同,SynCD具有以下几个显著的特点:

  • 多样化的训练样本: SynCD基于生成多个视角和背景下的图像,极大地增加了模型对对象的视觉理解能力。这意味着模型不仅能识别对象的正面图像,还能理解其在不同角度和光照条件下的形态。
  • 增强对象一致性: SynCD采用了共享注意力机制(Masked Shared Attention)和3D资产引导(如Objaverse)等技术,确保对象在不同图像中保持一致,避免生成的图像中对象特征的漂移。
  • 提升生成质量: 通过使用高质量的合成数据,SynCD能够显著改善模型在定制化任务中的图像质量和身份保持能力,让生成的图像更加逼真和符合用户的期望。
  • 支持无调优定制化: SynCD为无调优(tuning-free)方法提供了强大的数据支持,避免了对每个新对象进行昂贵的优化步骤,大大降低了模型定制化的成本和时间。

技术原理:LLM、共享注意力与3D资产的完美融合

SynCD的成功离不开其背后精妙的技术原理。它主要采用了以下几种关键技术:

  1. 语言模型辅助提示生成(LLM-assisted Prompt Generation): SynCD利用语言模型(如LLama3)生成详细的对象描述和背景场景描述。对于刚体对象,它使用Cap3D提供的对象描述;对于可变形对象,则直接从类别名称生成详细描述。此外,它还基于LLM生成多个背景描述,将对象描述与背景描述结合,生成多图像的提示。
  2. 共享注意力机制(Masked Shared Attention, MSA): 在生成多图像时,SynCD基于Masked Shared Attention机制共享前景对象区域的特征,确保不同图像中对象的一致性。在扩散模型的注意力模块中,每个图像的特征不仅关注自身,且关注其他图像中的对象特征,基于掩码(mask)忽略背景区域。
  3. 3D资产引导(3D Asset Guidance): 对于刚体对象,SynCD使用Objaverse中的3D资产进行多视角渲染,生成深度图和对应的图像。基于深度引导和多视角对应关系,进一步增强对象的3D一致性。它还支持像素级的跨视角对应关系,将一个图像中的特征“扭曲”到其他图像中,确保对象在不同视角下的形状和颜色一致。
  4. 数据过滤与质量控制: 为了确保数据集的质量,SynCD采用了美学评分(aesthetic score)和对象相似性(通过DINOv2特征空间计算)等方法,过滤低质量或不一致的图像。

应用场景:无限的可能性

SynCD的应用场景非常广泛,几乎涵盖了所有需要个性化图像生成的领域:

  • 个性化内容生成: 用户可以上传个人物品或宠物照片,结合文本提示生成其在不同场景或风格下的新图像,满足个性化需求。
  • 创意设计与艺术创作: 设计师和艺术家可以快速生成概念图像,验证设计想法或创作具有特定风格的艺术作品,提升创意表达效率。
  • 虚拟场景构建: 在虚拟现实(VR)和增强现实(AR)中,可以生成虚拟场景中的特定对象,如将虚拟角色放置在不同环境中,增强沉浸感。
  • 广告与营销: 品牌可以生成产品在不同使用场景或目标受众环境中的图像,用在广告宣传,提高吸引力和说服力。
  • 教育与培训: 教育领域可以生成教学材料,如将历史文物置于古代场景中,帮助学生更好地理解知识,提升学习效果。

未来展望:开源的力量

Meta与卡内基梅隆大学选择开源SynCD数据集,无疑将加速文生图模型定制化的发展。通过开放数据和技术,他们希望能够吸引更多的研究者和开发者参与其中,共同推动人工智能技术的进步。

SynCD的开源,不仅为文生图模型的研究提供了新的动力,也为各行各业带来了无限的可能性。我们有理由相信,在SynCD的助力下,未来的图像生成将更加个性化、智能化和创造性。

项目地址:

参考文献:

  • Nupur Kumari, et al. SynCD: Synthetic Customization Dataset for Text-to-Image Models. arXiv preprint arXiv:2502.01720 (2024).

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注