Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

香港科技大学、Everlyn AI和中佛罗里达大学的研究团队联合推出了一种名为LightGen的新型高效图像生成模型,该模型旨在以有限的计算资源和数据规模,实现高质量的文本到图像(Text-to-Image, T2I)生成,其性能甚至可以媲美当前最先进(SOTA)的模型。这一突破有望降低文生图技术的应用门槛,推动其在实际生产环境中的普及。

近年来,以扩散模型(如Stable Diffusion、DiT等)和自回归(AR)模型为代表的T2I生成技术取得了显著进展。然而,这些模型通常依赖于庞大的数据集和巨大的参数量,导致计算成本高昂,难以在资源受限的环境中部署。LightGen的出现,正是为了解决这一难题。

该研究的主要作者来自香港科技大学和Everlyn AI,第一作者为香港科技大学准博士生吴显峰,通讯作者为香港科技大学助理教授Harry Yang和中佛罗里达大学副教授Sernam Lim。

LightGen的核心在于其高效的训练流程,主要包括以下两个关键步骤:

  1. 数据知识蒸馏(KD): 利用当前SOTA的T2I模型生成包含丰富语义的高质量合成图像数据集。该数据集不仅具有较高的视觉多样性,还包含由大型多模态语言模型(如GPT-4o)生成的丰富文本标注,从而确保训练数据在文本和图像两个维度上的多样性。
  2. 直接偏好优化(DPO)后处理: 针对合成数据在高频细节和空间位置捕获上的不足,研究人员引入了DPO技术作为后处理手段,通过微调模型参数来优化生成图像与参考图像之间的差异,从而有效提升图像细节和空间关系的准确性,增强生成图像的质量与鲁棒性。

通过上述方法,LightGen显著降低了图像生成模型的训练成本和计算需求。实验结果表明,在geneval图像生成任务的基准评测中,LightGen在模型参数和训练数量都小于其他模型的前提下,在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。更令人印象深刻的是,LightGen将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days。

具体而言,LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用DPO方法的情况下,分别达到0.49(80k步训练)和0.53的整体性能分数。在更高的512×512分辨率上,LightGen达到了可比肩当前SOTA模型的成绩,整体性能分数达到0.62,几乎超过所有现有方法。加入DPO方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了DPO在解决合成数据缺陷上的有效性。

消融实验还显示,当数据规模达到约100万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益有限。因此,研究团队最终选择了200万张图像作为最优的预训练数据规模。

LightGen的成功表明,通过关注数据多样性、小型化模型架构和优化训练策略,可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。这项研究为高效、低成本的文生图技术开辟了新的道路。

展望未来,研究团队计划进一步探索该方法在其他生成任务(如视频生成)上的应用,推动高效、高质量内容生成技术的发展。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注