香港科技大学、Everlyn AI和中佛罗里达大学的研究团队联合推出了一种名为LightGen的新型高效图像生成模型,该模型旨在以有限的计算资源和数据规模,实现高质量的文本到图像(Text-to-Image, T2I)生成,其性能甚至可以媲美当前最先进(SOTA)的模型。这一突破有望降低文生图技术的应用门槛,推动其在实际生产环境中的普及。
近年来,以扩散模型(如Stable Diffusion、DiT等)和自回归(AR)模型为代表的T2I生成技术取得了显著进展。然而,这些模型通常依赖于庞大的数据集和巨大的参数量,导致计算成本高昂,难以在资源受限的环境中部署。LightGen的出现,正是为了解决这一难题。
该研究的主要作者来自香港科技大学和Everlyn AI,第一作者为香港科技大学准博士生吴显峰,通讯作者为香港科技大学助理教授Harry Yang和中佛罗里达大学副教授Sernam Lim。
LightGen的核心在于其高效的训练流程,主要包括以下两个关键步骤:
- 数据知识蒸馏(KD): 利用当前SOTA的T2I模型生成包含丰富语义的高质量合成图像数据集。该数据集不仅具有较高的视觉多样性,还包含由大型多模态语言模型(如GPT-4o)生成的丰富文本标注,从而确保训练数据在文本和图像两个维度上的多样性。
- 直接偏好优化(DPO)后处理: 针对合成数据在高频细节和空间位置捕获上的不足,研究人员引入了DPO技术作为后处理手段,通过微调模型参数来优化生成图像与参考图像之间的差异,从而有效提升图像细节和空间关系的准确性,增强生成图像的质量与鲁棒性。
通过上述方法,LightGen显著降低了图像生成模型的训练成本和计算需求。实验结果表明,在geneval图像生成任务的基准评测中,LightGen在模型参数和训练数量都小于其他模型的前提下,在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。更令人印象深刻的是,LightGen将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days。
具体而言,LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型,在不使用DPO方法的情况下,分别达到0.49(80k步训练)和0.53的整体性能分数。在更高的512×512分辨率上,LightGen达到了可比肩当前SOTA模型的成绩,整体性能分数达到0.62,几乎超过所有现有方法。加入DPO方法后,模型在位置准确性和高频细节方面的表现始终稳定提升,这体现了DPO在解决合成数据缺陷上的有效性。
消融实验还显示,当数据规模达到约100万张图像时,性能提升会遇到瓶颈,进一步增加数据规模带来的收益有限。因此,研究团队最终选择了200万张图像作为最优的预训练数据规模。
LightGen的成功表明,通过关注数据多样性、小型化模型架构和优化训练策略,可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。这项研究为高效、低成本的文生图技术开辟了新的道路。
展望未来,研究团队计划进一步探索该方法在其他生成任务(如视频生成)上的应用,推动高效、高质量内容生成技术的发展。
参考文献:
- LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization. https://arxiv.org/abs/2503.08619
- LightGen 模型: https://huggingface.co/Beckham808/LightGen
- LightGen 项目: https://github.com/XianfengWu01/LightGen
Views: 0