港科大开源LightGen：文生图成本骤降！

香港科技大学、Everlyn AI和中佛罗里达大学的研究团队联合推出了一种名为LightGen的新型高效图像生成模型，该模型旨在以有限的计算资源和数据规模，实现高质量的文本到图像（Text-to-Image, T2I）生成，其性能甚至可以媲美当前最先进（SOTA）的模型。这一突破有望降低文生图技术的应用门槛，推动其在实际生产环境中的普及。

近年来，以扩散模型（如Stable Diffusion、DiT等）和自回归（AR）模型为代表的T2I生成技术取得了显著进展。然而，这些模型通常依赖于庞大的数据集和巨大的参数量，导致计算成本高昂，难以在资源受限的环境中部署。LightGen的出现，正是为了解决这一难题。

该研究的主要作者来自香港科技大学和Everlyn AI，第一作者为香港科技大学准博士生吴显峰，通讯作者为香港科技大学助理教授Harry Yang和中佛罗里达大学副教授Sernam Lim。

LightGen的核心在于其高效的训练流程，主要包括以下两个关键步骤：

数据知识蒸馏（KD）： 利用当前SOTA的T2I模型生成包含丰富语义的高质量合成图像数据集。该数据集不仅具有较高的视觉多样性，还包含由大型多模态语言模型（如GPT-4o）生成的丰富文本标注，从而确保训练数据在文本和图像两个维度上的多样性。
直接偏好优化（DPO）后处理： 针对合成数据在高频细节和空间位置捕获上的不足，研究人员引入了DPO技术作为后处理手段，通过微调模型参数来优化生成图像与参考图像之间的差异，从而有效提升图像细节和空间关系的准确性，增强生成图像的质量与鲁棒性。

通过上述方法，LightGen显著降低了图像生成模型的训练成本和计算需求。实验结果表明，在geneval图像生成任务的基准评测中，LightGen在模型参数和训练数量都小于其他模型的前提下，在256×256和512×512分辨率下的图像生成任务中的表现均接近或超过现有的SOTA模型。更令人印象深刻的是，LightGen将传统上需要数千GPU days的预训练过程缩短至仅88个GPU days。

具体而言，LightGen在单物体、双物体以及颜色合成任务上明显优于扩散模型和自回归模型，在不使用DPO方法的情况下，分别达到0.49（80k步训练）和0.53的整体性能分数。在更高的512×512分辨率上，LightGen达到了可比肩当前SOTA模型的成绩，整体性能分数达到0.62，几乎超过所有现有方法。加入DPO方法后，模型在位置准确性和高频细节方面的表现始终稳定提升，这体现了DPO在解决合成数据缺陷上的有效性。

消融实验还显示，当数据规模达到约100万张图像时，性能提升会遇到瓶颈，进一步增加数据规模带来的收益有限。因此，研究团队最终选择了200万张图像作为最优的预训练数据规模。

LightGen的成功表明，通过关注数据多样性、小型化模型架构和优化训练策略，可以在极少量数据和计算资源的情况下达到最先进模型的性能表现。这项研究为高效、低成本的文生图技术开辟了新的道路。

展望未来，研究团队计划进一步探索该方法在其他生成任务（如视频生成）上的应用，推动高效、高质量内容生成技术的发展。

参考文献：

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization. https://arxiv.org/abs/2503.08619
LightGen 模型: https://huggingface.co/Beckham808/LightGen
LightGen 项目: https://github.com/XianfengWu01/LightGen

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

港科大开源LightGen：文生图成本骤降！

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐