字节跳动推出高效图像合成框架 Hyper-SD

官方项目主页: https://hyper-sd.github.io/
HuggingFace 模型地址: https://huggingface.co/ByteDance/Hyper-SD
arXiv 研究论文: https://arxiv.org/abs/2404.13686
Hyper-SD T2I 版 Demo: https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
Hyper-SD 涂鸦版 Demo: https://huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble

作者智能小编

8 月 28, 2024 #合成, #字节, #每日AI快讯

字节跳动推出高效图像合成框架 Hyper-SD，助力生成式AI发展

北京，2024年10月26日 – 字节跳动今日宣布推出高效的图像合成框架 Hyper-SD，旨在解决现有扩散模型在多步推理过程中计算成本高昂的问题。Hyper-SD 通过轨迹分割一致性蒸馏（TSCD）技术，在不同时间段内保持数据的一致性，从而有效保留了原始的 ODE（常微分方程）轨迹。此外，它还融入了人类反馈学习，优化了在低步数推理情况下的模型性能，并利用分数蒸馏进一步提升了单步推理的图像质量。该框架能够在保持高图像质量的同时，大幅减少必要的推理步骤，实现快速生成高分辨率图像，进一步推动了生成式AI领域的发展。

Hyper-SD 的核心技术包括：

轨迹分割一致性蒸馏 (TSCD)：将训练时间步长范围 [0, T] 划分为 k 个均匀的时间段。在每个时间段内部执行一致性蒸馏，使用原始模型作为教师，学生模型逐步学习教师模型的行为。通过逐步减少时间段的数量（如 8 → 4 → 2 → 1），训练学生模型以逼近教师模型的全局行为。
人类反馈学习 (ReFL)：利用人类对图像的偏好反馈来优化模型。训练奖励模型，使其能够识别并奖励更符合人类审美的图像。通过迭代去噪和直接预测，结合奖励模型的反馈，微调学生模型。
分数蒸馏: 使用真实分布和假分布的得分函数来指导单步推理过程。通过最小化两个分布之间的 KL 散度，优化学生的单步生成性能。
低秩适应 (LoRA)：使用 LoRA 技术来适配和训练学生模型，使其成为一个轻量级的插件，可以快速部署和使用。

Hyper-SD 的训练和损失函数优化过程包括：