字节跳动推出高效图像合成框架 Hyper-SD,助力生成式AI发展

北京,2024年10月26日 – 字节跳动今日宣布推出高效的图像合成框架 Hyper-SD,旨在解决现有扩散模型在多步推理过程中计算成本高昂的问题。Hyper-SD 通过轨迹分割一致性蒸馏(TSCD)技术,在不同时间段内保持数据的一致性,从而有效保留了原始的 ODE(常微分方程)轨迹。此外,它还融入了人类反馈学习,优化了在低步数推理情况下的模型性能,并利用分数蒸馏进一步提升了单步推理的图像质量。该框架能够在保持高图像质量的同时,大幅减少必要的推理步骤,实现快速生成高分辨率图像,进一步推动了生成式AI领域的发展。

Hyper-SD 的核心技术包括:

  • 轨迹分割一致性蒸馏 (TSCD):将训练时间步长范围 [0, T] 划分为 k 个均匀的时间段。在每个时间段内部执行一致性蒸馏,使用原始模型作为教师,学生模型逐步学习教师模型的行为。通过逐步减少时间段的数量(如 8 → 4 → 2 → 1),训练学生模型以逼近教师模型的全局行为。
  • 人类反馈学习 (ReFL):利用人类对图像的偏好反馈来优化模型。训练奖励模型,使其能够识别并奖励更符合人类审美的图像。通过迭代去噪和直接预测,结合奖励模型的反馈,微调学生模型。
  • 分数蒸馏: 使用真实分布和假分布的得分函数来指导单步推理过程。通过最小化两个分布之间的 KL 散度,优化学生的单步生成性能。
  • 低秩适应 (LoRA):使用 LoRA 技术来适配和训练学生模型,使其成为一个轻量级的插件,可以快速部署和使用。

Hyper-SD 的训练和损失函数优化过程包括:

  • 定义损失函数,结合一致性损失、人类反馈损失和分数蒸馏损失。
  • 使用梯度下降等优化算法来训练学生模型,同时更新 LoRA 插件。

在推理和图像生成方面,Hyper-SD 能够根据应用场景的需求,选择适当的推理步骤数量,以平衡生成质量和效率。

Hyper-SD 的性能评估使用定量指标(如 CLIP 分数、美学分数)和定性指标(如用户研究)来评估生成图像的质量。根据评估结果,进一步调整和优化模型参数。

Hyper-SD 的发布标志着字节跳动在生成式 AI 领域取得了重大进展。该框架的推出将为图像合成领域带来新的突破,并为更多应用场景提供更强大的支持。

Hyper-SD 的相关链接:

关于字节跳动

字节跳动是一家全球领先的科技公司,致力于为用户提供优质的内容和服务。其产品和服务涵盖短视频、社交、资讯、游戏、电商等多个领域,在全球拥有数十亿用户。字节跳动始终坚持技术创新,并积极推动人工智能、大数据等前沿技术的应用和发展。

【source】https://ai-bot.cn/hyper-sd/

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注