Stable Diffusion创始团队开源新AI图像模型FLUX.1

开源AI图像生成模型FLUX.1横空出世，StableDiffusion创始团队再创新高

北京时间2023年10月26日 – 由Stable Diffusion创始团队推出的开源AI图像生成模型FLUX.1正式发布，这款拥有120亿参数的模型，是迄今为止最大的文生图模型，为AI图像生成领域树立了新的标杆。

FLUX.1拥有三种变体：顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和快速高效的FLUX.1 [schnell]。无论是在图像质量、人体解剖学表现还是提示词遵循能力方面，FLUX.1都展现出卓越的性能，为用户带来前所未有的图像生成体验。

FLUX.1的主要功能特色：

大规模参数： FLUX.1拥有120亿参数，是目前最大的开源文本到图像模型之一，强大的参数规模赋予了模型更强大的学习能力和生成能力。
多模态架构： 基于多模态和并行扩散Transformer块的混合架构，FLUX.1能够同时处理和理解文本和图像等多种类型的数据，从而更好地捕捉不同数据之间的关联性，生成更加符合用户意图的图像。
高性能变体： FLUX.1提供三种不同性能和用途的模型变体，满足不同用户的需求。FLUX.1 [pro] 适用于需要顶级性能的商业应用，用户可以通过API访问；FLUX.1 [dev] 则适用于非商业用途，用户可以在HuggingFace上获取开源的、经过指导蒸馏的模型；FLUX.1 [schnell] 则是本地开发和个人使用的最佳选择，它是最快的模型，同样可以在HuggingFace上获取。
卓越的图像质量： FLUX.1在视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性等方面超越了其他流行的模型，能够生成更加精细、逼真、符合用户要求的图像。
开源和可访问性： FLUX.1 [dev] 和 FLUX.1 [schnell] 是开源的，易于研究和非商业应用，这为开发者和研究人员提供了更广阔的应用空间。

FLUX.1的技术原理：

FLUX.1 的技术创新主要体现在以下几个方面：

多模态架构： FLUX.1 采用了多模态架构，能够同时处理和理解文本和图像等多种类型的数据，从而更好地捕捉不同数据之间的关联性。
并行扩散Transformer块： FLUX.1 利用并行扩散Transformer结构，这是一种先进的神经网络组件，能够高效地处理序列数据，增强模型对信息的编码和解码能力。
流匹配训练方法： FLUX.1通过流匹配方法改进了传统的扩散模型，这种方法能够简化训练过程并提高模型的生成质量。
旋转位置嵌入： FLUX.1 引入了旋转位置嵌入技术，可以增强模型对图像中不同位置特征的识别能力，从而提升图像的细节表现。
并行注意力层： 通过并行注意力机制，FLUX.1 能够同时关注输入序列中的多个部分，这有助于捕捉长距离依赖关系并提高生成图像的准确性。

FLUX.1 的项目地址：

项目官网：https://blackforestlabs.ai/#get-flux
在线Demo：
- https://replicate.com/black-forest-labs/flux-pro
- https://replicate.com/black-forest-labs/flux-dev
- https://replicate.com/black-forest-labs/flux-schnell
GitHub仓库：https://github.com/black-forest-labs/flux
HuggingFace模型库：https://huggingface.co/black-forest-labs/FLUX.1-schnell

如何使用 FLUX.1：

用户需要根据自己的需求选择合适的模型变体：

总结：

FLUX.1 的发布标志着 AI 图像生成领域迈出了重要的一步，其强大的性能和开源特性将为开发者、研究人员和艺术家提供更广阔的创作空间。相信 FLUX.1 将会推动 AI 图像生成技术的进一步发展，并为我们带来更加精彩的图像世界。

【source】https://ai-bot.cn/flux-1/