开源AI图像生成模型FLUX.1横空出世,StableDiffusion创始团队再创新高
北京时间2023年10月26日 – 由Stable Diffusion创始团队推出的开源AI图像生成模型FLUX.1正式发布,这款拥有120亿参数的模型,是迄今为止最大的文生图模型,为AI图像生成领域树立了新的标杆。
FLUX.1拥有三种变体:顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和 快速高效的FLUX.1 [schnell]。无论是在图像质量、人体解剖学表现还是提示词遵循能力方面,FLUX.1都展现出卓越的性能,为用户带来前所未有的图像生成体验。
FLUX.1的主要功能特色:
- 大规模参数: FLUX.1拥有120亿参数,是目前最大的开源文本到图像模型之一,强大的参数规模赋予了模型更强大的学习能力和生成能力。
- 多模态架构: 基于多模态和并行扩散Transformer块的混合架构,FLUX.1能够同时处理和理解文本和图像等多种类型的数据,从而更好地捕捉不同数据之间的关联性,生成更加符合用户意图的图像。
- 高性能变体: FLUX.1提供三种不同性能和用途的模型变体,满足不同用户的需求。FLUX.1 [pro] 适用于需要顶级性能的商业应用,用户可以通过API访问;FLUX.1 [dev] 则适用于非商业用途,用户可以在HuggingFace上获取开源的、经过指导蒸馏的模型;FLUX.1 [schnell] 则是本地开发和个人使用的最佳选择,它是最快的模型,同样可以在HuggingFace上获取。
- 卓越的图像质量: FLUX.1在视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性等方面超越了其他流行的模型,能够生成更加精细、逼真、符合用户要求的图像。
- 开源和可访问性: FLUX.1 [dev] 和 FLUX.1 [schnell] 是开源的,易于研究和非商业应用,这为开发者和研究人员提供了更广阔的应用空间。
FLUX.1的技术原理:
FLUX.1 的技术创新主要体现在以下几个方面:
- 多模态架构: FLUX.1 采用了多模态架构,能够同时处理和理解文本和图像等多种类型的数据,从而更好地捕捉不同数据之间的关联性。
- 并行扩散Transformer块: FLUX.1 利用并行扩散Transformer结构,这是一种先进的神经网络组件,能够高效地处理序列数据,增强模型对信息的编码和解码能力。
- 流匹配训练方法: FLUX.1通过流匹配方法改进了传统的扩散模型,这种方法能够简化训练过程并提高模型的生成质量。
- 旋转位置嵌入: FLUX.1 引入了旋转位置嵌入技术,可以增强模型对图像中不同位置特征的识别能力,从而提升图像的细节表现。
- 并行注意力层: 通过并行注意力机制,FLUX.1 能够同时关注输入序列中的多个部分,这有助于捕捉长距离依赖关系并提高生成图像的准确性。
FLUX.1 的项目地址:
- 项目官网:https://blackforestlabs.ai/#get-flux
- 在线Demo:
- https://replicate.com/black-forest-labs/flux-pro
- https://replicate.com/black-forest-labs/flux-dev
- https://replicate.com/black-forest-labs/flux-schnell
- GitHub仓库:https://github.com/black-forest-labs/flux
- HuggingFace模型库:https://huggingface.co/black-forest-labs/FLUX.1-schnell
如何使用 FLUX.1:
用户需要根据自己的需求选择合适的模型变体:
- FLUX.1 [pro]:适合需要顶级性能的商业应用,需要通过API访问。
- FLUX.1 [dev]:适用于非商业用途,是一个开源的、经过指导蒸馏的模型,可以在HuggingFace上获取。
- FLUX.1 [schnell]:适合本地开发和个人使用,是最快的模型,同样在HuggingFace上可以获取。
总结:
FLUX.1 的发布标志着 AI 图像生成领域迈出了重要的一步,其强大的性能和开源特性将为开发者、研究人员和艺术家提供更广阔的创作空间。相信 FLUX.1 将会推动 AI 图像生成技术的进一步发展,并为我们带来更加精彩的图像世界。
【source】https://ai-bot.cn/flux-1/
Views: 1