华为震撼发布：PixArt-Σ，开启4K文生图新时代！

作者智能小编

8 月 28, 2024 #4K, #pixart, #华为, #每日AI快讯

华为近日在其AI工具集中发布了一项重要成果——PixArt-Σ，这是一个基于扩散Transformer架构（DiT）的文生图模型，能够直接从文本提示生成高达4K分辨率的高清图像。这一创新技术是由华为诺亚方舟实验室与大连理工大学、香港大学的专家共同研发，旨在提升AI图像生成的保真度和文本对齐程度。

PixArt-Σ是在PixArt-α模型基础上的升级，通过整合高级元素和采用由弱到强的训练方法，模型在保持较小参数量（0.6B参数）的同时，显著提升了图像质量和与文本的对应性。其生成的图像质量可与DALL·E 3和Midjourney V6等顶级文本到图像工具相媲美。

PixArt-Σ的核心特性

4K图像生成：PixArt-Σ可直接生成3840×2160分辨率的图像，无需额外处理，为用户提供了高清晰度的视觉体验。
高保真转换：模型在遵循文本描述方面表现出色，确保生成的图像与文本内容高度一致，达到高保真转换的效果。
高效训练策略：采用“弱到强训练”方法，结合高质量数据和令牌压缩技术，优化了训练过程，提升了效率。
紧凑模型设计：尽管生成4K图像，但模型参数量较小，易于部署和使用。

PixArt-Σ的工作原理

PixArt-Σ的工作基于DiT架构，通过预训练阶段学习文本和图像之间的关联。在预训练阶段，模型通过文本编码、条件特征提取、扩散过程和迭代细化逐步生成图像。此外， PixArt-Σ还利用了由弱到强的训练策略，先在低质量数据集上训练，逐步升级到高质量数据集，以最大化性能。模型所依赖的高质量数据集（Internal-Σ）包含丰富的视觉和文本信息，有助于提升生成图像的质量和对齐度。

PixArt-Σ的发布标志着华为在AI图像生成领域的又一重大突破，将为内容创作者、设计师和研究人员提供强大的工具，推动图像生成技术进入新的高度。对于用户而言，这意味着能够更直观、更精准地将想象力转化为视觉现实，为艺术、设计和多媒体应用带来无限可能。

【source】https://ai-bot.cn/pixart-sigma/