新加坡国立大学推出LinFusion：单GPU一分钟生成16K图像

引言

在数字艺术和虚拟现实（VR）领域，生成高质量的图像一直是技术发展的关键。近日，新加坡国立大学的研究团队推出了一款名为 LinFusion 的图像生成模型，该模型在单个 GPU 上能够实现一分钟内生成 16K 分辨率的图像。这一技术突破不仅在艺术创作、游戏设计和虚拟现实等领域具有广泛应用前景，也为图像生成技术的发展带来了新的可能。

主体

林 fus ion 的主要功能

文本到图像生成：根据用户提供的文本描述，生成相应的高分辨率图像。
高分辨率支持：特别优化生成高分辨率图像，包括在训练过程中未遇到的分辨率。
线性复杂度：采用线性注意力机制，使模型在处理大量像素时计算效率更高，资源消耗更低。
跨分辨率生成：在不同的分辨率下生成图像，包括在训练时未见过的分辨率。
与预训练模型组件兼容：与预训练的 Stable Diffusion 组件（如 ControlNet 和 IP-Adapter）兼容，无需额外训练即可使用。

林 fus ion 的技术原理

线性注意力机制：传统的基于 Transformer 的模型中的二次复杂度自注意力不同，线性注意力机制使模型在处理大量像素时的计算复杂度与像素数量成线性关系，显著降低计算资源的需求。
广义线性注意力：对现有线性复杂度标记混合器（如 Mamba、Mamba2 和 Gated Linear Attention）的扩展，包括归一化感知和非因果操作，以适应高分辨率视觉生成的需求。
归一化感知：确保每个 token 的注意力权重之和等于 1，从而在不同尺度的图像上保持一致的性能。
非因果性：允许模型在生成过程中同时访问所有噪声空间标记，而不是像传统的 RNN 那样只能按顺序处理标记，有助于模型更好地捕捉图像的空间结构。

应用场景