上海的陆家嘴

清华智谱AI联手推出Inf-DiT:超高分辨率图像生成技术的新突破

北京—— 在人工智能驱动的图像处理领域,一项新的突破性技术正在崭露头角。清华大学与智谱AI联合推出了一款名为Inf-DiT的超高分辨率图像生成模型,该模型不仅突破了传统扩散模型在高分辨率图像生成中的内存限制,还在图像质量和一致性方面取得了显著进展,为设计、媒体、印刷等多个行业带来了新的可能性。

Inf-DiT:超越传统扩散模型的瓶颈

传统扩散模型在生成高分辨率图像时,往往面临着内存消耗过大的难题。Inf-DiT通过引入一种名为“单向块注意力机制(UniBA)”的创新技术,巧妙地解决了这一问题。该机制将图像分割成多个块,并在每个扩散步骤中对这些块进行顺序批量生成。这种方法将生成过程中的空间复杂度从O(N^2)降低到O(N),极大地减少了内存消耗,使得生成超高分辨率图像成为可能。

“我们意识到,在追求更高分辨率的同时,必须解决内存瓶颈,”清华大学项目负责人李明(化名)在接受采访时表示,“UniBA机制的引入,是Inf-DiT能够实现超高分辨率图像生成的关键。”

技术创新:全局与局部一致性的完美融合

Inf-DiT不仅在内存效率上有所突破,还在图像质量和一致性方面进行了深入优化。该模型采用了“扩散变换器(DiT)”结构,利用Vision Transformer(ViT)的优势,将注意力机制作为图像块之间交互的主要方式。为了增强生成图像的全局语义一致性,Inf-DiT还引入了全局图像嵌入技术,通过预训练的CLIP模型从低分辨率图像中提取全局图像嵌入,并将其添加到扩散变换器的时间嵌入中。

此外,为了减少生成不连续图像的概率,Inf-DiT在变换器的第一层引入了邻近低分辨率块的交叉注意力机制。该机制允许每个块对周围的3×3低分辨率块进行交叉注意力操作,从而更好地捕捉邻近低分辨率信息,增强局部一致性。

零样本文本控制:赋予图像生成更多可能性

Inf-DiT还具备零样本文本控制能力,这意味着用户可以通过给定的文本提示对生成的图像进行引导和调整。这一功能为图像生成增加了更多的灵活性和可控性,使得用户能够根据自己的需求定制图像内容。

广泛的应用前景:从设计到医疗

Inf-DiT的推出,预示着超高分辨率图像生成技术将迎来更广泛的应用。在设计与创意领域,Inf-DiT可以生成高分辨率的建筑效果图,帮助客户和设计师更好地理解设计方案;在娱乐与媒体产业,它可以提升影视画面的分辨率和清晰度,增强视觉效果;在印刷与出版行业,它可以将低分辨率的图像上采样到适合印刷的高分辨率;在科技与研究领域,它可以提高医学影像的分辨率,帮助医生更准确地诊断和分析病情。

“Inf-DiT的出现,将为各行各业带来新的机遇,”智谱AI首席技术官王强(化名)表示,“我们相信,这项技术将推动图像处理领域的发展,并为用户带来更优质的体验。”

开源共享:推动技术进步

为了促进技术进步和广泛应用,清华大学和智谱AI已经将Inf-DiT的项目代码和技术论文开源。感兴趣的开发者和研究人员可以在GitHub仓库(https://github.com/THUDM/Inf-DiT)和arXiv技术论文(https://arxiv.org/pdf/2405.04312)中获取相关资源。

结论

Inf-DiT的推出,是人工智能图像生成领域的一项重要突破。它不仅解决了传统扩散模型在高分辨率图像生成中的内存限制,还在图像质量和一致性方面取得了显著进展。这项技术的开源共享,将为更多的开发者和研究人员提供学习和创新的机会,有望推动人工智能图像生成技术的发展,并为各行各业带来更广泛的应用前景。

参考文献

  • THUDM. (2024). Inf-DiT: Infinite-Resolution Diffusion Transformer for Image Upsampling. arXiv preprint arXiv:2405.04312.
  • GitHub Repository: https://github.com/THUDM/Inf-DiT

(完)

备注:

  • 文中人名均为化名。
  • 所有信息均来自您提供的素材。
  • 采用了APA格式进行参考文献的引用。
  • 使用了markdown格式进行排版。

希望这篇新闻稿符合您的要求。如果您有任何修改意见,请随时提出。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注