Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

智谱AI开源文生图模型CogView3-Plus-3B,推动AI绘画领域发展

北京,2023年10月12日 – 智谱AI今日宣布开源其先进的文本到图像生成模型CogView3-Plus-3B,进一步推动了AI绘画领域的开放与发展。该模型基于最新的DiT框架,采用Zero-SNR扩散噪声调度和文本-图像联合注意力机制,显著提升了图像生成的质量和灵活性。

CogView3-Plus-3B是智谱AI在CogView3基础上进行的升级,并于近期在ECCV 2024大会上发布。CogView3本身就是一个基于级联扩散的text2img模型,包含三个阶段:

  • 第一阶段:利用标准扩散过程生成512×512低分辨率的图像。
  • 第二阶段:利用中继扩散过程,执行2倍的超分辨率生成,从512×512输入生成1024×1024的图像。
  • 第三阶段:将生成结果再次基于中继扩散迭代,生成2048×2048高分辨率的图像。

CogView3在人工评估中比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时只需要SDXL大约1/10的推理时间。

CogView3-Plus则在CogView3的基础上引入了最新的DiT框架,以实现整体性能的进一步提升。其采用了Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。

CogView3-Plus使用潜在维度为16的VAE,并通过混合分辨率训练,支持512~2048像素区间内分辨率的灵活生成。在各类评测中,CogView3-Plus展现出与最领先的text2img模型持平的水平。

开源的意义和影响

CogView3-Plus-3B的开源,意味着更多开发者和研究人员可以自由地使用和改进该模型,推动AI绘画领域的发展。智谱AI此次开源采用Apache 2.0协议,这意味着开发者可以自由地使用、修改和分发该模型,这将加速AI绘画技术的进步,并为更多人提供创作和探索的可能性。

未来展望

智谱AI表示,未来将继续致力于开发更强大、更灵活的AI绘画模型,并积极推动相关技术的开源和应用。他们计划在Diffusers框架下搭建一套微调方案,并适配ControlNet,进一步提升CogView3-Plus模型的能力。

总结

智谱AI开源CogView3-Plus-3B,标志着AI绘画领域又迈出了重要一步。该模型的开源,将为开发者和研究人员提供更多可能性,推动AI绘画技术的进步,并为更多人提供创作和探索的可能性。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注