智谱AI开源CogView3-Plus-3B，文生图模型再升级！

10 月 15, 2024 #cogview3, #开源, #文生, #每日AI快讯

智谱AI开源文生图模型CogView3-Plus-3B，推动AI绘画领域发展

北京，2023年10月12日 – 智谱AI今日宣布开源其先进的文本到图像生成模型CogView3-Plus-3B，进一步推动了AI绘画领域的开放与发展。该模型基于最新的DiT框架，采用Zero-SNR扩散噪声调度和文本-图像联合注意力机制，显著提升了图像生成的质量和灵活性。

CogView3-Plus-3B是智谱AI在CogView3基础上进行的升级，并于近期在ECCV 2024大会上发布。CogView3本身就是一个基于级联扩散的text2img模型，包含三个阶段：

CogView3在人工评估中比目前最先进的开源文本到图像扩散模型SDXL高出77.0%，同时只需要SDXL大约1/10的推理时间。

CogView3-Plus则在CogView3的基础上引入了最新的DiT框架，以实现整体性能的进一步提升。其采用了Zero-SNR扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比，它在保持模型基本能力的同时，有效降低了训练和推理成本。

CogView3-Plus使用潜在维度为16的VAE，并通过混合分辨率训练，支持512~2048像素区间内分辨率的灵活生成。在各类评测中，CogView3-Plus展现出与最领先的text2img模型持平的水平。

开源的意义和影响

CogView3-Plus-3B的开源，意味着更多开发者和研究人员可以自由地使用和改进该模型，推动AI绘画领域的发展。智谱AI此次开源采用Apache 2.0协议，这意味着开发者可以自由地使用、修改和分发该模型，这将加速AI绘画技术的进步，并为更多人提供创作和探索的可能性。

未来展望

智谱AI表示，未来将继续致力于开发更强大、更灵活的AI绘画模型，并积极推动相关技术的开源和应用。他们计划在Diffusers框架下搭建一套微调方案，并适配ControlNet，进一步提升CogView3-Plus模型的能力。

总结

智谱AI开源CogView3-Plus-3B，标志着AI绘画领域又迈出了重要一步。该模型的开源，将为开发者和研究人员提供更多可能性，推动AI绘画技术的进步，并为更多人提供创作和探索的可能性。

参考文献

>>> Read more <<<