智谱AI开源文生图模型CogView3-Plus-3B,推动AI绘画领域发展
北京,2023年10月12日 – 智谱AI今日宣布开源其先进的文本到图像生成模型CogView3-Plus-3B,进一步推动了AI绘画领域的开放与发展。该模型基于最新的DiT框架,采用Zero-SNR扩散噪声调度和文本-图像联合注意力机制,显著提升了图像生成的质量和灵活性。
CogView3-Plus-3B是智谱AI在CogView3基础上进行的升级,并于近期在ECCV 2024大会上发布。CogView3本身就是一个基于级联扩散的text2img模型,包含三个阶段:
- 第一阶段:利用标准扩散过程生成512×512低分辨率的图像。
- 第二阶段:利用中继扩散过程,执行2倍的超分辨率生成,从512×512输入生成1024×1024的图像。
- 第三阶段:将生成结果再次基于中继扩散迭代,生成2048×2048高分辨率的图像。
CogView3在人工评估中比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时只需要SDXL大约1/10的推理时间。
CogView3-Plus则在CogView3的基础上引入了最新的DiT框架,以实现整体性能的进一步提升。其采用了Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比,它在保持模型基本能力的同时,有效降低了训练和推理成本。
CogView3-Plus使用潜在维度为16的VAE,并通过混合分辨率训练,支持512~2048像素区间内分辨率的灵活生成。在各类评测中,CogView3-Plus展现出与最领先的text2img模型持平的水平。
开源的意义和影响
CogView3-Plus-3B的开源,意味着更多开发者和研究人员可以自由地使用和改进该模型,推动AI绘画领域的发展。智谱AI此次开源采用Apache 2.0协议,这意味着开发者可以自由地使用、修改和分发该模型,这将加速AI绘画技术的进步,并为更多人提供创作和探索的可能性。
未来展望
智谱AI表示,未来将继续致力于开发更强大、更灵活的AI绘画模型,并积极推动相关技术的开源和应用。他们计划在Diffusers框架下搭建一套微调方案,并适配ControlNet,进一步提升CogView3-Plus模型的能力。
总结
智谱AI开源CogView3-Plus-3B,标志着AI绘画领域又迈出了重要一步。该模型的开源,将为开发者和研究人员提供更多可能性,推动AI绘画技术的进步,并为更多人提供创作和探索的可能性。
参考文献
Views: 0