CogView4：AI文生图新突破，汉字生成惊艳亮相！

北京讯 – 在人工智能领域，国产力量再次崭露头角。智谱AI近日正式开源其最新文生图模型CogView4，这款拥有60亿参数的模型不仅支持中英双语输入，更令人瞩目的是，它也是首个支持生成汉字的开源文生图模型。这一突破性的进展，无疑为国内AI创意设计、教育资源生成等领域注入了新的活力。

CogView4在DPG-Bench基准测试中综合评分排名第一，达到了开源文生图模型的最先进水平（SOTA）。这意味着，在复杂的语义理解和指令跟随方面，CogView4展现出了卓越的性能。

CogView4的核心优势：

原生中文支持： CogView4是首个支持生成汉字的开源文生图模型，能够根据中文或英文提示词生成高质量图像，尤其擅长将汉字自然地融入图像中，为广告、短视频等创意领域提供了极大的便利。
任意分辨率生成： 该模型支持生成分辨率在512×512到2048×2048之间的图像，能够满足不同场景的创作需求。
强大的语义对齐能力： 在DPG-Bench基准测试中，CogView4综合评分排名第一，展现了其在复杂语义对齐和指令跟随方面的卓越性能。
显存优化与高效推理： 通过模型CPU卸载和文本编码器量化等技术，CogView4显著降低了显存占用，提升了推理效率。

技术解析：CogView4背后的秘密

CogView4采用了扩散模型结合Transformer的架构。扩散模型通过逐步去除噪声来生成图像，Transformer则负责处理文本和图像的联合表示。模型使用了6B参数的配置，支持任意长度的文本输入和任意分辨率的图像生成。

文本编码器与Tokenizer： CogView4使用了双语（中英文）的GLM-4编码器，能处理复杂的语义对齐任务。文本通过Tokenizer转化为嵌入向量，随后与图像的潜在表示结合。
图像编码与解码： 图像通过Variational Auto-Encoder（VAE）编码为潜在空间的表示，通过扩散模型逐步去噪生成最终图像。使模型能高效地处理图像的生成任务。
多阶段训练策略： CogView4采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。确保生成图像的高质量和美感。

应用前景广阔：赋能各行各业

CogView4的开源，意味着其应用场景将更加广泛，主要包括：

开源共享：助力AI生态发展

CogView4遵循Apache 2.0协议，这使得开发者可以自由地使用、修改和分发该模型，无需担心商业限制。智谱AI的这一举措，无疑将加速CogView4在各行各业的落地应用，并推动国内AI生态的蓬勃发展。

项目地址：

结语：

CogView4的发布，不仅是智谱AI在技术上的又一次突破，更是国产AI力量崛起的重要标志。我们期待CogView4能够在各行各业发挥更大的作用，为人们的生活带来更多便利和惊喜。同时，也希望更多的国内AI企业能够加入到开源共享的行列中来，共同推动中国人工智能技术的进步和发展。