Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京讯 – 在人工智能领域,国产力量再次崭露头角。智谱AI近日正式开源其最新文生图模型CogView4,这款拥有60亿参数的模型不仅支持中英双语输入,更令人瞩目的是,它也是首个支持生成汉字的开源文生图模型。这一突破性的进展,无疑为国内AI创意设计、教育资源生成等领域注入了新的活力。

CogView4在DPG-Bench基准测试中综合评分排名第一,达到了开源文生图模型的最先进水平(SOTA)。这意味着,在复杂的语义理解和指令跟随方面,CogView4展现出了卓越的性能。

CogView4的核心优势:

  • 原生中文支持: CogView4是首个支持生成汉字的开源文生图模型,能够根据中文或英文提示词生成高质量图像,尤其擅长将汉字自然地融入图像中,为广告、短视频等创意领域提供了极大的便利。
  • 任意分辨率生成: 该模型支持生成分辨率在512×512到2048×2048之间的图像,能够满足不同场景的创作需求。
  • 强大的语义对齐能力: 在DPG-Bench基准测试中,CogView4综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。
  • 显存优化与高效推理: 通过模型CPU卸载和文本编码器量化等技术,CogView4显著降低了显存占用,提升了推理效率。

技术解析:CogView4背后的秘密

CogView4采用了扩散模型结合Transformer的架构。扩散模型通过逐步去除噪声来生成图像,Transformer则负责处理文本和图像的联合表示。模型使用了6B参数的配置,支持任意长度的文本输入和任意分辨率的图像生成。

  • 文本编码器与Tokenizer: CogView4使用了双语(中英文)的GLM-4编码器,能处理复杂的语义对齐任务。文本通过Tokenizer转化为嵌入向量,随后与图像的潜在表示结合。
  • 图像编码与解码: 图像通过Variational Auto-Encoder(VAE)编码为潜在空间的表示,通过扩散模型逐步去噪生成最终图像。使模型能高效地处理图像的生成任务。
  • 多阶段训练策略: CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。确保生成图像的高质量和美感。

应用前景广阔:赋能各行各业

CogView4的开源,意味着其应用场景将更加广泛,主要包括:

  • 广告与创意设计: 生成高质量的海报、文案配图等,满足广告和创意设计领域的需求。
  • 教育资源生成: 为教育领域生成教学插图、科学插图等,帮助学生更好地理解和吸收知识。
  • 儿童绘本创作: 生成适合儿童绘本的插图,激发儿童的想象力。
  • 电商与内容创作: 生成高质量的产品图片、广告海报等,帮助商家快速创建吸引人的视觉内容。
  • 个性化定制: 根据用户需求生成定制化的图像内容,提升用户体验。

开源共享:助力AI生态发展

CogView4遵循Apache 2.0协议,这使得开发者可以自由地使用、修改和分发该模型,无需担心商业限制。智谱AI的这一举措,无疑将加速CogView4在各行各业的落地应用,并推动国内AI生态的蓬勃发展。

项目地址:

结语:

CogView4的发布,不仅是智谱AI在技术上的又一次突破,更是国产AI力量崛起的重要标志。我们期待CogView4能够在各行各业发挥更大的作用,为人们的生活带来更多便利和惊喜。同时,也希望更多的国内AI企业能够加入到开源共享的行列中来,共同推动中国人工智能技术的进步和发展。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注