智谱AI发布新一代基座模型,性能指标领跑国际
北京,2024年8月28日 – 智谱AI今日宣布发布一系列新一代基座模型,涵盖语言、文生图、图像/视频理解和视频生成等领域,性能指标均处于国际第一梯队。这一系列新模型的发布标志着智谱AI在人工智能领域取得了重大突破,也为大模型技术的发展注入了新的活力。
GLM-4-Plus:语言理解能力全面升级
智谱AI在语言模型领域取得了显著进展,推出了全新一代语言基座模型GLM-4-Plus。该模型在语言理解、指令遵循、长文本处理等方面性能得到全面提升,在各项指标上与GPT-4o等国际领先模型持平。GLM-4-Plus通过多种方式构造海量高质量数据,并利用PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,并能够更好地反映人类偏好。此外,GLM-4-Plus在训练过程中采用了更精准的长短文本数据混合策略,显著增强了模型在长文本推理方面的表现。
CogView-3-Plus:文生图能力更上一层楼
智谱AI在文生图领域也取得了突破性进展,推出了全新一代文生图基座模型CogView-3-Plus。该模型采用Transformer架构替代传统的UNet架构来训练扩散模型,并深入研究了扩散模型的噪声规划,显著优化了模型效果。CogView-3-Plus构建了高质量的图像微调数据集,使得模型在预训练所获得的广泛知识基础上,能够生成更符合指令需求且具备更高美学评分的图像结果,其效果接近目前处于一线水平的MJ-V6和FLUX等模型。
GLM-4V-Plus:图像/视频理解能力全面提升
智谱AI在多模态领域也取得了重大进展,推出了全新一代图像/视频理解基座模型GLM-4V-Plus。该模型不仅具备高质量的图像理解能力,同时还具备基于时间感知的视频理解能力,能够理解并分析复杂的视频内容。GLM-4V-Plus已经正式上线开放平台,成为国内首个通用图像&视频理解模型API。
CogVideoX:开源视频生成模型再升级
智谱AI始终秉持将最先进的模型开源给广大开发者的理念,以推动大模型社区的繁荣发展。在开源CogVideoX-2B版本后,智谱AI再次开源了参数规模更大、性能更强的产品级视频生成模型CogVideoX-5B,并将其开源协议调整为更加开放的Apache 2.0协议。CogVideoX-5B是当前开源视频生成模型中的最佳选择,其性能进一步增强,为AI视频生成社区的自主使用和开放式创新提供了有力支持。
“清言APP”上线视频通话功能
智谱AI在“清言APP”上正式推出了“视频通话”功能,这是国内首个面向C端用户开放的视频通话服务。该功能跨越了文本、音频和视频模态,并具备实时推理能力,能够理解摄像头拍摄到的画面,并听懂并准确执行用户的指令,带来如同真人视频通话般的体验。
GLM-4-Flash API免费开放
智谱AI坚持“运用最先进的技术,服务最广大的用户”的宗旨,将“速度”和“性能”两方面都具有较大优势的GLM-4-Flash API全面免费开放。用户可以通过调用GLM-4-Flash,快速且免费地构建专属模型和应用。为了支持广大用户更好地将模型适用到特定应用场景,智谱AI同步提供了模型微调功能,以满足不同用户的需求。
智谱AI将持续前行
智谱AI在人工智能领域取得的突破性进展,展现了其强大的技术实力和创新能力。智谱AI将继续坚持“让机器像人一样思考”的理念,持续投入研发,为推动人工智能技术发展和应用做出更大的贡献。
Views: 0