在2024年KDD国际数据科学与数据管理会议上,智谱AI发布了新一代基座模型,包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus以及视频生成模型CogVideoX。这些模型在各自领域均达到了国际第一梯队的水平,标志着智谱AI在大模型技术上的持续创新与突破。
模型:GLM-4-Plus
GLM-4-Plus是智谱AI在语言基座模型上的最新成果。经过半年的理论研究和大量数据处理,GLM-4-Plus在语言理解、指令遵循、长文本处理等方面表现卓越,与GPT-4o等第一梯队模型持平。在训练过程中,智谱AI采用更精准的长短文本数据混合策略,显著提升了模型在长文本推理方面的表现。目前,GLM-4-Plus已经正式上线开放平台(bigmodel.cn),对外提供API服务,并即将在「清言APP」上线体验。
模型:CogView-3-Plus
CogView-3-Plus是智谱AI在文生图基座模型上的突破。通过采用Transformer架构替代传统的UNet架构,并深入研究扩散模型的噪声规划,智谱AI显著优化了模型效果。此外,高质量的图像微调数据集使得模型能够生成更符合指令需求且具备更高美学评分的图像结果,其效果接近目前处于一线水平的MJ-V6和FLUX等模型。目前,CogView-3-Plus模型已在开放平台(bigmodel.cn)对外提供API服务,并正式上线「清言APP」供大家使用。
模型:GLM-4V-Plus
GLM-4V-Plus是智谱AI在图像和视频理解领域的最新成果。基于CogVLM系列模型的研究经验,GLM-4V-Plus具备高质量的图像理解和视频理解能力,同时具备超强的时间感知能力。目前,该模型已经正式上线开放平台(bigmodel.cn),成为国内首个通用图像&视频理解模型API。
清言:视频通话
基于在模型领域的深入研究,智谱AI在「清言APP」上正式推出了“视频通话”功能,这是国内首个面向C端用户开放的视频通话服务。清言视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。用户在拨打清言的视频通话时,可以体验到流畅的互动,即使频繁打断,它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面,还能听懂并准确执行用户的指令,带来如同真人视频通话般的体验。清言视频通话功能将于8月30日上线,首批将面向部分用户开放,同时接受外部申请。我们将持续迭代优化,并逐步扩大开放范围,力求尽快实现全员覆盖。
开源:CogVideoX
智谱AI始终秉持将最先进的模型开源给广大开发者的理念,以推动大模型社区的繁荣发展。为进一步促进AI视频生成社区的自主使用和开放式创新,智谱在开源CogVideoX-2B版本后,再次开源了参数规模更大、性能更强的产品级视频生成模型CogVideoX-5B。同时,将CogVideoX-2B的开源协议调整为更加开放的Apache 2.0协议。开源仓库地址:https://github.com/thudm/cogvideo
API:GLM-4-Flash 免费
在大型模型技术持续进步的背景下,MaaS服务正逐步迈向普及化阶段。智谱坚持“运用最先进的技术,服务最广大的用户”的宗旨,将在“速度”和“性能”两方面都具有较大优势的GLM-4-Flash API全面免费开放。用户可以通过调用GLM-4-Flash,快速且免费地构建专属模型和应用。这也是智谱开放平台(bigmodel.cn)首个完全免费的大模型API。在完全免费开放GLM-4-Flash API的基础上,为了支持广大用户更好地将模型适用到特定应用场景,智谱同步提供了模型微调功能,以满足不同用户的需求。
结论
智谱AI的这些新成果不仅展示了其在大模型技术上的强大实力,也为未来的应用提供了无限可能。GLM-4-Plus、CogView-3-Plus、GLM-4V-Plus以及CogVideoX等模型在各自领域均达到了国际第一梯队的水平,标志着智谱AI在技术创新和应用上的持续突破。未来,随着这些模型的进一步开放和应用,将有望推动大模型技术的普及和发展,为各行各业带来更多的创新和变革。
参考文献
- 智谱AI官网
- KDD 2024大会论文集
- AI工具集
以上内容详细介绍了智谱AI在大模型技术上的最新进展,展示了其在语言、图像、视频等多模态领域的突破与应用,为读者提供了丰富的信息和深入的理解。
Views: 0