上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云

智谱AI发布CogSound:为无声视频赋予动人音效,开启多模态体验新纪元

北京,2024年10月26日 – 智谱AI今日宣布推出其最新音效模型CogSound,该模型能够为无声视频自动生成与画面内容相匹配的动人音效,为用户带来更加沉浸式的多模态体验。

CogSound基于智谱AI强大的多模态模型GLM-4V,能够精准识别理解视频背后的语义和情感,并生成与之相匹配的音频内容。这意味着,无论是充满活力和激情的运动场景,还是宁静祥和的自然风光,CogSound都能为无声视频添加恰如其分的音效,提升视频的真实感和沉浸感。

CogSound的主要功能包括:

  • 生成与画面匹配的音效: CogSound能够根据视频内容自动生成与画面相匹配的音效,例如爆炸声、水流声、乐器声、动物叫声、交通工具声等,为用户提供更加丰富的视听体验。
  • 支持4K超高清视频生成: CogSound支持生成10秒、4K分辨率、60帧的超高清视频,同时匹配相应的音效,为用户提供更加清晰、细腻的视觉效果。
  • 适应不同播放需求: CogSound支持任意比例的视频生成,以适应不同的播放需求,并为这些视频生成匹配的音效,确保视频在不同设备上都能呈现最佳效果。
  • 多通道视频生成: 同一指令或图片可以一次性生成4个视频,每个视频都有相应的音效,为用户提供更多选择和创作空间。
  • 提升视频生成体验: 通过添加音效,CogSound增强了视频内容的沉浸感和真实感,使视频生成的体验更加完整和生动。

CogSound的技术特点:

CogSound的强大功能源于其先进的技术架构:

  • 基于Unet的潜空间扩散: CogSound基于潜空间扩散模型(Latent Diffusion Model)将音频生成过程从高维原始空间转移到低维潜空间,有效降低了计算复杂度,提升了音频生成的效率。
  • 优化的U-Net结构: 作为扩散模型的核心框架,U-Net结构经过优化,能够在保持生成音频的高质量和高效率的同时,提升音频合成过程的性能。
  • 分块时序对齐交叉注意力: CogSound引入了分块时序对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,优化了视频长序列与音频特征之间的特征匹配,确保音视频特征之间紧密关联。
  • 精确的音视频映射: CogSound通过学习帧级视频特征与音频特征之间的关系,实现精准的音视频映射,确保每一帧画面都能在音符中找到自己的位置,每一个音符也能在视频中精准呼应。
  • 旋转位置编码: CogSound整合了旋转位置编码技术,为序列中的每个位置提供唯一标识并捕捉位置间的相对关系,有助于提升时序一致性,确保音频序列的连贯性和过渡自然性。

CogSound的应用场景:

CogSound的出现将为多个领域带来革新:

  • 视频内容创作: CogSound为视频内容创作者提供更加丰富的音效选择,增强视频的表现力,提升视频的质量和吸引力。
  • 广告制作: 在广告视频中加入匹配的音效,能够提升广告的吸引力和记忆点,提高广告的传播效果。
    *影视后期: 在影视后期制作中,CogSound能够为画面提供相应的音效支持,提高制作效率和质量,为观众带来更加沉浸式的观影体验。

CogSound的音效功能将很快上线公测,用户将能够体验到由CogSound提供的音效生成服务。 智谱AI的此次发布标志着其在视频生成领域取得了重大突破,也预示着多模态体验将进入一个全新的时代。

关于智谱AI:

智谱AI是一家专注于大模型技术研发的领先企业,致力于打造通用人工智能,推动人工智能技术在各领域的应用落地。智谱AI拥有强大的技术实力和丰富的产品线,其研发的GLM系列大模型在多个领域取得了领先成果。CogSound的发布是智谱AI在多模态领域的重要进展,将进一步推动人工智能技术的发展和应用。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注