Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

MuCodec:超低比特率音乐压缩技术的里程碑

引言:想象一下,在拥挤的地铁上,用手机流畅地播放高品质音乐,却几乎不消耗任何流量。这不再是梦想。清华大学、腾讯AI实验室和香港中文大学联合推出的MuCodec,一款超低比特率音乐编解码器,正将这一愿景变为现实。它以其突破性的压缩技术,为音乐产业带来了革命性的变革。

主体:

MuCodec并非简单的音频压缩算法的升级,而是基于对音乐本质特征的深刻理解,结合先进的深度学习技术,实现音乐高效压缩与高保真重建的创新成果。其核心在于MuEncoder,一个能够提取音乐声学和语义特征的强大引擎。不同于以往只关注音频信号本身的编码器,MuEncoder巧妙地将人声和背景音乐区分开来,分别提取其特征,从而更精准地捕捉音乐的精髓。

这套系统采用了两阶段训练策略:第一阶段,利用掩码语言模型(Mask Language Model)进行预训练,让MuEncoder能够理解音频的上下文信息,增强其特征提取能力;第二阶段,则引入重建和歌词识别约束,确保提取的特征不仅包含音频信息,还包含音乐的语义信息,例如歌词内容。 这使得MuCodec能够在极低的比特率下,仍然保留音乐的丰富细节和情感表达。

为了进一步提升压缩效率,MuCodec采用了残差矢量量化 (RVQ) 技术对提取的特征进行离散化处理。RVQ通过对特征残差进行压缩,而非直接压缩原始特征,从而达到更高的压缩比。此外,它还利用级联码本,提供更精细的近似,保证重建音频的质量。

重建过程则采用了一种创新的流匹配方法,该方法相比传统的GAN方法,训练更加稳定,所需步骤更少,并在超低比特率重建任务中取得了显著的优势。 最终,重建的Mel频谱图通过预训练的Mel-VAE解码器恢复,并由预训练的HiFi-GAN生成最终的高保真音频。

MuCodec支持0.35kbps到1.35kbps的双比特率,为用户提供了灵活的选择,兼顾压缩效率和音质。在如此低的比特率下,MuCodec仍然能够达到业界领先的压缩效率和音质,这在以往是难以想象的。

MuCodec的技术优势和应用场景:

  • 超低比特率: 显著降低存储和传输成本,尤其适用于移动设备和低带宽环境。
  • 高保真重建: 在极低比特率下,仍然能够保持较高的音频质量。
  • 多场景适用: 适用于在线音乐流媒体服务、音乐下载、语言模型建设、音频编辑软件以及移动设备和嵌入式系统等多种场景。

结论:

MuCodec的出现标志着音乐压缩技术迈入了新的时代。它不仅在技术上取得了突破性进展,更重要的是,它为音乐产业带来了巨大的应用潜力。 未来,MuCodec有望进一步提升压缩效率和音质,并应用于更多领域,例如虚拟现实、增强现实等,为用户带来更便捷、更优质的音乐体验。 这项技术的成功也展示了学术界与产业界合作的巨大力量,为未来人工智能技术在音频领域的应用提供了宝贵的经验。

参考文献:

(注:由于无法访问实时网络,以上链接仅供参考,实际链接请访问原文。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注