Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

引言: 在人工智能浪潮中,语音理解技术正日益成为人机交互的关键。近日,西北工业大学计算机学院音频、语音与语言处理研究组开源了其研发的语音理解模型OSUM(Open Speech Understanding Model),为智能语音交互领域注入了新的活力。

OSUM:语音理解的开源新星

OSUM模型结合了Whisper编码器和Qwen2 LLM(大型语言模型),旨在实现高效且稳定的语音理解能力。该模型支持多种语音任务,包括语音识别(ASR)、语音情感识别(SER)以及说话者性别分类(SGC)。通过“ASR+X”多任务训练策略,OSUM能够利用模态对齐和目标任务优化,在中文语音识别和多任务泛化能力上展现出卓越的性能。

技术原理:多任务学习与模态融合

OSUM的技术核心在于其多任务训练策略和模态融合方法。具体来说:

  • Speech Encoder: 模型采用Whisper-Medium模型(769M参数)作为语音信号的编码器,负责将语音信号转化为特征向量。
  • Adaptor: 为了适配语音特征与语言模型的输入,OSUM设计了一个包含3层卷积和4层Transformer的Adaptor模块。
  • LLM(语言模型): OSUM基于Qwen2-7B-Instruct,并采用LoRA(Low-Rank Adaptation)微调技术,使其能够适应多任务需求。
  • 多任务训练策略: OSUM采用“ASR+X”训练范式,同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等),从而提升模型的泛化能力和稳定性。此外,模型还利用自然语言Prompt引导LLM执行不同的任务。

功能与应用:赋能多样化场景

OSUM模型具备以下主要功能:

  • 语音识别: 将语音转换为文本,支持多种语言和方言。
  • 带时间戳的语音识别: 在识别语音内容的同时,输出每个单词或短语的起止时间。
  • 语音事件检测: 识别语音中的特定事件,如笑声、咳嗽、背景噪音等。
  • 语音情感识别: 分析语音中的情感状态,如高兴、悲伤、愤怒等。
  • 说话风格识别: 识别说话者的风格,如新闻播报、客服对话、日常口语等。
  • 说话者性别分类: 判断说话者的性别。
  • 说话者年龄预测: 预测说话者的年龄范围。
  • 语音转文本聊天: 将语音输入转化为自然语言回复,用于对话系统。

凭借这些功能,OSUM在多个领域具有广泛的应用前景:

  • 智能客服: 自动理解客户需求并提供个性化服务。
  • 智能家居: 识别语音指令和背景事件,优化语音交互体验。
  • 教育工具: 分析学生语音,提供个性化学习反馈。
  • 心理健康监测: 检测语音中的情绪变化,辅助心理健康评估。
  • 多媒体内容创作: 自动生成字幕和标签,辅助视频编辑。

开源:推动语音理解技术发展

西北工业大学选择开源OSUM模型,无疑将加速语音理解技术的发展。研究者和开发者可以基于OSUM进行二次开发,探索新的应用场景,共同推动智能语音交互技术的进步。

项目地址:

结论:

OSUM的开源,不仅是西北工业大学在语音理解领域的一次重要贡献,也为整个AI社区提供了一个强大的工具。随着技术的不断发展和完善,我们有理由相信,OSUM将在未来的智能语音交互领域发挥更加重要的作用。

参考文献:

致谢: 感谢西北工业大学计算机学院音频、语音与语言处理研究组为开源社区做出的贡献。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注