Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

摘要: AI语音助手领域迎来新突破。AI公司Sesame推出逼真语音助手Maya,通过情感智能、上下文记忆和高保真语音生成技术,有效降低了用户在使用AI语音助手时产生的“语音恐怖谷”效应。更令人振奋的是,Sesame已开源驱动Maya的基础模型CSM-1B,为AI语音技术的发展注入了新的活力。

正文:

在人工智能的浪潮中,语音助手一直是备受关注的焦点。从OpenAI的《Her》到各种智能音箱,AI语音助手正逐渐渗透到人们的日常生活中。然而,当AI合成语音无限接近真人时,一种微妙的不适感也随之而来,这就是所谓的“语音恐怖谷”效应。当AI语音助手过于逼真,但又存在细微的不自然或不完美之处时,用户反而会感到怪异,甚至比完全机械化的语音更难以接受。

为了克服这一挑战,AI公司Sesame推出了其最新成果——逼真语音助手Maya。Maya通过情感智能、上下文记忆和高保真语音生成技术,力图跨越“语音恐怖谷”,为用户带来更自然、更富情感的语音交互体验。

正如Sesame官方博客所言,他们的研究成功跨越了恐怖谷效应。从演示对话中可以看出,Maya的语气随和自然,能够像朋友一样与用户进行长时间的交流。它甚至可以打断别人的话,用户也可以随时打断它,对话中还伴随着自然的呼吸声,这些细节都极大地增强了对话的真实感。

更令人兴奋的是,Sesame开源了驱动Maya的基础模型CSM-1B(Conversational Speech Model)。该模型拥有10亿参数规模,并采用了Apache 2.0许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。

CSM-1B的核心技术之一是RVQ(Residual Vector Quantization),这是一种将音频编码为离散token的技术。包括谷歌的SoundStream和Meta的Encodec在内的多家科技巨头都在AI音频研究中采用了类似技术。CSM-1B以Meta的Llama系列模型为骨干架构,并搭配了一个音频解码器组件。Sesame表示,Maya的精细微调版本正是基于CSM。

然而,Sesame也坦诚地指出,开源模型是一个基础生成模型,尚未针对任何特定声音进行精细微调。此外,由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但表现可能不佳。

值得注意的是,CSM-1B目前缺乏真正的安全防护措施。Sesame采用了一种诚信系统,仅仅是敦促开发者和用户不要在未经他人同意的情况下使用该模型模仿别人的声音,不要创建误导性内容如假新闻,或从事有害或恶意活动。

这一问题也引发了行业内的担忧。《消费者报告》最近发出警告,指出市场上众多流行的AI语音克隆工具缺乏有效的防范措施来预防欺诈和滥用行为。

Sesame由Oculus联合创始人兼前CEO Brendan Iribe、前Ubiquity6首席技术官兼联合创始人Ankit Kumar、前Meta Reality Labs研究工程总监Ryan Brown等创意人才领导。该公司已从Andreessen Horowitz、Spark Capital和Matrix Partners等投资机构获得融资,但具体金额未对外公布。

Sesame专注于开发自然对话的语音伙伴及相关设备。公司采用跨学科方法,结合硬件、软件和机器学习技术,确保语音界面既实用又令人愉悦。除了语音助手技术外,Sesame还在研发可全天佩戴的AI眼镜原型,这些眼镜将搭载公司自主开发的定制模型。

结论:

Sesame开源Maya背后的基础模型CSM-1B,无疑为AI语音技术的发展带来了新的机遇。然而,在享受技术进步的同时,我们也必须警惕潜在的安全风险,并采取有效措施加以防范。未来,如何平衡AI语音技术的逼真度和安全性,将是行业面临的重要课题。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注