摘要: AI语音助手领域迎来新突破。AI公司Sesame推出逼真语音助手Maya,通过情感智能、上下文记忆和高保真语音生成技术,有效降低了用户在使用AI语音助手时产生的“语音恐怖谷”效应。更令人振奋的是,Sesame已开源驱动Maya的基础模型CSM-1B,为AI语音技术的发展注入了新的活力。
正文:
在人工智能的浪潮中,语音助手一直是备受关注的焦点。从OpenAI的《Her》到各种智能音箱,AI语音助手正逐渐渗透到人们的日常生活中。然而,当AI合成语音无限接近真人时,一种微妙的不适感也随之而来,这就是所谓的“语音恐怖谷”效应。当AI语音助手过于逼真,但又存在细微的不自然或不完美之处时,用户反而会感到怪异,甚至比完全机械化的语音更难以接受。
为了克服这一挑战,AI公司Sesame推出了其最新成果——逼真语音助手Maya。Maya通过情感智能、上下文记忆和高保真语音生成技术,力图跨越“语音恐怖谷”,为用户带来更自然、更富情感的语音交互体验。
正如Sesame官方博客所言,他们的研究成功跨越了恐怖谷效应。从演示对话中可以看出,Maya的语气随和自然,能够像朋友一样与用户进行长时间的交流。它甚至可以打断别人的话,用户也可以随时打断它,对话中还伴随着自然的呼吸声,这些细节都极大地增强了对话的真实感。
更令人兴奋的是,Sesame开源了驱动Maya的基础模型CSM-1B(Conversational Speech Model)。该模型拥有10亿参数规模,并采用了Apache 2.0许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。
CSM-1B的核心技术之一是RVQ(Residual Vector Quantization),这是一种将音频编码为离散token的技术。包括谷歌的SoundStream和Meta的Encodec在内的多家科技巨头都在AI音频研究中采用了类似技术。CSM-1B以Meta的Llama系列模型为骨干架构,并搭配了一个音频解码器组件。Sesame表示,Maya的精细微调版本正是基于CSM。
然而,Sesame也坦诚地指出,开源模型是一个基础生成模型,尚未针对任何特定声音进行精细微调。此外,由于训练数据中的数据污染,该模型对非英语语言有一定的能力,但表现可能不佳。
值得注意的是,CSM-1B目前缺乏真正的安全防护措施。Sesame采用了一种诚信系统,仅仅是敦促开发者和用户不要在未经他人同意的情况下使用该模型模仿别人的声音,不要创建误导性内容如假新闻,或从事有害或恶意活动。
这一问题也引发了行业内的担忧。《消费者报告》最近发出警告,指出市场上众多流行的AI语音克隆工具缺乏有效的防范措施来预防欺诈和滥用行为。
Sesame由Oculus联合创始人兼前CEO Brendan Iribe、前Ubiquity6首席技术官兼联合创始人Ankit Kumar、前Meta Reality Labs研究工程总监Ryan Brown等创意人才领导。该公司已从Andreessen Horowitz、Spark Capital和Matrix Partners等投资机构获得融资,但具体金额未对外公布。
Sesame专注于开发自然对话的语音伙伴及相关设备。公司采用跨学科方法,结合硬件、软件和机器学习技术,确保语音界面既实用又令人愉悦。除了语音助手技术外,Sesame还在研发可全天佩戴的AI眼镜原型,这些眼镜将搭载公司自主开发的定制模型。
结论:
Sesame开源Maya背后的基础模型CSM-1B,无疑为AI语音技术的发展带来了新的机遇。然而,在享受技术进步的同时,我们也必须警惕潜在的安全风险,并采取有效措施加以防范。未来,如何平衡AI语音技术的逼真度和安全性,将是行业面临的重要课题。
参考文献:
- Sesame官方博客:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice
- TechCrunch:https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/
- ZDNet:https://www.zdnet.com/article/talking-with-sesames-ai-voice-companion-is-amazing-and-creepy-see-for-yourself/
- CSM-1B GitHub:https://github.com/SesameAILabs/csm
- CSM-1B Hugging Face:https://huggingface.co/spaces/sesame/csm-1b
Views: 0