正文:
【新华社讯】在人工智能领域,国内研究团队近日取得重大突破,成功研发了一种新型模型LLaMA-Omni,该模型能在仅用4块GPU、不到3天的时间内训练出开源版的GPT-4o。LLaMA-Omni能够接收语音指令,同步生成文本和语音响应,其响应延迟低至226ms,显著低于GPT-4o的平均音频响应延迟320ms。
这一成果标志着我国在大型语言模型(LLM)领域取得了新的进展。传统的LLM如ChatGPT等,通常仅支持基于文本的交互,这在一些不适合文本输入输出的场景中限制了其应用。GPT-4o的出现使得通过语音与LLM进行交互成为可能,但开源社区对于构建此类基于LLM的语音交互模型仍然缺乏探索。
LLaMA-Omni模型由中国科学院计算技术研究所和中国科学院大学的研究者提出,它通过将语音编码器、语音适配器、LLM和流式语音解码器相结合,实现了与LLM的低延迟、高质量交互。该模型可以直接从语音指令生成语音响应,无需生成中间文本,从而大幅降低了响应延迟。
研究团队通过重写现有的文本指令数据并进行语音合成,构建了名为InstructS2S-200K的数据集,用于训练LLaMA-Omni模型。实验结果表明,该模型能够同步生成高质量的文本和语音响应,延迟低至226ms。
LLaMA-Omni模型的提出,不仅减少了所需的训练数据和计算资源,还使得基于最新的LLM高效开发强大的语音交互模型成为可能。这一成果对于推动人工智能技术的发展,特别是在智能语音交互领域,具有重要的意义。
更多详情,请查阅论文:https://arxiv.org/pdf/2409.06666 和代码库:https://github.com/ictnlp/LLaMA-Omni。
(完)
Views: 0