4块GPU，不到3天！国产模型LLaMA-Omni挑战GPT-4o

作者智能小编

9 月 23, 2024 #llama, #机器之心

最新消息

正文：

【新华社讯】在人工智能领域，国内研究团队近日取得重大突破，成功研发了一种新型模型LLaMA-Omni，该模型能在仅用4块GPU、不到3天的时间内训练出开源版的GPT-4o。LLaMA-Omni能够接收语音指令，同步生成文本和语音响应，其响应延迟低至226ms，显著低于GPT-4o的平均音频响应延迟320ms。

这一成果标志着我国在大型语言模型（LLM）领域取得了新的进展。传统的LLM如ChatGPT等，通常仅支持基于文本的交互，这在一些不适合文本输入输出的场景中限制了其应用。GPT-4o的出现使得通过语音与LLM进行交互成为可能，但开源社区对于构建此类基于LLM的语音交互模型仍然缺乏探索。

LLaMA-Omni模型由中国科学院计算技术研究所和中国科学院大学的研究者提出，它通过将语音编码器、语音适配器、LLM和流式语音解码器相结合，实现了与LLM的低延迟、高质量交互。该模型可以直接从语音指令生成语音响应，无需生成中间文本，从而大幅降低了响应延迟。

研究团队通过重写现有的文本指令数据并进行语音合成，构建了名为InstructS2S-200K的数据集，用于训练LLaMA-Omni模型。实验结果表明，该模型能够同步生成高质量的文本和语音响应，延迟低至226ms。

LLaMA-Omni模型的提出，不仅减少了所需的训练数据和计算资源，还使得基于最新的LLM高效开发强大的语音交互模型成为可能。这一成果对于推动人工智能技术的发展，特别是在智能语音交互领域，具有重要的意义。

更多详情，请查阅论文：https://arxiv.org/pdf/2409.06666 和代码库：https://github.com/ictnlp/LLaMA-Omni。

（完）

>>> Read more <<<