PyTorch弃CUDA加速，Triton新纪元或至：无CUDA时代来临？

9 月 9, 2024 #PyTorch, #triton, #机器之心

NEWS 新闻

导语：近日，PyTorch官方宣布推出无需CUDA参与的大模型推理，引发了业界对Triton时代的关注。这一举措意味着PyTorch将挑战英伟达在GPU加速领域的霸主地位，同时为机器学习领域带来新的变革。

正文：

近日，PyTorch官方分享了如何实现无CUDA计算，并对各个内核进行了微基准测试比较。这一举措旨在探讨未来如何进一步改进Triton内核，以缩小与CUDA的差距。

在机器学习领域，英伟达的GPU和CUDA一直占据主导地位。使用英伟达的GPU和CUDA加速的机器学习模型可以实现更大的性能提升，成为英伟达的重要护城河。

然而，其他一些工作正在向CUDA发起挑战。OpenAI推出的Triton在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势，并持续得到发展。

近日，PyTorch官方宣布要做“无英伟达CUDA参与的大模型推理”。PyTorch表示，Triton提供了一条途径，使大模型能够在不同类型的GPU上运行，包括英伟达、AMD、英特尔和其他基于GPU的加速器。

PyTorch在Triton上的性能表现十分亮眼。对于使用基于Triton内核的模型生成单个token的时间，PyTorch能够实现在英伟达H100 GPU上Llama和Granite的CUDA内核主导工作流程的0.76-0.78倍性能，以及在英伟达A100 GPU上的0.62-0.82倍。

PyTorch团队表示，为了在Triton上实现高性能，他们对手写的Triton内核进行了优化，并使用PyTorch编译器进行优化。这些优化包括RMSNorm、RoPE、SiLU和点乘操作。

PyTorch团队表示，他们将继续关注Triton内核的发展，并探索在Triton上实现更多机器学习模型的优化。

结语：

PyTorch官方推出无CUDA加速推理，标志着Triton时代的来临。这一举措将推动机器学习领域的发展，并为英伟达在GPU加速领域的霸主地位带来挑战。未来，Triton将在机器学习领域发挥越来越重要的作用。