导语:近日,PyTorch官方宣布推出无需CUDA参与的大模型推理,引发了业界对Triton时代的关注。这一举措意味着PyTorch将挑战英伟达在GPU加速领域的霸主地位,同时为机器学习领域带来新的变革。
正文:
- PyTorch官方分享无CUDA计算方法
近日,PyTorch官方分享了如何实现无CUDA计算,并对各个内核进行了微基准测试比较。这一举措旨在探讨未来如何进一步改进Triton内核,以缩小与CUDA的差距。
- 英伟达GPU和CUDA在机器学习领域的地位
在机器学习领域,英伟达的GPU和CUDA一直占据主导地位。使用英伟达的GPU和CUDA加速的机器学习模型可以实现更大的性能提升,成为英伟达的重要护城河。
- OpenAI推出的Triton挑战CUDA
然而,其他一些工作正在向CUDA发起挑战。OpenAI推出的Triton在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势,并持续得到发展。
- PyTorch官方宣布使用Triton进行探索
近日,PyTorch官方宣布要做“无英伟达CUDA参与的大模型推理”。PyTorch表示,Triton提供了一条途径,使大模型能够在不同类型的GPU上运行,包括英伟达、AMD、英特尔和其他基于GPU的加速器。
- PyTorch在Triton上的性能表现
PyTorch在Triton上的性能表现十分亮眼。对于使用基于Triton内核的模型生成单个token的时间,PyTorch能够实现在英伟达H100 GPU上Llama和Granite的CUDA内核主导工作流程的0.76-0.78倍性能,以及在英伟达A100 GPU上的0.62-0.82倍。
- PyTorch团队对Triton内核的改进
PyTorch团队表示,为了在Triton上实现高性能,他们对手写的Triton内核进行了优化,并使用PyTorch编译器进行优化。这些优化包括RMSNorm、RoPE、SiLU和点乘操作。
- PyTorch团队对Triton内核的展望
PyTorch团队表示,他们将继续关注Triton内核的发展,并探索在Triton上实现更多机器学习模型的优化。
结语:
PyTorch官方推出无CUDA加速推理,标志着Triton时代的来临。这一举措将推动机器学习领域的发展,并为英伟达在GPU加速领域的霸主地位带来挑战。未来,Triton将在机器学习领域发挥越来越重要的作用。
Views: 0