上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824

正文:

近年来,Transformer架构已成为现代深度学习领域的重要基石,其依赖于多层感知器(MLP)层来混合通道之间的信息。然而,多层感知器(MLP)在准确性和可解释性方面存在一些局限性。近期,一项引人注目的研究进展来自新加坡国立大学的研究团队,他们提出了一种名为Kolmogorov-Arnold Transformer(KAT)的新架构,通过将Kolmogorov-Arnold Network(KAN)层集成到Transformer中,有望解决深度学习模型的扩展缺陷。

KAN与Transformer的结合

KAN是由MIT等机构的研究者提出的一种替代MLP的方法,它在准确性和可解释性方面表现优于MLP,而且仅需较少的参数即可超越MLP的性能。KAN的发布在AI社区引起了广泛关注与讨论。

新加坡国立大学的研究团队进一步推动了这一领域的研究,他们提出了KATTransformer,使用KAN层取代了传统的MLP层,以增强模型的表达能力和性能。该研究的论文标题为“Kolmogorov-Arnold Transformer”,论文地址为https://arxiv.org/pdf/2409.10594,项目地址为https://github.com/Adamdad/kat

面临的挑战与解决方案

将KAN集成到Transformer中并非易事,尤其是在扩展时面临三大挑战:
1. 基函数:KAN中使用的标准B样条函数并未针对现代硬件的并行计算进行优化,导致推理速度较慢。
2. 参数和计算效率:KAN需要为每个输入输出对学习一个独特的函数,这使得计算量非常大。
3. 权重初始化:由于KAN具有可学习的激活函数,权重初始化特别具有挑战性。

为克服这些挑战,研究团队提出了以下解决方案:
1. 有理基础:用有理函数替换B样条函数,以提高与现代GPU的兼容性,并通过CUDA实现更快的计算。
2. Group KAN:通过一组神经元共享激活权重,以减少计算负载而不影响性能。
3. Variance-preserving 初始化:仔细初始化激活权重,确保跨层保持激活方差。

实验结果与争议

研究团队提出了一种新的KAN变体,称为Group-Rational KAN (GR-KAN),以取代Transformer中的MLP层。实验结果表明,GR-KAN计算效率高、易于实现,并且可以无缝集成到视觉Transformer(ViT)中,取代MLP层以实现卓越的性能。

在一项图像识别实验中,KAT模型在ImageNet-1K数据集上实现了82.3%的准确率,超过相同大小的ViT模型3.1%。当使用ViT的预训练权重进行初始化时,准确率进一步提高到82.7%。

然而,这项研究也引发了争议。一些网友对KAN的实用性持怀疑态度,认为其在性能和效率方面存在缺陷。论文作者回应称,他们的目标是修复原始KAN的bug并进行扩展,以提高性能和效率。

结论

KATTransformer的提出为深度学习领域带来了新的视角和解决方案。通过将KAN层集成到Transformer中,研究团队成功地解决了一些扩展缺陷,为未来的深度学习模型研究奠定了基础。尽管仍存在争议,但这一研究无疑为深度学习领域带来了新的启示和可能性。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注