被遗忘的先驱:注意力机制的起源与Transformer的崛起

引言: 2017年,一篇名为《Attention isAll You Need》的论文横空出世,Transformer架构及其核心——注意力机制——迅速席卷了人工智能领域。然而,鲜为人知的是,注意力机制的真正起源,可以追溯到比这篇文章早三年的一篇论文。著名AI研究者Andrej Karpathy近期的一篇长推文,揭开了这段被掩盖的历史,让我们得以窥见人工智能发展中鲜为人知的精彩故事,以及科学发现中“站在巨人的肩膀上”的复杂性。

主体:

Karpathy的推文源于他与Dzmitry Bahdanau的邮件往来。Bahdanau,ServiceNow Research的研究科学家和研究负责人,同时也是麦吉尔大学的兼职教授,正是2014年论文《Neural Machine Translation by Jointly Learning to Align and Translate》的共同作者之一。这篇论文,比《Attention is All You Need》早三年,首次提出了注意力机制,却并未获得同等程度的关注。

Bahdanau在邮件中详细描述了注意力机制的诞生过程。 最初的灵感并非源于对数学公式的推导,而是对人类认知过程的模拟——人们在阅读和翻译时,会将注意力集中在原文的特定部分。 这个“关注”(attending)特定词语并依次输出翻译的过程,最终演变成了“Attention”这个术语,这还要感谢Yoshua Bengio在RNNSearch中的正式引入。

值得注意的是,Bahdanau并非孤军奋战。 Karpathy在推文中提到,Alex Graves的NMT论文和Jason Weston的记忆网络论文也独立地发现了类似的机制。这说明,在2013年到2017年间,关于注意力机制的思想,如同空气中的种子,早已悄然萌发。

那么,《Attention is All You Need》的贡献究竟何在?Karpathy认为,这篇论文的价值在于它并非仅仅提出了注意力机制,更重要的是,它将注意力机制提升到了核心地位,构建了简洁而强大的Transformer架构。 论文中提出的其他创新,例如位置编码、缩放式注意力、多头注意力以及各向同性的设计,也共同促成了Transformer的成功。 Karpathy指出,即使在今天,Transformer架构仍然保留着2017年时的基本形态,这足以证明其设计的精妙之处。

Karpathy的推文在社交媒体上引发了热烈的讨论。许多人对这段鲜为人知的历史表示惊讶,并感叹人工智能领域中“隐藏的英雄”的存在。 Hyperbolic Labs的创始人和CTOYuchen Jin甚至幽默地指出,《Attention is All You Need》的另一项贡献是“带歪了”之后AI论文的标题风格——吸引眼球的标题似乎成为了标配。

结论:

注意力机制的故事,并非一个简单的“先来后到”的问题。 Bahdanau等人的先驱性工作为Transformer的出现奠定了基础,而《Attention is All You Need》则将这一机制推向了巅峰,并深刻地改变了人工智能领域的面貌。 这个故事提醒我们,科学发现往往是一个复杂而漫长的过程,充满了偶然与必然,合作与竞争。 那些被暂时掩盖的贡献,同样值得我们铭记和尊重。 未来,我们或许需要更加关注那些在科学发展道路上默默耕耘的“隐藏英雄”,以更全面的视角理解人工智能的演进历程。

参考文献:

  • Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  • Vaswani, A., Shazeer, N., Parmar, N.,Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  • Karpathy’s Twitter thread (具体链接需根据Karpathy发布推文的实际链接补充)

*(注:由于无法访问实时网络信息,Karpathy的推文链接和具体内容无法在本文中直接引用。请读者自行搜索相关信息。) *


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注