Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

被遗忘的先驱:注意力机制的起源与Transformer的崛起

引言: 2017年,一篇名为《Attention isAll You Need》的论文横空出世,Transformer架构及其核心——注意力机制——迅速席卷了人工智能领域。然而,鲜为人知的是,注意力机制的真正起源,可以追溯到比这篇文章早三年的一篇论文。著名AI研究者Andrej Karpathy近期的一篇长推文,揭开了这段被掩盖的历史,让我们得以窥见人工智能发展中鲜为人知的精彩故事,以及科学发现中“站在巨人的肩膀上”的复杂性。

主体:

Karpathy的推文源于他与Dzmitry Bahdanau的邮件往来。Bahdanau,ServiceNow Research的研究科学家和研究负责人,同时也是麦吉尔大学的兼职教授,正是2014年论文《Neural Machine Translation by Jointly Learning to Align and Translate》的共同作者之一。这篇论文,比《Attention is All You Need》早三年,首次提出了注意力机制,却并未获得同等程度的关注。

Bahdanau在邮件中详细描述了注意力机制的诞生过程。 最初的灵感并非源于对数学公式的推导,而是对人类认知过程的模拟——人们在阅读和翻译时,会将注意力集中在原文的特定部分。 这个“关注”(attending)特定词语并依次输出翻译的过程,最终演变成了“Attention”这个术语,这还要感谢Yoshua Bengio在RNNSearch中的正式引入。

值得注意的是,Bahdanau并非孤军奋战。 Karpathy在推文中提到,Alex Graves的NMT论文和Jason Weston的记忆网络论文也独立地发现了类似的机制。这说明,在2013年到2017年间,关于注意力机制的思想,如同空气中的种子,早已悄然萌发。

那么,《Attention is All You Need》的贡献究竟何在?Karpathy认为,这篇论文的价值在于它并非仅仅提出了注意力机制,更重要的是,它将注意力机制提升到了核心地位,构建了简洁而强大的Transformer架构。 论文中提出的其他创新,例如位置编码、缩放式注意力、多头注意力以及各向同性的设计,也共同促成了Transformer的成功。 Karpathy指出,即使在今天,Transformer架构仍然保留着2017年时的基本形态,这足以证明其设计的精妙之处。

Karpathy的推文在社交媒体上引发了热烈的讨论。许多人对这段鲜为人知的历史表示惊讶,并感叹人工智能领域中“隐藏的英雄”的存在。 Hyperbolic Labs的创始人和CTOYuchen Jin甚至幽默地指出,《Attention is All You Need》的另一项贡献是“带歪了”之后AI论文的标题风格——吸引眼球的标题似乎成为了标配。

结论:

注意力机制的故事,并非一个简单的“先来后到”的问题。 Bahdanau等人的先驱性工作为Transformer的出现奠定了基础,而《Attention is All You Need》则将这一机制推向了巅峰,并深刻地改变了人工智能领域的面貌。 这个故事提醒我们,科学发现往往是一个复杂而漫长的过程,充满了偶然与必然,合作与竞争。 那些被暂时掩盖的贡献,同样值得我们铭记和尊重。 未来,我们或许需要更加关注那些在科学发展道路上默默耕耘的“隐藏英雄”,以更全面的视角理解人工智能的演进历程。

参考文献:

  • Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
  • Vaswani, A., Shazeer, N., Parmar, N.,Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  • Karpathy’s Twitter thread (具体链接需根据Karpathy发布推文的实际链接补充)

*(注:由于无法访问实时网络信息,Karpathy的推文链接和具体内容无法在本文中直接引用。请读者自行搜索相关信息。) *


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注