图灵奖得主质疑Transformer：RNNs 真的过时了吗？

作者智能小编

10 月 16, 2024 #rnn, #图灵奖, #机器之心

上海的陆家嘴

图灵奖得主 Bengio 提出新模型：RNN 真的已经足够了吗？

近年来，Transformer 模型在自然语言处理领域占据主导地位，但挑战者不断涌现。 如今，图灵奖得主 Yoshua Bengio 携新作《Were RNNs All We Needed?》再次引发关注，试图重新审视经典的循环神经网络 (RNN) 模型，并挑战 Transformer 的统治地位。

Bengio 和他的团队发现，近年来兴起的许多新序列模型都具有相似之处，这促使他们重新关注 LSTM 和 GRU 这两种经典的 RNN 模型。 他们发现，通过简化隐藏状态依赖关系，并摒弃基于时间反向传播的训练方式，LSTM 和 GRU 的性能可以与 Transformer 相媲美。

传统 RNN 的主要缺点在于其训练速度缓慢，因为它只能顺序处理信息，并且依赖于时间反向传播。 为了克服这一限制，Bengio 团队对 LSTM 和 GRU 进行了简化，去除了输出范围限制，并确保输出在时间上独立，从而得到了 minLSTM 和 minGRU 模型。

minLSTM 和 minGRU 具有以下优势：

参数效率更高： 与传统 RNN相比，它们的参数数量显著减少。
并行训练： 它们可以并行训练，大幅提升训练速度。例如，当序列长度为 512 时，minGRU 的训练速度比传统 GRU 快 175 倍。

研究团队还将注意力机制重新诠释为一种 RNN，并提出了 Aaren 模块，它可以像 Transformer 一样并行训练，同时又像 RNN 一样高效更新。

在实验中，minLSTM 和 minGRU 在性能上与 Transformer 和最近提出的其他序列模型相媲美，同时在训练速度和参数效率方面表现出显著优势。

Bengio 的这项研究表明，RNN 并非过时，经过简化和优化，它们仍然可以与 Transformer 竞争，并提供更快的训练速度和更低的资源消耗。 这项研究为自然语言处理领域带来了新的思考，也为未来研究提供了新的方向。

未来，研究人员将继续探索 RNN 的潜力，并尝试将其与 Transformer 等其他模型结合，以开发出更加高效、灵活的自然语言处理模型。

参考文献：

Bengio, Y., et al. (2024). Were RNNs AllWe Needed? arXiv preprint arXiv:2410.01201.
Bengio, Y., et al. (2024). Attention as an RNN. arXiv preprint arXiv:2405.00001.

关键词： Yoshua Bengio,RNN, LSTM, GRU, Transformer, 自然语言处理, 深度学习, 人工智能.

>>> Read more <<<