3Blue1Brown动画揭秘：LLM如何记住“乔丹打篮球”

作者智能小编

9 月 3, 2024 #LLM, #机器之心

上海的陆家嘴

编者按

近年来，大型语言模型（LLM）在人工智能领域取得了显著进展，但它们如何存储和处理事实一直是个谜。近日，知名科普动画团队3Blue1Brown发布了一则视频，以直观的动画形式揭示了LLM如何存储事实。本文将根据该视频内容，为您详细解读LLM的秘密。

正文

LLM中的“事实”存储之谜

在人工智能领域，大型语言模型（LLM）被广泛应用于文本生成、翻译、问答等任务。当我们向这些模型输入“Michael Jordan plays the sport of _（迈克尔・乔丹从事的体育运动是……）”，模型通常能准确预测出“basketball（篮球）”。这让人不禁好奇，这些模型是如何存储和处理这些事实的。

3Blue1Brown动画视频解析LLM存储事实的方式

近日，3Blue1Brown的《深度学习》课程第7课更新，通过生动详实的动画展示了LLM存储事实的方式。视频一经发布，浏览量迅速突破18万次。

视频中，3Blue1Brown以“乔丹打篮球”为例，详细解释了LLM如何通过多层感知器（MLP）存储和处理信息。

Transformer与MLP的工作原理

LLM的核心是Transformer架构，它基于已有的token（通常表示词或词组）预测下一个token。每个token都关联了一个高维向量，这些向量会通过两类运算：注意力（允许向量之间彼此传递信息）与多层感知器（MLP）。

在向量经过多次迭代后，每个向量都吸收了足够多的信息，这些信息既包括一般性知识，也包括上下文信息。这些知识就是模型预测下一token的依据。

MLP如何存储“乔丹打篮球”这一事实

在MLP中，信息以向量的形式存储。视频中，3Blue1Brown假设了三个不同的向量，分别代表“乔丹”、“迈克尔”和“篮球”。通过训练，可以让这些向量与相应的概念产生关联。

当输入向量序列穿过MLP模块时，每个向量都会经历一系列运算，包括线性投射、ReLU函数等。这些运算使得向量在编码“乔丹打篮球”这一事实时，能够输出正确的向量。

谷歌DeepMind论文提供有趣发现

去年12月，谷歌DeepMind发布了一篇相关论文，其中的具体案例便是匹配运动员及其运动项目。虽然这篇论文并未完全解答LLM事实存储的问题，但也得到了一些颇为有趣的结果。其中一个重点是：事实保存在网络中的一个特定部分，即多层感知器（MLP）。

结语

3Blue1Brown的动画视频为我们揭开了LLM存储事实的神秘面纱。通过直观的动画和详细的解释，我们得以一窥这一人工智能领域的重要进展。随着研究的深入，LLM的应用前景将更加广阔，为我们的生活带来更多便利。

智能新闻

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

3Blue1Brown动画揭秘：LLM如何记住“乔丹打篮球”

作者智能小编

编者按

正文

LLM中的“事实”存储之谜

3Blue1Brown动画视频解析LLM存储事实的方式

Transformer与MLP的工作原理

MLP如何存储“乔丹打篮球”这一事实

谷歌DeepMind论文提供有趣发现

结语

相关文章

AI模型评测新纪元：Vertex AI领航

360’s Light-R1 AI Outperforms DeepSeek-R1 in Math Open-Sourced for $1000!

360智脑开源Light-R1，千元成本超越DeepSeek！

发表回复取消回复

为您推荐

AI模型评测新纪元：Vertex AI领航

360’s Light-R1 AI Outperforms DeepSeek-R1 in Math Open-Sourced for $1000!

360智脑开源Light-R1，千元成本超越DeepSeek！

大模型应用开发：人人可掌握的技术核心竞争力！

作者智能小编

编者按

正文

LLM中的“事实”存储之谜

3Blue1Brown动画视频解析LLM存储事实的方式

Transformer与MLP的工作原理

MLP如何存储“乔丹打篮球”这一事实

谷歌DeepMind论文提供有趣发现

结语

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复