编者按
近年来,大型语言模型(LLM)在人工智能领域取得了显著进展,但它们如何存储和处理事实一直是个谜。近日,知名科普动画团队3Blue1Brown发布了一则视频,以直观的动画形式揭示了LLM如何存储事实。本文将根据该视频内容,为您详细解读LLM的秘密。
正文
LLM中的“事实”存储之谜
在人工智能领域,大型语言模型(LLM)被广泛应用于文本生成、翻译、问答等任务。当我们向这些模型输入“Michael Jordan plays the sport of _(迈克尔・乔丹从事的体育运动是……)”,模型通常能准确预测出“basketball(篮球)”。这让人不禁好奇,这些模型是如何存储和处理这些事实的。
3Blue1Brown动画视频解析LLM存储事实的方式
近日,3Blue1Brown的《深度学习》课程第7课更新,通过生动详实的动画展示了LLM存储事实的方式。视频一经发布,浏览量迅速突破18万次。
视频中,3Blue1Brown以“乔丹打篮球”为例,详细解释了LLM如何通过多层感知器(MLP)存储和处理信息。
Transformer与MLP的工作原理
LLM的核心是Transformer架构,它基于已有的token(通常表示词或词组)预测下一个token。每个token都关联了一个高维向量,这些向量会通过两类运算:注意力(允许向量之间彼此传递信息)与多层感知器(MLP)。
在向量经过多次迭代后,每个向量都吸收了足够多的信息,这些信息既包括一般性知识,也包括上下文信息。这些知识就是模型预测下一token的依据。
MLP如何存储“乔丹打篮球”这一事实
在MLP中,信息以向量的形式存储。视频中,3Blue1Brown假设了三个不同的向量,分别代表“乔丹”、“迈克尔”和“篮球”。通过训练,可以让这些向量与相应的概念产生关联。
当输入向量序列穿过MLP模块时,每个向量都会经历一系列运算,包括线性投射、ReLU函数等。这些运算使得向量在编码“乔丹打篮球”这一事实时,能够输出正确的向量。
谷歌DeepMind论文提供有趣发现
去年12月,谷歌DeepMind发布了一篇相关论文,其中的具体案例便是匹配运动员及其运动项目。虽然这篇论文并未完全解答LLM事实存储的问题,但也得到了一些颇为有趣的结果。其中一个重点是:事实保存在网络中的一个特定部分,即多层感知器(MLP)。
结语
3Blue1Brown的动画视频为我们揭开了LLM存储事实的神秘面纱。通过直观的动画和详细的解释,我们得以一窥这一人工智能领域的重要进展。随着研究的深入,LLM的应用前景将更加广阔,为我们的生活带来更多便利。
Views: 0