Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

旧金山 – 人工智能(AI)的黑匣子问题一直是困扰业界的难题。我们经常听到这样的说法:AI就像一个无法破解的黑匣子,语言被输入,结果被输出,但没有人真正知道AI为什么会这样做。现在,AI公司Anthropic似乎正在试图打破这个僵局。他们日前公布了一项突破性研究,揭示了大型语言模型(LLM)Claude的思考过程,并构建了一种“AI显微镜”,以识别模型中的活动模式和信息流动。

这一研究成果无疑引发了业界的高度关注。长期以来,LLM并非由人类直接编程,而是通过海量数据训练而成。在训练过程中,它们学会了自行解决问题的策略。然而,对于开发者来说,这些策略往往难以理解。这意味着我们并不完全了解模型是如何完成其所做的大部分事情的。

如果能够了解像Claude这样的模型是如何思考的,我们就能更好地理解它们的能力,同时也能帮助我们确保它们按照我们的意图行事。例如,Claude掌握了几十种语言,它在“头脑中”使用的是哪种语言?Claude逐词写作,它是否只关注预测下一个词,还是会提前规划?

带着这些疑问,Anthropic从神经科学领域汲取灵感,该学科长期致力于研究生物体内复杂的运作机制,并尝试构建一种“AI显微镜”,用以识别模型活动模式和信息流动轨迹。为了解释这一研究,Anthropic发布了两篇论文:

  • 《Circuit Tracing: Revealing Computational Graphs in Language Models》 (电路追踪:揭示语言模型中的计算图)
  • 《On the Biology of a Large Language Model》 (大型语言模型的生物学)

通过研究,Anthropic的研究人员取得了一系列令人惊讶的发现:

  • 通用思维语言: Claude有时会在语言之间共享的概念空间中进行思考,这表明模型具有一种通用的思维语言。
  • 提前规划: Claude会提前规划它要输出的内容,甚至会提前规划多个词。
  • 虚假推理: Claude有时会给出一个听起来合理的论点,目的是迎合用户,而不是遵循逻辑步骤。研究过程中还发现模型正在编造虚假推理过程。

Claude的“多语”秘密:共享概念空间

Claude能够流利地使用几十种语言,这种多语言能力是如何实现的?Anthropic的研究揭示,Claude内部并非存在独立的法语版和中文版,而是存在一个跨语言的核心机制。研究发现,与“小”和“反义”概念相关的相同核心特征被激活,并触发了“大”的概念。随着模型规模的增大,共享的结构也在增加,Claude 3.5 Haiku在不同语言之间共享的特征比例比小型模型高出两倍多。这表明Claude可以在一种语言中学习某些内容,并在说另一种语言时应用这些知识。

押韵的秘密:提前规划与灵活调整

研究者探讨了Claude如何创作押韵诗歌。以一首小诗为例:

He saw a carrot and had to grab it

His hunger was like a starving rabbit

为了写出押韵的第二行诗,模型必须同时满足押韵和语义合理两个约束。研究发现,Claude实际会提前规划。它在开始第二行前,就已考虑与“grab it”押韵且主题相关的词汇,然后围绕预设词构建句子。实验观察显示,正常情况下,Claude提前规划了以“rabbit”结尾的句子;当抑制“rabbit”概念时,模型转用另一个计划好的押韵词;注入“green”概念时,模型则为新结尾重新制定计划。

心算能力:并行计算与模仿解释

Claude虽非计算器,未配备专用数学算法,却能正确执行加法运算。研究揭示,Claude采用了并行计算策略:一个路径估算近似值,另一个路径精确计算最后一位数字,最终融合得出答案。令人惊讶的是,Claude无法准确描述自己的计算过程。当被问及如何得出“36 + 59 = 95”时,它会解释标准进位算法,而非其实际使用的独特内部策略。这表明模型通过模仿习得解释能力,但其实际计算方式截然不同。

警惕“虚假推理”:真实与虚构的思维链

Claude 3.7 Sonnet能在回答前展示“思考过程”,这通常能提高解答质量,但有时会产生误导性推理——模型可能构造貌似合理但实际虚构的步骤来支持预定结论。这种虚构推理的危险在于其极具说服力,促使研究人员开发技术区分真实与虚构的思维链。

意义与展望

Anthropic的这项研究无疑为我们理解LLM的内部运作机制打开了一扇窗。通过“AI显微镜”,我们能够更深入地了解AI的思考方式,从而更好地利用和控制AI。然而,这项研究也提醒我们,AI并非完美,它可能会出现“虚假推理”等问题。因此,我们需要不断探索和研究,以确保AI的安全和可靠。

未来,我们期待Anthropic能够继续深入研究,揭示更多关于AI的秘密,为AI的发展带来新的突破。同时,我们也希望更多的研究者能够加入到这个领域,共同推动AI技术的进步,为人类创造更美好的未来。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注