上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云

原装Transformer依然强劲:北大清华团队揭示Mamba等推理短板

AIxiv专栏 | 机器之心报道

2024年10月21日

近年来,大语言模型(LLM)在文本翻译、文本生成等领域展现出惊人的能力。其中,思维链(CoT)作为一种新兴的提示技术,在数学和推理任务上显著提升了Transformer模型的性能。然而,CoT的引入也带来了计算资源消耗的增加,这不禁让人好奇:最新推出的高效模型(如Mamba)是否也能像Transformer一样具备强大的推理能力?

近期,来自北京大学和清华大学的研究团队同时给出了否定的答案,揭示了Mamba等高效模型在结构上的局限性。

Transformer + CoT 依然是最佳选项

北大的研究团队将推理任务通用地建模为动态规划问题。他们从理论角度证明,若希望Sparse Transformers、Linear Transformers等模型通过思维链来解决动态规划问题,模型的宽度必须增加,进而导致时间复杂度恰好达到平方级别。这一时间复杂度与标准Transformers在相同长度的推理任务中所需的复杂度一致,表明这些所谓的高效结构在一般推理问题上并不具备计算优势。

清华的研究团队则从RNN模型和Transformer模型在检索、关联回忆、计数,以及判断一张图是否为树等基本问题上的表达能力差异入手。他们证明了,对于问题规模n,任意o(n)大小的RNN模型均无法完成上述任务,即便使用任意长的CoT。但一个固定大小的Transformer可以不使用CoT解决检索、关联回忆、计数等问题,并使用O(n)长度的CoT正确判断一张图是否为树。

高效模型的局限性

这两个研究团队得出的相似结论揭示了高效模型的共同局限性。这些模型架构之所以具有内存高效性,是因为它们能够在较少的空间下完全确定输出序列。然而,输出序列的可能性指数级增长,使得这些架构无法以较小的模型尺寸正确生成所有可能的输出。换句话说,模型的规模必须随着问题规模的增加而扩展。

未来方向

尽管Mamba等高效模型在推理能力上存在局限性,但研究团队也提出了未来研究方向:

  • 探索新的模型架构: 寻找能够在保证高效性的同时,提升推理能力的模型架构。
  • 改进CoT技术: 优化CoT的生成策略,减少对计算资源的消耗。
  • 结合其他技术: 将CoT与其他技术(如知识图谱、符号推理)相结合,进一步提升模型的推理能力。

结论

北大清华团队的研究成果表明,Transformer + CoT依然是解决复杂推理问题的最佳选择。尽管高效模型在某些方面具有优势,但它们在推理能力方面仍然存在局限性。未来,需要继续探索新的模型架构和技术,以提升大模型的推理能力,推动人工智能技术的进一步发展。

论文链接:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注