ICML Hailed Can Large Models Self-Correct on the Fly?

9 月 8, 2024 #airesearch, #largemodel, #机器之心

大模型边推理边纠错的可能性分析：

在人工智能领域，语言模型（LLM）如GPT-4等已经取得了显著的进步，但即使是最强大的语言模型在推理过程中也难免会出现错误。针对这一问题，研究人员正在探索新的方法，以使模型能够在推理过程中实现自我纠错。

根据《机器之心》报道，Meta FAIR、CMU 和 MBZUAI的研究团队在最新的arXiv论文《语言模型物理学 Part 2.2：如何从错误中学习》中，通过可控实验，研究了让模型“边推理边纠错”的可能性。以下是该研究的几个关键点：

纠错方法的探索：研究团队通过在预训练数据中加入大量“错误的推理”和“错误的纠正”，展示了这类数据可以提高语言模型的推理准确性，无需依赖提示词或多轮对话。
纠错方法的细节：
- 与beam search的区别。
- 如何准备此类数据。
- 是否需要对错误进行掩码。
- 所需的错误数量。
- 此类数据是否可用于微调等。
模型内部工作机制：通过探针方法研究模型的内部工作机制，发现模型在犯错后，内部参数常常表现出“很后悔”的状态，表明模型可能已经意识到错误，但无法立即改正。
纠错策略：研究提出了一种“后悔即重试”的策略，通过额外训练得到一个检测错误的模型，但这种方法对错误识别率的要求很高，且无法显著提高推理正确率。
错误和纠正数据：研究指出，在预训练数据中加入错误和纠正信息可以提高模型推理正确率，且不需要对错误进行掩码。错误数据在合理范围内越多越好。
微调的局限性：研究表明，错误和纠正数据不适合作为微调数据使用，因为纠错能力需要大量参数变化，而微调只能实现有限的参数调整。
数据制备：研究提出了一种在iGSM数据集上制备错误和纠正数据的方法，即将解题步骤中的错误步骤挪到前面，然后用原本的正确步骤作为纠正。

总结来说，让大模型在推理过程中边推理边纠错是可能的，但需要通过合理的数据制备和模型训练方法来实现。这种方法有望提高语言模型的准确性和可靠性，为人工智能的发展提供新的思路。