DeepMind新作：大模型自我纠错，数学编程能力暴涨！

作者智能小编

9 月 22, 2024 #强化, #机器之心

shanghai

在人工智能领域，语言模型的自我纠正能力一直被视为一项重要的技术挑战。近期，来自Google DeepMind的研究团队在这一领域取得了重大突破，他们提出了一种名为SCoRe（Self-Correction via Reinforcement Learning）的强化学习方法，使大语言模型（LLM）能够自我识别并纠正错误，而无需依赖外部反馈或额外模型。这一创新不仅极大地提升了大模型在数学和编程任务上的性能，还开辟了无需oracle指导的自我学习新路径。

SCoRe：自我纠正的新篇章

传统的自我纠正训练方法往往需要多个模型的协作，或依赖于更强大的模型以及外部监督。然而，这些方法在实际应用中面临着效率和泛化能力的局限。SCoRe方法的出现，打破了这一瓶颈，它通过强化学习训练单个模型，使其既能响应推理问题，又能自主识别并纠正错误，即使在没有oracle反馈的情况下也能完成这一过程。更令人印象深刻的是，SCoRe完全依靠自生成数据进行训练，无需任何外部oracle的介入，从而大大简化了训练流程，提高了模型的自主学习能力。

SCoRe的原理与贡献

SCoRe方法的核心在于其多轮强化学习框架。研究者将标准的单轮强化学习扩展到多轮设置，通过分层框架解决了训练过程中的分布偏移问题。为了防止模型在学习过程中因进行微小编辑而崩溃，SCoRe通过精心设计的初始化和奖励塑造策略，有效地控制了模型的训练过程，确保了模型在自我纠正时的稳定性和效率。

实验验证与成果

在实验评估中，SCoRe方法在数学推理问题的自我纠正方面取得了15.6%的性能提升，在编码问题上获得了9.1%的增益，相较于基础Gemini模型，这些成果显著。实验还通过消融研究深入探讨了SCoRe各组件的重要性，包括多轮训练、多阶段训练、奖励函数设计以及on-policy强化学习的影响，进一步验证了SCoRe方法的有效性和先进性。

结语

DeepMind的这项研究不仅为大语言模型的自我纠正能力开辟了新的可能，还为人工智能领域提供了重要的启示。通过强化学习赋能，大模型能够自主学习和进化，这标志着人工智能技术在自我学习和自我优化方面迈出了重要一步。随着SCoRe方法的进一步发展和应用，我们有理由期待，在未来的某一天，人工智能系统将能够更加自主、智能地应对各种复杂挑战，为人类社会带来更多的便利和创新。

>>> Read more <<<

智能新闻

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DeepMind新作：大模型自我纠错，数学编程能力暴涨！

作者智能小编

SCoRe：自我纠正的新篇章

SCoRe的原理与贡献

实验验证与成果

结语

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

Unlock the Power of Transformers From Theory to Hands-On Code

作者智能小编

SCoRe：自我纠正的新篇章

SCoRe的原理与贡献

实验验证与成果

结语

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复