阿里挑战OpenAI：o1大模型强势来袭或者：阿里o1模型：开放式推理新突破或者：阿里国际版o1：直面OpenAI挑战

阿里巴巴Marco-o1：挑战开放式问题推理的“模糊性”

引言：OpenAI的o1模型在结构化推理任务中展现了令人瞩目的能力，但现实世界的问题往往是开放式的、创造性的，缺乏明确的标准答案。如何让AI模型应对这种“模糊性”，并生成可靠的推理结果？阿里巴巴国际数字商业集团MarcoPolo团队近日发布的Marco-o1大型推理模型(LRM) 为此提供了一种新的探索方向。

主体：

Marco-o1并非简单的o1模型的“克隆”，其目标是超越结构化挑战，实现跨多个领域的泛化能力，尤其是在缺乏严格评估指标的领域。论文[¹]指出，Marco-o1通过整合多种先进技术，有效提升了处理复杂问题解决任务的能力。这些技术包括：

思维链 (CoT) 微调: Marco-o1利用经过精心过滤的Open-o1 CoT数据集[²]，以及自行生成的Marco-o1 CoT数据集和Marco指令数据集进行微调。过滤后的Open-o1 CoT数据集通过启发式和质量过滤，确保模型能够有效地采用结构化推理模式。而Marco-o1 CoT数据集则利用蒙特卡洛树搜索 (MCTS) 生成，有助于制定复杂的推理路径。指令数据集的加入则确保了模型能够胜任各种任务。
蒙特卡洛树搜索 (MCTS): Marco-o1巧妙地将LLM与MCTS集成。MCTS中的每个节点代表一个推理状态，LLM生成的输出作为节点可能执行的动作。通过Rollout和奖励计算（基于对最终结果每个token置信度得分的平均值），MCTS有效地引导搜索走向更置信、更可靠的推理链。该奖励计算公式如下：

v = 1/n * Σ(softmax(log(p(t_i)) - log(p(t_j))))

其中，n为token总数，t_i为最终结果的token，t_j为其前5个替代token。
推理动作策略: 为了更精细地探索推理路径，Marco-o1尝试了不同粒度的动作选择策略：step作为动作，以及将step细分为包含32或64个token的mini-step作为动作。这有效扩展了解空间，提升了模型处理复杂推理任务的能力。虽然token级搜索在理论上最佳，但由于计算资源和奖励模型设计上的挑战，目前仍不具备实用性。

结果与讨论：

实验结果显示，Marco-o1在MGSM（英文）数据集上的准确率提高了6.17%，在MGSM（中文）数据集上的准确率提高了5.60%。更令人印象深刻的是，Marco-o1在翻译任务中展现了对俚语表达的精准把握能力，例如将中文“这只鞋给人一种踩屎感”准确翻译为“This shoe has a comfortable sole”，体现了其对语言细微差别的理解。

结论：

Marco-o1代表了在开放式问题推理领域的一次有益尝试。通过整合CoT微调、MCTS和精细化的推理动作策略，Marco-o1有效地提升了处理复杂问题的能力，并在多个数据集上取得了显著的性能提升。然而，正如论文中所述，这项工作仍处于探索阶段，未来仍有改进空间，例如探索更有效的奖励机制和更精细的动作粒度。 Marco-o1的出现，为进一步研究开放式问题推理提供了宝贵的经验和新的方向，也为大模型在更广泛领域的应用铺平了道路。

参考文献：

[1] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions. https://arxiv.org/pdf/2411.14405

[2] Open-o1 Project (相关数据集，需根据实际情况补充具体链接或引用)

(注：由于无法直接访问并验证提供的链接内容，部分细节可能与实际论文内容略有出入。本文旨在根据提供的信息，以专业的新闻报道风格撰写一篇高质量的文章。)

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

阿里挑战OpenAI：o1大模型强势来袭或者：阿里o1模型：开放式推理新突破或者：阿里国际版o1：直面OpenAI挑战

作者智能小编

阿里巴巴Marco-o1：挑战开放式问题推理的“模糊性”

相关文章

Nacos MCP Registry Enables Seamless Zero-Code Migration for Existing Apps

Nacos MCP Registry：存量应用零改动升级！

意念对话成真！脑波解码技术 Nature 子刊突破

发表回复取消回复

为您推荐

Nacos MCP Registry Enables Seamless Zero-Code Migration for Existing Apps

Nacos MCP Registry：存量应用零改动升级！

意念对话成真！脑波解码技术 Nature 子刊突破

AI“性格”解密：从“周一”音色看提示词魔力

作者智能小编

阿里巴巴Marco-o1：挑战开放式问题推理的“模糊性”

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复