阿里巴巴Marco-o1:挑战开放式问题推理的“模糊性”
引言:OpenAI的o1模型在结构化推理任务中展现了令人瞩目的能力,但现实世界的问题往往是开放式的、创造性的,缺乏明确的标准答案。如何让AI模型应对这种“模糊性”,并生成可靠的推理结果?阿里巴巴国际数字商业集团MarcoPolo团队近日发布的Marco-o1大型推理模型(LRM) 为此提供了一种新的探索方向。
主体:
Marco-o1并非简单的o1模型的“克隆”,其目标是超越结构化挑战,实现跨多个领域的泛化能力,尤其是在缺乏严格评估指标的领域。 论文[¹]指出,Marco-o1通过整合多种先进技术,有效提升了处理复杂问题解决任务的能力。这些技术包括:
-
思维链 (CoT) 微调: Marco-o1利用经过精心过滤的Open-o1 CoT数据集[²],以及自行生成的Marco-o1 CoT数据集和Marco指令数据集进行微调。 过滤后的Open-o1 CoT数据集通过启发式和质量过滤,确保模型能够有效地采用结构化推理模式。而Marco-o1 CoT数据集则利用蒙特卡洛树搜索 (MCTS) 生成,有助于制定复杂的推理路径。 指令数据集的加入则确保了模型能够胜任各种任务。
-
蒙特卡洛树搜索 (MCTS): Marco-o1巧妙地将LLM与MCTS集成。MCTS中的每个节点代表一个推理状态,LLM生成的输出作为节点可能执行的动作。通过Rollout和奖励计算(基于对最终结果每个token置信度得分的平均值),MCTS有效地引导搜索走向更置信、更可靠的推理链。 该奖励计算公式如下:
v = 1/n * Σ(softmax(log(p(t_i)) - log(p(t_j))))
其中,
n
为token总数,t_i
为最终结果的token,t_j
为其前5个替代token。 -
推理动作策略: 为了更精细地探索推理路径,Marco-o1尝试了不同粒度的动作选择策略:step作为动作,以及将step细分为包含32或64个token的mini-step作为动作。 这有效扩展了解空间,提升了模型处理复杂推理任务的能力。 虽然token级搜索在理论上最佳,但由于计算资源和奖励模型设计上的挑战,目前仍不具备实用性。
结果与讨论:
实验结果显示,Marco-o1在MGSM(英文)数据集上的准确率提高了6.17%,在MGSM(中文)数据集上的准确率提高了5.60%。 更令人印象深刻的是,Marco-o1在翻译任务中展现了对俚语表达的精准把握能力,例如将中文“这只鞋给人一种踩屎感”准确翻译为“This shoe has a comfortable sole”,体现了其对语言细微差别的理解。
结论:
Marco-o1代表了在开放式问题推理领域的一次有益尝试。通过整合CoT微调、MCTS和精细化的推理动作策略,Marco-o1有效地提升了处理复杂问题的能力,并在多个数据集上取得了显著的性能提升。 然而,正如论文中所述,这项工作仍处于探索阶段,未来仍有改进空间,例如探索更有效的奖励机制和更精细的动作粒度。 Marco-o1的出现,为进一步研究开放式问题推理提供了宝贵的经验和新的方向,也为大模型在更广泛领域的应用铺平了道路。
参考文献:
[1] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions. https://arxiv.org/pdf/2411.14405
[2] Open-o1 Project (相关数据集,需根据实际情况补充具体链接或引用)
(注:由于无法直接访问并验证提供的链接内容,部分细节可能与实际论文内容略有出入。 本文旨在根据提供的信息,以专业的新闻报道风格撰写一篇高质量的文章。)
Views: 0