Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

阿里巴巴Marco-o1:挑战开放式问题推理的“模糊性”

引言:OpenAI的o1模型在结构化推理任务中展现了令人瞩目的能力,但现实世界的问题往往是开放式的、创造性的,缺乏明确的标准答案。如何让AI模型应对这种“模糊性”,并生成可靠的推理结果?阿里巴巴国际数字商业集团MarcoPolo团队近日发布的Marco-o1大型推理模型(LRM) 为此提供了一种新的探索方向。

主体:

Marco-o1并非简单的o1模型的“克隆”,其目标是超越结构化挑战,实现跨多个领域的泛化能力,尤其是在缺乏严格评估指标的领域。 论文[¹]指出,Marco-o1通过整合多种先进技术,有效提升了处理复杂问题解决任务的能力。这些技术包括:

  • 思维链 (CoT) 微调: Marco-o1利用经过精心过滤的Open-o1 CoT数据集[²],以及自行生成的Marco-o1 CoT数据集和Marco指令数据集进行微调。 过滤后的Open-o1 CoT数据集通过启发式和质量过滤,确保模型能够有效地采用结构化推理模式。而Marco-o1 CoT数据集则利用蒙特卡洛树搜索 (MCTS) 生成,有助于制定复杂的推理路径。 指令数据集的加入则确保了模型能够胜任各种任务。

  • 蒙特卡洛树搜索 (MCTS): Marco-o1巧妙地将LLM与MCTS集成。MCTS中的每个节点代表一个推理状态,LLM生成的输出作为节点可能执行的动作。通过Rollout和奖励计算(基于对最终结果每个token置信度得分的平均值),MCTS有效地引导搜索走向更置信、更可靠的推理链。 该奖励计算公式如下:


    v = 1/n * Σ(softmax(log(p(t_i)) - log(p(t_j))))

    其中,n为token总数,t_i为最终结果的token,t_j为其前5个替代token。

  • 推理动作策略: 为了更精细地探索推理路径,Marco-o1尝试了不同粒度的动作选择策略:step作为动作,以及将step细分为包含32或64个token的mini-step作为动作。 这有效扩展了解空间,提升了模型处理复杂推理任务的能力。 虽然token级搜索在理论上最佳,但由于计算资源和奖励模型设计上的挑战,目前仍不具备实用性。

结果与讨论:

实验结果显示,Marco-o1在MGSM(英文)数据集上的准确率提高了6.17%,在MGSM(中文)数据集上的准确率提高了5.60%。 更令人印象深刻的是,Marco-o1在翻译任务中展现了对俚语表达的精准把握能力,例如将中文“这只鞋给人一种踩屎感”准确翻译为“This shoe has a comfortable sole”,体现了其对语言细微差别的理解。

结论:

Marco-o1代表了在开放式问题推理领域的一次有益尝试。通过整合CoT微调、MCTS和精细化的推理动作策略,Marco-o1有效地提升了处理复杂问题的能力,并在多个数据集上取得了显著的性能提升。 然而,正如论文中所述,这项工作仍处于探索阶段,未来仍有改进空间,例如探索更有效的奖励机制和更精细的动作粒度。 Marco-o1的出现,为进一步研究开放式问题推理提供了宝贵的经验和新的方向,也为大模型在更广泛领域的应用铺平了道路。

参考文献:

[1] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions. https://arxiv.org/pdf/2411.14405

[2] Open-o1 Project (相关数据集,需根据实际情况补充具体链接或引用)

(注:由于无法直接访问并验证提供的链接内容,部分细节可能与实际论文内容略有出入。 本文旨在根据提供的信息,以专业的新闻报道风格撰写一篇高质量的文章。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注