Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海 [日期] – 上海交通大学与上海人工智能研究院(SII)联合发布了DeepResearcher,一款开创性的AI研究模型。该模型是首个在真实网络环境中通过强化学习训练而成,其代码和训练框架完全开源,旨在解决现有Deep Research产品存在的“黑盒”操作和开源项目行为僵化两大痛点。

随着OpenAI、Google和XAI等科技巨头纷纷推出Deep Research产品,利用大型语言模型(LLMs)整合海量网络信息、解决复杂问题,研究效率得到了显著提升。然而,这些商业产品技术细节不对外公开,如同“黑盒”一般,限制了学术研究和技术创新。另一方面,现有的开源项目往往依赖人工设计的工作流程,导致行为僵化、泛化能力差,难以应对复杂的研究场景。

DeepResearcher的出现,正是为了打破这一僵局。它通过强化学习扩展(RL scaling)在真实网络环境中训练,自主形成了令人惊叹的研究能力。

DeepResearcher的独特之处:真实环境下的强化学习

与以往基于本地知识库模拟搜索的研究不同,DeepResearcher直接与实时搜索引擎互动,在真实互联网的复杂环境中学习研究技能。这就像让AI在“大海”中学习游泳,而非在“模拟水池”中训练。

这种真实环境下的训练赋予了DeepResearcher以下关键能力:

  • 自主规划研究步骤: 模型能够根据问题自主制定研究计划,而非按照预设流程执行。
  • 动态调整搜索策略: 模型能够根据搜索结果实时调整策略,优化搜索方向。
  • 交叉验证不同来源的信息: 模型能够主动验证信息的准确性,确保最终答案的可靠性。

例如,在回答“谁是电影先驱”这类开放性问题时,DeepResearcher不会盲目接受首次搜索结果,而是主动开展第二轮更精确的搜索以验证信息准确性。这种自发形成的交叉验证行为,体现了AI对“研究”本质的真正理解。

端到端训练:摆脱工作流的桎梏

传统的提示工程方法通常预设了固定的工作流程,限制了AI的灵活性和创造性。DeepResearcher采用端到端训练,让模型摆脱了工作流的束缚,能够根据问题的具体情况自主选择最佳的研究路径。

实验结果:超越基线,提升研究任务完成度

DeepResearcher在多个问答数据集上超过了所有基线,与基于提示工程的智能体相比,在研究任务完成度方面最高可提升28.9分。相较于基于RAG的强化学习(RL)智能体,DeepResearcher的提升幅度最高可达7.2分。尤其在知识范围超出维基百科的Bamboogle测试集上,优势更为明显。

研究意义:为AI研究能力培养提供全新视角

DeepResearcher的发布,不仅填补了开源Deep Research领域的关键空白,也为理解如何培养AI的真实研究能力提供了全新视角。它证明了在真实环境中进行强化学习训练,能够赋予AI自主规划、反思、交叉验证等高级研究能力,并能保持诚实回答。

未来展望

DeepResearcher的开源,将促进学术界和工业界在该领域的进一步研究和创新。未来,我们可以期待看到更多基于真实环境强化学习的AI研究模型涌现,为人类解决复杂问题、推动知识进步贡献力量。

相关链接:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注