上海 [日期] – 上海交通大学与上海人工智能研究院(SII)联合发布了DeepResearcher,一款开创性的AI研究模型。该模型是首个在真实网络环境中通过强化学习训练而成,其代码和训练框架完全开源,旨在解决现有Deep Research产品存在的“黑盒”操作和开源项目行为僵化两大痛点。
随着OpenAI、Google和XAI等科技巨头纷纷推出Deep Research产品,利用大型语言模型(LLMs)整合海量网络信息、解决复杂问题,研究效率得到了显著提升。然而,这些商业产品技术细节不对外公开,如同“黑盒”一般,限制了学术研究和技术创新。另一方面,现有的开源项目往往依赖人工设计的工作流程,导致行为僵化、泛化能力差,难以应对复杂的研究场景。
DeepResearcher的出现,正是为了打破这一僵局。它通过强化学习扩展(RL scaling)在真实网络环境中训练,自主形成了令人惊叹的研究能力。
DeepResearcher的独特之处:真实环境下的强化学习
与以往基于本地知识库模拟搜索的研究不同,DeepResearcher直接与实时搜索引擎互动,在真实互联网的复杂环境中学习研究技能。这就像让AI在“大海”中学习游泳,而非在“模拟水池”中训练。
这种真实环境下的训练赋予了DeepResearcher以下关键能力:
- 自主规划研究步骤: 模型能够根据问题自主制定研究计划,而非按照预设流程执行。
- 动态调整搜索策略: 模型能够根据搜索结果实时调整策略,优化搜索方向。
- 交叉验证不同来源的信息: 模型能够主动验证信息的准确性,确保最终答案的可靠性。
例如,在回答“谁是电影先驱”这类开放性问题时,DeepResearcher不会盲目接受首次搜索结果,而是主动开展第二轮更精确的搜索以验证信息准确性。这种自发形成的交叉验证行为,体现了AI对“研究”本质的真正理解。
端到端训练:摆脱工作流的桎梏
传统的提示工程方法通常预设了固定的工作流程,限制了AI的灵活性和创造性。DeepResearcher采用端到端训练,让模型摆脱了工作流的束缚,能够根据问题的具体情况自主选择最佳的研究路径。
实验结果:超越基线,提升研究任务完成度
DeepResearcher在多个问答数据集上超过了所有基线,与基于提示工程的智能体相比,在研究任务完成度方面最高可提升28.9分。相较于基于RAG的强化学习(RL)智能体,DeepResearcher的提升幅度最高可达7.2分。尤其在知识范围超出维基百科的Bamboogle测试集上,优势更为明显。
研究意义:为AI研究能力培养提供全新视角
DeepResearcher的发布,不仅填补了开源Deep Research领域的关键空白,也为理解如何培养AI的真实研究能力提供了全新视角。它证明了在真实环境中进行强化学习训练,能够赋予AI自主规划、反思、交叉验证等高级研究能力,并能保持诚实回答。
未来展望
DeepResearcher的开源,将促进学术界和工业界在该领域的进一步研究和创新。未来,我们可以期待看到更多基于真实环境强化学习的AI研究模型涌现,为人类解决复杂问题、推动知识进步贡献力量。
相关链接:
- 论文地址:https://github.com/GAIR-NLP/DeepResearcher/blob/main/resources/DeepResearcher.pdf
- 代码地址:https://github.com/GAIR-NLP/DeepResearcher
- 模型地址:https://huggingface.co/GAIR/DeepResearcher-7b
Views: 0