上海 – 在人工智能与医疗健康交叉融合的前沿领域,一项突破性研究成果近日由上海交通大学人工智能学院、复旦大学和上海人工智能实验室联合发布。他们共同研发了一种名为MedS3的新型医学推理系统,该系统采用自我进化的“慢思考”范式,旨在克服医学大语言模型在数据匮乏和推理可验证性方面的挑战。
“慢思考”范式:医学AI的新引擎
OpenAI的o1和DeepSeek R1等模型已在数学、编程等领域展现出强大的“慢思考”推理能力,通过自我反思和修正实现性能提升。然而,在对准确性要求极高的医疗领域,能够进行长链慢思考推理的模型仍然稀缺。现有的医疗推理模型多依赖于对OpenAI系列模型在医疗考试题上的蒸馏,忽略了推理过程的可验证性和医疗任务的全面覆盖。
为了填补这一空白,研究团队推出了MedS3系统。该系统无需预训练和模型蒸馏,而是采用一种自我进化的“慢思考”范式,对推理流程的每一步进行细粒度验证,从而确保结果的可靠性。
MedS3:策略模型与过程奖励模型的协同
MedS3的核心由策略模型(Policy Model)和过程奖励模型(Process Reward Model; PRM)组成。该系统通过在包括医疗诊断、生物医学和知识性问答等16种不同数据集上的学习,仅使用7465条种子数据,结合细粒度的蒙特卡洛树搜索和规则验证的过程监督信号,迭代优化策略模型和过程奖励模型。
研究结果表明,MedS3在医疗知识问答、生物医学问答、长上下文问答和医疗诊断任务上的推理能力显著超越现有医疗大模型和通用域推理模型,成为首个在医疗诊断任务上实现长链推理“R1”的大语言模型框架。
突破数据瓶颈:运行时缩放的创新
传统的医疗模型训练面临着医疗语料匮乏的难题,常见的解决方案包括在大规模人工收集筛选的医疗语料上进行预训练,或在少量特定任务数据集上进行有监督微调。然而,前者耗费大量计算资源但性能提升有限,后者虽然计算高效,但微调数据多为闭源模型生成的蒸馏数据或人工标注的短回复数据,限制了模型的优化空间和跨任务泛化能力。
MedS3通过转向运行时缩放(test-time scaling),以一种数据高效的后训练方法进行提升,突破了数据集标注的约束,在平衡计算资源与性能之间的矛盾下,高效利用现有的医疗数据。
自我进化框架:数据效率与推理能力的双重提升
MedS3的核心在于其独特的自我进化框架。研究者首先利用蒙特卡洛树搜索(MCTS)技术,基于基础策略模型生成可验证的推理链。在推理链的每一步,系统都会基于这一步的正确性赋予一个展开值,通过这些经过验证的轨迹来训练策略模型和过程奖励模型(PRM)。这种搜索对计算资源的依赖极小,通过策略模型演化得到的正负样本均可以作为MedS3的监督信号,大大增加了数据利用率,并且按步采样也能提升模型的探索空间。
在推理过程中,策略模型会生成多个回答,而奖励模型则通过新提出的PRM引导的投票求和(P-VS)策略来选择最终答案。这种策略不仅考虑了PRM对每个回复的评判结果,也考虑了不同回复之间的语义一致性。这种自我进化的方式,不仅提高了模型的数据效率,还使其在多种临床任务中展现出了卓越的推理能力。
实验验证:MedS3的卓越性能
为了验证MedS3的性能,研究团队进行了广泛的实验,涵盖了来自不同任务的11个数据集,包括知识问答、生物医学问答、长上下文问答、医疗语义推理以及医疗诊断式问答。
实验结果显示,MedS3在多个方面表现出色:
- 性能领先: MedS3相比Llama3 8B提升了13.07,显著超越所有同等规模的开源模型,并在综合性能上领先更大规模的模型。
- P-VS策略优势: P-VS创新性融合语义一致性校验与PRM评分,突破单一依赖瓶颈,实现3.46的性能跃升。
- 性能外推: MedS3具备通过增加词元消耗几乎无损提升性能的特性。
结论与展望
MedS3系统的成功研发,标志着医学大语言模型在推理能力和数据利用率方面取得了重要突破。其采用的“慢思考”范式和自我进化框架,为解决医疗AI领域的数据瓶颈问题提供了新的思路。随着研究的不断深入和技术的不断完善,MedS3有望在未来的医疗诊断、治疗方案制定和医学研究中发挥更大的作用,为人类健康事业做出贡献。
参考文献
- MedS3: Towards Medical Small Language Models with Self-Evolved Slow Thinking. https://arxiv.org/pdf/2501.12051
- 项目主页:https://pixas.github.io/MedS3-pages/
Views: 0