北京 – 2025年4月8日 – 在人工智能领域,图文大模型正日益成为研究热点。然而,如何进一步提升其在复杂视觉任务中的表现,特别是视觉定位能力,仍然面临诸多挑战。近日,中国科学院自动化研究所与中科紫东太初团队联合发布了名为“Vision-R1”的创新方法,该方法巧妙地将类R1强化学习迁移至视觉定位任务,成功将Qwen2.5-VL模型的性能提升高达50%,甚至超越了参数规模远超自身的SOTA模型。这一突破性的研究成果已开源,为图文大模型的发展注入了新的活力。
图文大模型通常采用“预训练 + 监督微调”的两阶段范式,以增强其指令跟随能力。近年来,多模态偏好优化技术在对齐人类偏好方面展现出卓越的数据效率和性能增益,备受青睐。然而,该技术对高质量偏好数据标注和精准奖励模型训练的依赖,导致资源消耗巨大,训练过程也极具挑战。
受到基于规则的强化学习(Rule-Based Reinforcement Learning)在R1上成功应用的启发,研究团队探索了将高质量指令对齐数据与类R1强化学习方法相结合的可能性,旨在进一步增强图文大模型的视觉定位能力。
Vision-R1的核心创新:基于视觉准则的奖励函数
Vision-R1的关键在于其设计的基于视觉任务评价准则驱动的奖励函数,该函数针对图文大模型在目标定位任务中面临的三大挑战:
- 密集场景中的长序列预测易出现格式错误;
- 有效预测目标的召回率较低;
- 目标定位精度不足。
为了解决这些问题,研究团队提出了以下四个核心设计:
- 框优先的预测匹配: 采用多目标预测的统一建模方式,对文本序列化的预测结果进行反序列化,提取每个目标的预测框及其标签,并与真实标注进行匹配,全面衡量多目标场景下的定位质量。
- 双重格式奖励: 旨在解决密集场景下长序列预测的格式错误问题。模型需满足指定的模板格式,并确保目标坐标的数值正确性,只有同时满足格式和内容要求,才能获得奖励。
- 召回奖励: 针对有效预测目标召回率低的问题,鼓励模型尽可能多地识别目标。通过计算有效预测目标数量与实际需要预测目标数量的比例,激励模型提高目标的覆盖率。
- 精度奖励: 与召回奖励协同作用,提升模型对目标的全面识别能力,同时确保预测的准确性。精度奖励被定义为所有有效预测的平均IoU值,以直接激励模型优化目标框的精确度。
类R1强化学习:摆脱对人工标注的依赖
Vision-R1的另一大亮点在于其类R1强化学习后训练框架。由于视觉定位指令数据本身具有精准的空间位置标注,并与人类对精准目标定位的偏好高度一致,Vision-R1在任务级别监督中引入基于视觉任务评价指标的反馈奖励信号,为增强图文大模型的细粒度视觉定位能力提供了创新突破方向,摆脱了对人工偏好数据标注和奖励模型训练的依赖。
开源共享,推动领域发展
目前,相关工作论文、模型及数据集代码均已开源,为研究者和开发者提供了宝贵的资源。
- 论文标题: Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
- 论文地址: https://arxiv.org/pdf/2503.18013
- Github 仓库: https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
- Huggingface 仓库: https://huggingface.co/collections/JefferyZhan/vision-r1-67e166f8b6a9ec3f6a664262
Vision-R1的成功,不仅证明了类R1强化学习在视觉定位任务中的巨大潜力,也为图文大模型的发展提供了新的思路。随着相关技术的不断完善和应用,我们有理由相信,未来的图文大模型将在更广泛的领域发挥更大的作用。
参考文献:
- Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning. (2025). Retrieved from https://arxiv.org/pdf/2503.18013
关键词: 类R1强化学习,视觉定位,图文大模型,Vision-R1,人工智能,开源,中科院自动化所,中科紫东太初,Qwen2.5-VL。
Views: 0