北京,2025年2月17日 – 多模态大模型在通用视觉理解领域取得了显著进展,但其在细粒度视觉识别方面的不足,严重制约了其应用范围。近日,北京大学彭宇新教授团队针对这一问题,开源了其最新研究成果——细粒度多模态大模型Finedefics,为该领域带来了新的突破。该研究论文已被ICLR 2025接收。
细粒度视觉识别的重要性
细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别。例如,区分鸟类中的西美鸥、灰背鸥、银鸥,汽车中的宝马、奔驰、奥迪,甚至是奥迪A4、A6、A8等不同型号,飞机中的波音737、747、777以及空客320、380等。这种精细的识别能力在现实生产和生活中具有重要的研究和应用价值,例如在智能制造、自动驾驶、医疗诊断等领域。
多模态大模型的局限性
现有的多模态大模型在视觉识别能力上依赖于大量的训练数据。然而,由于细粒度子类别的标注成本巨大,导致模型缺乏对这些细微差异的识别能力。彭宇新教授团队通过深入分析,指出了多模态大模型在细粒度视觉识别上需要具备的三项关键能力:
- 对象信息提取能力: 视觉编码器需要能够准确、全面地提取区分不同细粒度子类别的辨识性信息。
- 类别知识储备能力: 大语言模型需要储备充分的细粒度子类别知识。
- 对象-类别对齐能力: 基于提取的视觉信息和储备的类别知识,在大语言模型的表征空间中对齐视觉对象与细粒度子类别。
研究发现,“视觉对象与细粒度子类别未对齐” 是限制多模态大模型细粒度视觉识别能力的关键问题。
Finedefics:解决对齐难题
为了解决这一问题,彭宇新教授团队提出了细粒度多模态大模型Finedefics。该模型的核心在于构建视觉对象的细粒度属性知识,并通过对比学习将这些知识与视觉对象的图像和文本对齐,实现数据-知识协同训练。Finedefics的构建过程主要包含两个步骤:
- 属性描述构建: 通过提示大语言模型构建视觉对象的细粒度属性知识,例如,区分猫的品种的关键特征(毛色、毛型、毛皮质地等),并利用视觉属性提取获得图像对象的辨识性属性对(“毛色:棕褐色”、“毛型:带有斑纹”、“毛皮质地:质地柔软”等),最终转化为自然语言形式的对象属性描述(“图中小猫的毛为棕褐色,带有斑纹,质地柔软”)。
- 属性增强对齐: 将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标,通过对象-属性、属性-类别、类别-类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系。
显著的性能提升
实验结果表明,Finedefics在六个权威细粒度图像分类数据集(Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196)上的平均准确率达到了76.84%,相比Hugging Face 2024年4月发布的Idefics2大模型提高了10.89%。
开源与未来展望
目前,Finedefics已开源,研究团队希望通过开源能够促进该领域的研究和发展。
- 论文链接: https://openreview.net/forum?id=p3NKpom1VL
- 开源代码: https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
- 模型地址: https://huggingface.co/StevenHH2000/Finedefics
- 实验室网址: https://www.wict.pku.edu.cn/mipl
彭宇新教授团队的这项研究为多模态大模型在细粒度视觉识别领域的应用开辟了新的道路,有望推动人工智能技术在更多领域的落地。
关于北京大学彭宇新教授团队:
北京大学彭宇新教授团队长期致力于多模态学习、自然语言处理等领域的研究,并在相关领域发表了大量高水平论文。该团队的研究成果在学术界和工业界都产生了广泛的影响。
联系方式:
如有任何问题,请联系liyazhou@jiqizhixin.com或zhaoyunfeng@jiqizhixin.com。
Views: 0