北京讯 – 北京智源人工智能研究院联合国内多所高校,近日正式开源了其研发的多模态向量模型BGE-VL (Beijing Academy of Artificial Intelligence – Vision and Language)。该模型专注于图文检索和组合图像检索等任务,并在多个基准测试中表现出色,尤其在组合图像检索任务中,显著提升了检索精度,刷新了现有基准。
BGE-VL模型家族包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。其核心优势在于高效且可扩展的数据合成方法MegaPairs,以及模型在多模态任务上的卓越泛化能力。
技术原理:MegaPairs数据合成方法
BGE-VL模型的核心技术之一是MegaPairs数据合成方法,该方法通过以下步骤构建高质量的多模态训练数据:
- 数据挖掘: 从海量图文语料库中挖掘多样化的图像对,利用诸如CLIP等相似度模型,找到与查询图像相关的候选图像。
- 指令生成: 借助多模态大语言模型(MLLM)和大语言模型(LLM)生成开放域检索指令,总结图像对之间的关联关系,并撰写高质量的检索指令。
- 三元组构造: 生成包含“查询图像、查询语句、目标图像”的多模态三元组数据,用于模型训练。这种方法无需人工标注,具有高效性和可扩展性。
模型架构与训练
BGE-VL模型采用了两种主要架构:
- 基于CLIP的架构: BGE-VL-Base和BGE-VL-Large采用类似CLIP的架构,利用图像编码器和文本编码器将图像和文本映射到同一向量空间中,通过对比学习优化模型性能。
- 多模态大模型架构: BGE-VL-MLLM基于更复杂的多模态大模型架构,旨在处理复杂的多模态交互和指令理解任务。
模型训练的关键在于对比学习与优化。通过大规模合成数据的训练,模型学习到更泛化的多模态特征表示,从而在多种多模态任务中表现出色。
应用场景广泛
BGE-VL模型的开源,预计将在多个领域产生积极影响:
- 智能搜索: 用户可以通过上传图片或输入文字,快速找到相关内容,提升搜索精准度。
- 内容推荐: 根据用户上传的内容或兴趣,推荐相似的图文资料,增强个性化体验。
- 图像编辑辅助: 帮助设计师快速找到风格相似的参考图像,提高创作效率。
- 智能客服: 结合图像和文字理解用户问题,提供更直观的解决方案,提升服务效率。
- 文化遗产研究: 基于图片和文字检索,快速找到相关文物或研究资料,助力考古和保护工作。
开源地址
BGE-VL模型已在Hugging Face模型库中开源,方便研究人员和开发者使用:https://huggingface.co/collections/BAAI/megapairs
专家观点
一位匿名人工智能专家表示:“BGE-VL模型的开源,标志着多模态研究领域的一个重要进展。其数据合成方法和模型架构的创新,为未来的研究提供了新的思路。我们期待看到BGE-VL在更多实际应用中发挥作用。”
结论
智源研究院开源的BGE-VL多模态向量模型,凭借其独特的技术优势和广泛的应用前景,有望推动人工智能在图文理解和检索领域的发展。该模型的开源,也体现了中国人工智能研究机构在技术创新和开放合作方面的积极姿态。未来,随着多模态技术的不断发展,我们有理由相信,人工智能将在更多领域为人类带来便利和价值。
参考文献
- 智源研究院官方网站
- Hugging Face模型库
- 相关学术论文(待补充)
(完)
Views: 0