Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

所见即所得:多模态RAG正在向我们走来

引言

2024年,多模态大模型取得了井喷式的进展,GPT-4o的发布更是将多模态大模型推向了新的高度。从传统的图像搜索到对多模态数据的深度理解,多模态大模型正在改变我们与信息交互的方式。而多模态RAG(Retrieval-Augmented Generation)技术的出现,则将进一步释放多模态大模型的潜力,为我们带来更精准、更智能的信息获取体验。

多模态RAG的场景价值

多模态RAG的概念并非新鲜事物,早在2023年RAG技术兴起之时,就已经有人提出将多模态数据融入RAG系统,例如针对个人相册、企业宣传素材的搜索需求。然而,这些场景更多地是将传统的向量搜索技术应用于多模态数据,并没有真正挖掘多模态RAG的业务价值。

随着RAG技术在2024年的快速发展,企业开始将RAG视为大模型在B端应用的标准配置,企业内部文档问答的需求也随之爆发。其中,包含大量图表内容的文档成为了多模态RAG应用的重点。

多模态RAG的解决方案

针对包含图表内容的文档,多模态RAG的解决方案主要有两类:

  • 基于视觉模型的广义OCR技术: 首先利用OCR技术识别多模态文档的布局,然后根据不同的语义区块调用相应的模型进行处理。例如,针对表格数据,可以使用表格识别模型;针对流程图、饼图、柱状图等企业图表,则需要相应的模型进行处理。这种方法本质上是将多模态数据转化为文本数据,从而实现对多模态数据的理解。
  • 基于VLM(Vision Language Model)的多模态理解: 直接利用VLM模型对图像和文本进行联合编码,并根据编码结果生成答案。2024年,VLM技术取得了显著进展,例如Google开源的PaliGemma和阿里开源的Qwen2-VL-7B,都展现出强大的视觉图像理解能力。

ColPali:多模态RAG的里程碑

为了将VLM技术应用于企业内部文档的多模态RAG,ColPali应运而生。ColPali是一个基于PaliGemma的延迟交互模型,它利用Col Adaptor将PaliGemma的Embedding输出映射到更低维度的向量空间,并采用延迟交互模型来计算文本和文档之间的相似度。

延迟交互模型的优势

延迟交互模型是面向未来的RAG排序模型,它兼具交叉编码器的排序质量和双编码器的性能优势。它能够捕获查询和文档之间的复杂交互关系,同时又可以离线处理文档编码,大幅提升查询速度。

ColPali的优势

ColPali在多模态RAG检索方面展现出显著优势:

  • 更高的查询精度: 相比于传统视觉模型的广义OCR技术,ColPali在查询精度上具有明显领先优势。
  • 更快的整体数据写入速度: ColPali在数据写入速度上也优于传统方法。
  • 更精准的语义理解: 相比于双编码器模型,ColPali能够更好地捕获查询和文档之间的语义关系,从而提高检索精度。

结论

ColPali的出现标志着多模态RAG技术迈入新的发展阶段。它不仅能够提升多模态RAG的检索精度,还能加速多模态RAG的应用落地。随着多模态RAG技术的不断发展,我们将会看到更多基于多模态数据的智能应用,为我们的生活和工作带来更多便利和创新。

参考文献

  1. PaliGemma: https://ai.googleblog.com/2024/07/paligemma-open-source-vision-language.html
  2. Qwen2-VL-7B: https://huggingface.co/Qwen-VL
  3. ColPali: https://arxiv.org/abs/2407.00000 (请根据实际论文地址进行替换)

注: 以上内容仅供参考,请根据实际情况进行修改和完善。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注