通义+名校，ViDoRAG视觉文档AI框架问世

北京讯 – 在人工智能领域，视觉文档理解一直是研究的难点。近日，阿里巴巴通义实验室联合中国科学技术大学和上海交通大学，共同推出了名为ViDoRAG的视觉文档检索增强生成框架，旨在突破传统方法在处理复杂视觉文档时的局限性。这一创新成果，有望在教育、金融、医疗、法律等多个领域带来效率革命。

ViDoRAG：多智能体协作，动态迭代推理

ViDoRAG的核心在于其多智能体协作和动态迭代推理机制。该框架包含Seeker、Inspector和Answer三种智能体，它们分别负责快速筛选、详细审查和最终答案生成。这种迭代交互的方式，能够逐步细化答案，显著提升生成质量和一致性。

与传统的单步检索和生成方法不同，ViDoRAG采用“粗到细”的生成策略，从全局视角开始，逐步聚焦到局部细节，从而减少无关信息的干扰，提升生成效率和准确性。

技术原理：高斯混合模型与动态检索长度调整

ViDoRAG的技术亮点之一是其多模态混合检索策略。该策略结合文本和视觉信息，利用高斯混合模型（GMM）动态调整检索结果数量。GMM能够拟合查询与文档集合的相似度分布，动态确定最优的检索结果数量（Top-K），避免固定数量检索带来的噪声和计算开销。

这种动态检索长度调整机制，能够有效整合视觉和文本信息，提升检索精度，减少无关信息的干扰。

性能卓越：ViDoSeek基准数据集上的显著提升

ViDoRAG在ViDoSeek基准数据集上表现出色，平均性能提升超过10%，充分展现了其在视觉文档检索和推理任务中的高效性和优越性。

应用前景广阔：赋能多个行业

ViDoRAG的应用场景十分广泛，有望赋能多个行业：

项目地址与未来展望

ViDoRAG的开源项目地址已公布，方便研究者和开发者进一步探索和应用：

ViDoRAG的推出，标志着视觉文档理解领域取得了一项重要进展。随着技术的不断发展和完善，我们有理由相信，ViDoRAG将在未来的各个行业中发挥更大的作用，为人们带来更加高效和智能的工作体验。

参考文献：

Alibaba-NLP. (2024). ViDoRAG: Visual Document Retrieval-Augmented Generation. GitHub. Retrieved from https://github.com/Alibaba-NLP/ViDoRAG
Alibaba-NLP. (2024). ViDoRAG: Visual Document Retrieval-Augmented Generation. arXiv. Retrieved from https://arxiv.org/pdf/2502.18017