shanghaishanghai

开源智能数据提取工具MinerU:让PDF文档解析更轻松

上海人工智能实验室OpenDataLab团队推出开源智能数据提取工具MinerU,旨在解决复杂PDF文档解析难题,提高AI语料准备效率。

MinerU是一款功能强大的工具,能够将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式。它支持从网页和电子书中提取内容,适用于学术、财务、法律等多个领域。

MinerU的主要功能包括:

  • PDF到Markdown转换: 将PDF文档转换为结构化的Markdown格式,方便进一步的编辑和分析。
  • 多模态内容处理: 识别和处理PDF中的图像、公式、表格和文本等多种内容。
  • 结构和格式保留: 在转换过程中,保留原始文档的结构和格式,如标题、段落和列表。
  • 公式识别与转换: 特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用。
  • 干扰元素去除: 自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息。
  • 乱码识别与处理: 自动识别并纠正PDF文档中的乱码,提高信息提取的准确性。
  • 高质量解析工具链: 集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度。

MinerU的技术原理:

MinerU采用深度学习模型进行PDF文档解析,包括:

  • 布局检测: 使用LayoutLMv3模型进行区域检测,识别文档中的图像、表格、标题和文本等不同区域。
  • 公式检测: 利用基于YOLOv8的自研模型识别文档中的数学公式,区分行内公式和行间公式。
  • 公式识别: 通过自研的UniMERNet模型识别和解析数学公式,将它们转换成LaTeX格式。
  • 光学字符识别(OCR): 使用PaddleOCR等OCR技术识别文档中的文本内容。

此外,MinerU还包含一个处理管线,对模型解析得到的数据进行后处理,包括确定块级别的顺序、删除无用元素、根据版面进行内容排序和拼装、进行坐标修复、高iou处理、图片和表格描述合并、公式替换、图标转储、Layout排序等操作。

MinerU的应用场景:

  • 学术研究: 研究人员可从学术论文和期刊中提取数据,用于文献分析、知识图谱构建等研究。
  • 财务分析: 财务人员可从财务报表和合同中提取关键数据,用于财务分析和风险控制。
  • 法律研究: 法律专业人员可从法律法规和判决书中提取关键信息,用于法律研究和案件分析。
  • 数据挖掘: 数据科学家可从各种PDF文档中提取数据,用于数据分析和机器学习模型训练。

MinerU的项目地址:

  • 项目官网:https://opendatalab.com/OpenSourceTools/Extractor/PDF
  • GitHub仓库:https://github.com/opendatalab/PDF-Extract-Kit
  • HuggingFace模型库:https://huggingface.co/wanderkid/PDF-Extract-Kit
  • 魔搭社区模型库:https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit

MinerU的推出将为用户提供更加便捷高效的PDF文档解析工具,促进人工智能技术在各领域的应用发展。

【source】https://ai-bot.cn/mineru/

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注