周二. 11 月 26th, 2024

开源智能数据提取工具MinerU问世

作者智能小编

8 月 28, 2024 #mineru, #每日AI快讯

shanghai

shanghai

开源智能数据提取工具MinerU：让PDF文档解析更轻松

上海人工智能实验室OpenDataLab团队推出开源智能数据提取工具MinerU，旨在解决复杂PDF文档解析难题，提高AI语料准备效率。

MinerU是一款功能强大的工具，能够将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式。它支持从网页和电子书中提取内容，适用于学术、财务、法律等多个领域。

MinerU的主要功能包括：

PDF到Markdown转换： 将PDF文档转换为结构化的Markdown格式，方便进一步的编辑和分析。
多模态内容处理： 识别和处理PDF中的图像、公式、表格和文本等多种内容。
结构和格式保留： 在转换过程中，保留原始文档的结构和格式，如标题、段落和列表。
公式识别与转换： 特别针对数学公式，能识别并转换成LaTeX格式，方便学术交流和技术文档使用。
干扰元素去除： 自动删除页眉、页脚、脚注和页码等非内容元素，净化文档信息。
乱码识别与处理： 自动识别并纠正PDF文档中的乱码，提高信息提取的准确性。
高质量解析工具链： 集成了先进的PDF解析工具，包括布局检测、公式检测和光学字符识别（OCR），确保提取结果的高准确度。

MinerU的技术原理：

MinerU采用深度学习模型进行PDF文档解析，包括：

布局检测： 使用LayoutLMv3模型进行区域检测，识别文档中的图像、表格、标题和文本等不同区域。
公式检测： 利用基于YOLOv8的自研模型识别文档中的数学公式，区分行内公式和行间公式。
公式识别： 通过自研的UniMERNet模型识别和解析数学公式，将它们转换成LaTeX格式。
光学字符识别（OCR）： 使用PaddleOCR等OCR技术识别文档中的文本内容。

此外，MinerU还包含一个处理管线，对模型解析得到的数据进行后处理，包括确定块级别的顺序、删除无用元素、根据版面进行内容排序和拼装、进行坐标修复、高iou处理、图片和表格描述合并、公式替换、图标转储、Layout排序等操作。

MinerU的应用场景：

学术研究： 研究人员可从学术论文和期刊中提取数据，用于文献分析、知识图谱构建等研究。
财务分析： 财务人员可从财务报表和合同中提取关键数据，用于财务分析和风险控制。
法律研究： 法律专业人员可从法律法规和判决书中提取关键信息，用于法律研究和案件分析。
数据挖掘： 数据科学家可从各种PDF文档中提取数据，用于数据分析和机器学习模型训练。

MinerU的项目地址：

项目官网：https://opendatalab.com/OpenSourceTools/Extractor/PDF
GitHub仓库：https://github.com/opendatalab/PDF-Extract-Kit
HuggingFace模型库：https://huggingface.co/wanderkid/PDF-Extract-Kit
魔搭社区模型库：https://www.modelscope.cn/models/wanderkid/PDF-Extract-Kit

MinerU的推出将为用户提供更加便捷高效的PDF文档解析工具，促进人工智能技术在各领域的应用发展。

【source】https://ai-bot.cn/mineru/

Views: 1

相关文章

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

11 月 24, 2024 智能小编

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

11 月 24, 2024 智能小编

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

11 月 24, 2024 智能小编

发表回复取消回复

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

2024年11月24日

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

2024年11月24日

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

2024年11月24日

石头科技：寻找下一个增长点石头科技谋求“第二曲线” 石头科技：转型升级在路上石头科技的第二曲线难题石头科技：巨头焦虑与突围

2024年11月24日