科学家发布大规模科学文档基准数据集 DocGenome,助力解决高质量科学语料稀缺问题
上海,2024年9月17日– 近期,上海人工智能实验室联合上海交通大学、浙江大学、复旦大学团队发布了首个大规模多模态结构化科学文献基准数据集 DocGenome。这一数据集的发布,旨在为多模态大语言模型的训练和测试提供高质量的语料库,并充分挖掘科学文献对于人工智能系统的价值。
DocGenome 数据集通过自动标注预印本网站 arXiv 开放获取社区的 50 万篇科学文档,使用自定义的自动标注管道,具有完整性、逻辑性、多样性和正确性的四个关键特征。该数据集不仅针对每个科学文献给出了一元区域级别的标注,还标注了区域和区域之间的二元关系,例如不同段落之间的阅读顺序、不同区域的引用关系等。这些信息对于缓解大模型幻觉、提升大模型写作逻辑有着重要意义。
该研究的通讯作者、上海人工智能实验室研究员张铂表示,以往的研究中,由于语料不足和对科学文档的逻辑推理能力不够,大语言模型对论文的理解通常只停留在直观的写作逻辑,而不是更为关键的实验逻辑。为了解决数据稀缺以及标注成本过高等问题,该课题组开发了一种自动化科学文档结构化标注工具 DocParser。
DocParser 针对不同作者撰写的、不同风格的论文,进行统一化、自动化处理,实现了从arXiv 开源社区的原始数据中自动提取科学文献数据并进行结构化标注。该工具自动标注了 50 万篇 arXiv 科学文献,节省了约 400 万-500 万元的人工标注成本。
DocGenome 数据集包含了多种复杂模态类别,如图表、方程式、表格、算法、代码和脚注等。从二元关系来看,该数据集构建了不同区域之间的 6 种二元逻辑关系,包括等价关系、标题邻接关系、次级关系、非标题邻接关系、显示引用关系和隐式引用关系。
DocGenome 实现了对 153 个二级学科的标注,包括计算机、量子力学、物理学、化学、经济学等。该数据集包含了从 2007 年到 2022 年期间的文献,不仅数据量比较大,而且是近期的、具有时效性的数据。如果按照页数来算,该数据集标注了 680 万图片数据,与此前同类科学文献数据集相比属于质的提升。
研究人员利用 DocGenome 数据集,在表格 Image-to-LaTeX 转换任务以及公式 Image-to-LaTeX 转换任务上,基于 Pix2Struct 模型进行微调。实验结果表明,DocGenome 数据集在性能上超越了付费闭源工具 Mathpix,证明了该数据的实用性。
DocGenome 的发布,将为科研人员提供一个强大的工具,帮助他们从繁重的阅读文献任务中解脱出来,并找到价值比最高的研究点。该课题组正在将 DocGenome 接到大语言模型作为数据集合工具,以帮助更多科研人员利用该数据集,进行某个特定领域科学论文的总结和发展脉络梳理等。
张铂认为,针对某一个科学问题,大模型很有可能能够给出一些有意思的建议,从而让科研人员从中进行选择,提高创作效率。另一方面,他们希望通过增强 DocParser 的泛化性,将数据集扩展到 Scihub 领域,以持续提升 DocGenome 数据集的数据量。
DocGenome 的发布,标志着人工智能在科学研究领域的应用迈出了重要一步。随着人工智能技术的不断发展,相信 DocGenome 会在未来发挥更大的作用,为科学研究带来更多可能性。
Views: 0