DocGenome发布：破解科学语料稀缺难题

科学家发布大规模科学文档基准数据集 DocGenome，助力解决高质量科学语料稀缺问题

上海，2024年9月17日– 近期，上海人工智能实验室联合上海交通大学、浙江大学、复旦大学团队发布了首个大规模多模态结构化科学文献基准数据集 DocGenome。这一数据集的发布，旨在为多模态大语言模型的训练和测试提供高质量的语料库，并充分挖掘科学文献对于人工智能系统的价值。

DocGenome 数据集通过自动标注预印本网站 arXiv 开放获取社区的 50 万篇科学文档，使用自定义的自动标注管道，具有完整性、逻辑性、多样性和正确性的四个关键特征。该数据集不仅针对每个科学文献给出了一元区域级别的标注，还标注了区域和区域之间的二元关系，例如不同段落之间的阅读顺序、不同区域的引用关系等。这些信息对于缓解大模型幻觉、提升大模型写作逻辑有着重要意义。

该研究的通讯作者、上海人工智能实验室研究员张铂表示，以往的研究中，由于语料不足和对科学文档的逻辑推理能力不够，大语言模型对论文的理解通常只停留在直观的写作逻辑，而不是更为关键的实验逻辑。为了解决数据稀缺以及标注成本过高等问题，该课题组开发了一种自动化科学文档结构化标注工具 DocParser。

DocParser 针对不同作者撰写的、不同风格的论文，进行统一化、自动化处理，实现了从arXiv 开源社区的原始数据中自动提取科学文献数据并进行结构化标注。该工具自动标注了 50 万篇 arXiv 科学文献，节省了约 400 万-500 万元的人工标注成本。

DocGenome 数据集包含了多种复杂模态类别，如图表、方程式、表格、算法、代码和脚注等。从二元关系来看，该数据集构建了不同区域之间的 6 种二元逻辑关系，包括等价关系、标题邻接关系、次级关系、非标题邻接关系、显示引用关系和隐式引用关系。

DocGenome 实现了对 153 个二级学科的标注，包括计算机、量子力学、物理学、化学、经济学等。该数据集包含了从 2007 年到 2022 年期间的文献，不仅数据量比较大，而且是近期的、具有时效性的数据。如果按照页数来算，该数据集标注了 680 万图片数据，与此前同类科学文献数据集相比属于质的提升。

研究人员利用 DocGenome 数据集，在表格 Image-to-LaTeX 转换任务以及公式 Image-to-LaTeX 转换任务上，基于 Pix2Struct 模型进行微调。实验结果表明，DocGenome 数据集在性能上超越了付费闭源工具 Mathpix，证明了该数据的实用性。

DocGenome 的发布，将为科研人员提供一个强大的工具，帮助他们从繁重的阅读文献任务中解脱出来，并找到价值比最高的研究点。该课题组正在将 DocGenome 接到大语言模型作为数据集合工具，以帮助更多科研人员利用该数据集，进行某个特定领域科学论文的总结和发展脉络梳理等。

张铂认为，针对某一个科学问题，大模型很有可能能够给出一些有意思的建议，从而让科研人员从中进行选择，提高创作效率。另一方面，他们希望通过增强 DocParser 的泛化性，将数据集扩展到 Scihub 领域，以持续提升 DocGenome 数据集的数据量。

DocGenome 的发布，标志着人工智能在科学研究领域的应用迈出了重要一步。随着人工智能技术的不断发展，相信 DocGenome 会在未来发挥更大的作用，为科学研究带来更多可能性。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DocGenome发布：破解科学语料稀缺难题

作者智能小编

科学家发布大规模科学文档基准数据集 DocGenome，助力解决高质量科学语料稀缺问题

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

DeepSeek-R1后推理模型井喷：14篇论文揭示新纪元

作者智能小编

科学家发布大规模科学文档基准数据集 DocGenome，助力解决高质量科学语料稀缺问题

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复