Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

科学家发布大规模科学文档基准数据集 DocGenome,助力解决高质量科学语料稀缺问题

上海,2024年9月17日– 近期,上海人工智能实验室联合上海交通大学、浙江大学、复旦大学团队发布了首个大规模多模态结构化科学文献基准数据集 DocGenome。这一数据集的发布,旨在为多模态大语言模型的训练和测试提供高质量的语料库,并充分挖掘科学文献对于人工智能系统的价值。

DocGenome 数据集通过自动标注预印本网站 arXiv 开放获取社区的 50 万篇科学文档,使用自定义的自动标注管道,具有完整性、逻辑性、多样性和正确性的四个关键特征。该数据集不仅针对每个科学文献给出了一元区域级别的标注,还标注了区域和区域之间的二元关系,例如不同段落之间的阅读顺序、不同区域的引用关系等。这些信息对于缓解大模型幻觉、提升大模型写作逻辑有着重要意义。

该研究的通讯作者、上海人工智能实验室研究员张铂表示,以往的研究中,由于语料不足和对科学文档的逻辑推理能力不够,大语言模型对论文的理解通常只停留在直观的写作逻辑,而不是更为关键的实验逻辑。为了解决数据稀缺以及标注成本过高等问题,该课题组开发了一种自动化科学文档结构化标注工具 DocParser。

DocParser 针对不同作者撰写的、不同风格的论文,进行统一化、自动化处理,实现了从arXiv 开源社区的原始数据中自动提取科学文献数据并进行结构化标注。该工具自动标注了 50 万篇 arXiv 科学文献,节省了约 400 万-500 万元的人工标注成本。

DocGenome 数据集包含了多种复杂模态类别,如图表、方程式、表格、算法、代码和脚注等。从二元关系来看,该数据集构建了不同区域之间的 6 种二元逻辑关系,包括等价关系、标题邻接关系、次级关系、非标题邻接关系、显示引用关系和隐式引用关系。

DocGenome 实现了对 153 个二级学科的标注,包括计算机、量子力学、物理学、化学、经济学等。该数据集包含了从 2007 年到 2022 年期间的文献,不仅数据量比较大,而且是近期的、具有时效性的数据。如果按照页数来算,该数据集标注了 680 万图片数据,与此前同类科学文献数据集相比属于质的提升。

研究人员利用 DocGenome 数据集,在表格 Image-to-LaTeX 转换任务以及公式 Image-to-LaTeX 转换任务上,基于 Pix2Struct 模型进行微调。实验结果表明,DocGenome 数据集在性能上超越了付费闭源工具 Mathpix,证明了该数据的实用性。

DocGenome 的发布,将为科研人员提供一个强大的工具,帮助他们从繁重的阅读文献任务中解脱出来,并找到价值比最高的研究点。该课题组正在将 DocGenome 接到大语言模型作为数据集合工具,以帮助更多科研人员利用该数据集,进行某个特定领域科学论文的总结和发展脉络梳理等。

张铂认为,针对某一个科学问题,大模型很有可能能够给出一些有意思的建议,从而让科研人员从中进行选择,提高创作效率。另一方面,他们希望通过增强 DocParser 的泛化性,将数据集扩展到 Scihub 领域,以持续提升 DocGenome 数据集的数据量。

DocGenome 的发布,标志着人工智能在科学研究领域的应用迈出了重要一步。随着人工智能技术的不断发展,相信 DocGenome 会在未来发挥更大的作用,为科学研究带来更多可能性。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注