Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

在人工智能领域,数据集的重要性不言而喻。近期,华盛顿大学、Salesforce Research和斯坦福大学等机构联合构建了一个规模空前的开源多模态数据集——MINT-1T(Multimodal INTerleaved)。这一数据集的诞生,无疑为多模态大模型(LMM)的发展注入了新的动力。

MINT-1T是目前最大的开源多模态数据集,包含了万亿级别的文本Token和三十亿张图像。与现有的开源多模态数据集相比,MINT-1T在规模、多样性和数据来源上均有显著提升,为大模型训练提供了更丰富、更全面的数据支持。数据集的构建过程涵盖了从多样化的HTML、PDF和ArXiv等不同来源的多模态数据收集,经过严格的文本质量过滤、图像过滤、安全过滤和去重处理,最终形成了一套高质量的数据集。

MINT-1T的问世填补了开源多模态数据集在规模和多样性上的空白,对于促进多模态大模型的发展具有重要意义。数据集的构建不仅考虑了数据的质量和安全性,还关注了数据的多样性和广度,这将有助于多模态大模型在更复杂、更真实的场景中展现出更强大的性能。

为了验证MINT-1T在多模态大模型训练中的效果,研究团队使用Salesforce的XGen-MM模型架构进行了实验。实验结果显示,MINT-1T在多个多模态任务上的表现优于基于HTML的OBELICS数据集,特别是在视觉描述和视觉问答等任务上。这表明,MINT-1T为多模态大模型的训练提供了更好的数据支持,有助于提升模型在实际应用中的性能。

MINT-1T数据集的开源发布,不仅为AI研究者和开发者提供了宝贵的资源,也为推动多模态大模型技术的发展、促进人工智能在各领域的应用提供了坚实的基础。随着MINT-1T数据集的广泛应用,预计多模态大模型将展现出更强大的能力,为人工智能的数字化转型和创新应用开辟新的可能。

该数据集的详细信息,包括论文链接和数据集地址,已在相关报道中提供,有兴趣的研究者和开发者可以进一步了解和利用这一宝贵资源。

英语如下:

【来源】https://www.jiqizhixin.com/articles/2024-07-27-2

Views: 2

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注