万亿Token开源数据集MINT-1T：多模态大模型发展新里程碑

作者智能小编

7 月 28, 2024 #多, #机器之心

在人工智能领域，数据集的重要性不言而喻。近期，华盛顿大学、Salesforce Research和斯坦福大学等机构联合构建了一个规模空前的开源多模态数据集——MINT-1T（Multimodal INTerleaved）。这一数据集的诞生，无疑为多模态大模型（LMM）的发展注入了新的动力。

MINT-1T是目前最大的开源多模态数据集，包含了万亿级别的文本Token和三十亿张图像。与现有的开源多模态数据集相比，MINT-1T在规模、多样性和数据来源上均有显著提升，为大模型训练提供了更丰富、更全面的数据支持。数据集的构建过程涵盖了从多样化的HTML、PDF和ArXiv等不同来源的多模态数据收集，经过严格的文本质量过滤、图像过滤、安全过滤和去重处理，最终形成了一套高质量的数据集。

MINT-1T的问世填补了开源多模态数据集在规模和多样性上的空白，对于促进多模态大模型的发展具有重要意义。数据集的构建不仅考虑了数据的质量和安全性，还关注了数据的多样性和广度，这将有助于多模态大模型在更复杂、更真实的场景中展现出更强大的性能。

为了验证MINT-1T在多模态大模型训练中的效果，研究团队使用Salesforce的XGen-MM模型架构进行了实验。实验结果显示，MINT-1T在多个多模态任务上的表现优于基于HTML的OBELICS数据集，特别是在视觉描述和视觉问答等任务上。这表明，MINT-1T为多模态大模型的训练提供了更好的数据支持，有助于提升模型在实际应用中的性能。

MINT-1T数据集的开源发布，不仅为AI研究者和开发者提供了宝贵的资源，也为推动多模态大模型技术的发展、促进人工智能在各领域的应用提供了坚实的基础。随着MINT-1T数据集的广泛应用，预计多模态大模型将展现出更强大的能力，为人工智能的数字化转型和创新应用开辟新的可能。

该数据集的详细信息，包括论文链接和数据集地址，已在相关报道中提供，有兴趣的研究者和开发者可以进一步了解和利用这一宝贵资源。

英语如下：

【来源】https://www.jiqizhixin.com/articles/2024-07-27-2