shanghaishanghai

深度学习助力微生物“暗物质”研究:香港浸大、英伟达团队开发多模态深度语言模型Deepurify

引言

微生物世界充满了未知,被称为“暗物质”的微生物基因组,由于其复杂性和多样性,一直难以被完全解析。宏基因组组装基因组 (MAG) 为探索这些“暗物质”提供了宝贵的机会,但其污染问题却一直困扰着研究人员。近年来,深度学习技术为解决这一难题带来了新的曙光。

香港浸会大学和英伟达 AI 技术中心的研究人员联合开发了一种名为 Deepurify 的多模态深度语言模型,用于净化 MAG,有效地提高了微生物基因组研究的准确性。

Deepurify 的创新之处

Deepurify 的核心在于其多模态深度学习架构,它将基因组序列和分类谱系信息整合到一个模型中,并利用对比学习来建立两者之间的关联。

  • 多模态学习: Deepurify 使用两个编码器,GseqFormer 和长短期记忆 (LSTM),分别生成基因组序列和分类谱系的嵌入,将两种信息融合在一起。
  • 对比学习:通过对比学习,Deepurify 能够识别出基因组序列与其分类谱系之间的差异,从而有效地识别和去除 MAG 中的污染。
  • 树遍历算法: Deepurify 将 MAG 内的 contig 分配给 MAG 分离树,并应用树遍历算法将 MAG划分为子 MAG,最大化高质量和中质量子 MAG 的数量。

Deepurify 的优势

  • 高精度: Deepurify 在模拟数据、CAMI 数据集和真实数据集上的表现均优于竞品 (MDMclearer 和 MAGpurify)。
    *泛化能力强: Deepurify 即使在训练集中没有源基因组的情况下,也能准确识别受污染的重叠群。
  • 迭代净化策略: Deepurify_Iter 能够对来自多个分箱工具的 MAG 进行逐步净化,进一步提高了净化效果。

研究成果

Deepurify 在土壤、海洋、植物、淡水和人类粪便宏基因组测序数据集中,分别使高质量 MAG 的数量增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。

未来展望

Deepurify 的开发为微生物“暗物质”研究提供了新的工具,将推动该领域的研究进展。未来,Deepurify 可以进一步扩展应用范围,例如用于识别和分析微生物群落中的关键物种,以及开发新的微生物资源。

参考文献

  • A multi-modal deep language model for contaminant removal from metagenome-assembled genomes. Nature Machine Intelligence, 2024.

结论

Deepurify 的开发标志着深度学习技术在微生物基因组研究中的重要应用,它将为我们更深入地了解微生物世界提供有力支持,并为解决人类面临的重大挑战,例如环境污染、疾病防治和资源利用,提供新的思路和方法。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注