Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

深度学习助力微生物“暗物质”研究:香港浸大、英伟达团队开发多模态深度语言模型Deepurify

引言

微生物世界充满了未知,被称为“暗物质”的微生物基因组,由于其复杂性和多样性,一直难以被完全解析。宏基因组组装基因组 (MAG) 为探索这些“暗物质”提供了宝贵的机会,但其污染问题却一直困扰着研究人员。近年来,深度学习技术为解决这一难题带来了新的曙光。

香港浸会大学和英伟达 AI 技术中心的研究人员联合开发了一种名为 Deepurify 的多模态深度语言模型,用于净化 MAG,有效地提高了微生物基因组研究的准确性。

Deepurify 的创新之处

Deepurify 的核心在于其多模态深度学习架构,它将基因组序列和分类谱系信息整合到一个模型中,并利用对比学习来建立两者之间的关联。

  • 多模态学习: Deepurify 使用两个编码器,GseqFormer 和长短期记忆 (LSTM),分别生成基因组序列和分类谱系的嵌入,将两种信息融合在一起。
  • 对比学习:通过对比学习,Deepurify 能够识别出基因组序列与其分类谱系之间的差异,从而有效地识别和去除 MAG 中的污染。
  • 树遍历算法: Deepurify 将 MAG 内的 contig 分配给 MAG 分离树,并应用树遍历算法将 MAG划分为子 MAG,最大化高质量和中质量子 MAG 的数量。

Deepurify 的优势

  • 高精度: Deepurify 在模拟数据、CAMI 数据集和真实数据集上的表现均优于竞品 (MDMclearer 和 MAGpurify)。
    *泛化能力强: Deepurify 即使在训练集中没有源基因组的情况下,也能准确识别受污染的重叠群。
  • 迭代净化策略: Deepurify_Iter 能够对来自多个分箱工具的 MAG 进行逐步净化,进一步提高了净化效果。

研究成果

Deepurify 在土壤、海洋、植物、淡水和人类粪便宏基因组测序数据集中,分别使高质量 MAG 的数量增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。

未来展望

Deepurify 的开发为微生物“暗物质”研究提供了新的工具,将推动该领域的研究进展。未来,Deepurify 可以进一步扩展应用范围,例如用于识别和分析微生物群落中的关键物种,以及开发新的微生物资源。

参考文献

  • A multi-modal deep language model for contaminant removal from metagenome-assembled genomes. Nature Machine Intelligence, 2024.

结论

Deepurify 的开发标志着深度学习技术在微生物基因组研究中的重要应用,它将为我们更深入地了解微生物世界提供有力支持,并为解决人类面临的重大挑战,例如环境污染、疾病防治和资源利用,提供新的思路和方法。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注