Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

引言: 在生物科技日新月异的今天,人工智能正以前所未有的速度重塑着科研格局。一项由英国公司InstaDeep与丹麦技术大学等机构联合开展的最新研究,为蛋白质组学领域带来了突破性进展。他们开发的InstaNovo模型,利用扩散模型驱动的从头肽测序技术,在医学蛋白质组数据分析方面达到了新的SOTA(State-of-the-Art,当前最佳水平)。

背景:蛋白质组学与AI的融合

蛋白质组学作为一门大规模研究蛋白质的学科,在药物研发、精准医疗等领域扮演着关键角色。通过分析大量蛋白质数据,科学家可以识别样本中存在的蛋白质,从而辅助疾病诊断、疗效监测,甚至病原体鉴定。然而,传统的蛋白质组学分析依赖于数据库搜索,存在着数据库不完整、搜索耗时、难以识别未知蛋白质等局限性。

丹麦技术大学生物工程系副教授Timothy Patrick Jenkins指出:“现有的数据库并非包罗万象,深度搜索需要消耗大量算力,而且几乎不可能识别尚未被科学家探索的蛋白质。”

InstaNovo:AI驱动的从头肽测序

为了突破传统方法的瓶颈,InstaDeep与丹麦技术大学等机构的研究团队开发了InstaNovo,这是一种将碎片离子峰转化为肽序列的转换模型。与当前最先进的方法相比,InstaNovo在性能上实现了显著提升。

该研究团队进一步开发了InstaNovo+,这是一种通过迭代细化预测序列来提高性能的扩散模型。通过这种方式,研究人员提高了治疗测序覆盖率,发现了新的肽段,并在不同的数据集中检测了未报告的生物体,从而扩大了蛋白质组学搜索的范围和检测率。

这项研究成果以“InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments”为题,于2025年3月31日发表在《Nature Machine Intelligence》杂志上。

InstaNovo的技术亮点

InstaNovo的核心在于其创新的技术架构:

  • Transformer模型: 研究人员利用Transformer架构处理质谱数据,通过多尺度正弦嵌入有效编码MS峰,实现对肽序列的准确预测。
  • 扩散模型: InstaNovo+采用扩散模型进行迭代精修,通过结合质谱信息与肽序列更新的动态知识,逐步优化初始预测,有效识别并修正IN模型的预测错误。
  • Knapsack集束搜索解码: 应用Knapsack集束搜索解码进行候选选择和肽评分,进一步提高预测的准确性。

实验结果与应用前景

研究人员在最大的可用蛋白质组学数据集ProteomeTools上对InstaNovo进行了训练,并将其与当前最先进的模型Casanovo进行了比较。实验结果表明:

  • InstaNovo在准确率和召回率方面均显著优于现有工具。
  • InstaNovo能够检测HeLa细胞中一半以上的人类蛋白质组,并扩大新型生物制剂的序列覆盖范围。
  • InstaNovo在蛋白质组中发现了新的蛋白质和病原体。
  • InstaNovo能够识别免疫肽组和降解组中的肽。

InstaDeep的研究工程师、论文的共同第一作者Kevin Michael Eloff表示:“我们的模型超越了最先进的水平,并且比目前可用的工具精确得多。此外,我们的模型并不针对特定的研究领域,可以推动涉及蛋白质组学的所有领域的重大进步。”

研究人员在八个不同的数据集中实现了新的生物学发现,包括识别HeLa细胞中数据库搜索未检测到的蛋白质、将免疫肽组学数据集扩展了175%以上以及表征了新的蛋白水解裂解。

结论与展望

InstaNovo的出现,标志着AI在蛋白质组学领域的应用进入了一个新的阶段。它不仅提高了从头肽测序的准确性和效率,还为发现新的蛋白质和生物标志物提供了强大的工具。

随着AI技术的不断发展,我们有理由相信,未来的蛋白质组学研究将更加依赖于AI的赋能,从而为疾病诊断、药物研发和精准医疗带来更多突破。

参考文献:

  • 论文:InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments. Nature Machine Intelligence, 2025.

致谢:

感谢InstaDeep、丹麦技术大学等机构的研究团队为本文提供的宝贵信息。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注