引言: 在生物科技日新月异的今天,人工智能正以前所未有的速度重塑着科研格局。一项由英国公司InstaDeep与丹麦技术大学等机构联合开展的最新研究,为蛋白质组学领域带来了突破性进展。他们开发的InstaNovo模型,利用扩散模型驱动的从头肽测序技术,在医学蛋白质组数据分析方面达到了新的SOTA(State-of-the-Art,当前最佳水平)。
背景:蛋白质组学与AI的融合
蛋白质组学作为一门大规模研究蛋白质的学科,在药物研发、精准医疗等领域扮演着关键角色。通过分析大量蛋白质数据,科学家可以识别样本中存在的蛋白质,从而辅助疾病诊断、疗效监测,甚至病原体鉴定。然而,传统的蛋白质组学分析依赖于数据库搜索,存在着数据库不完整、搜索耗时、难以识别未知蛋白质等局限性。
丹麦技术大学生物工程系副教授Timothy Patrick Jenkins指出:“现有的数据库并非包罗万象,深度搜索需要消耗大量算力,而且几乎不可能识别尚未被科学家探索的蛋白质。”
InstaNovo:AI驱动的从头肽测序
为了突破传统方法的瓶颈,InstaDeep与丹麦技术大学等机构的研究团队开发了InstaNovo,这是一种将碎片离子峰转化为肽序列的转换模型。与当前最先进的方法相比,InstaNovo在性能上实现了显著提升。
该研究团队进一步开发了InstaNovo+,这是一种通过迭代细化预测序列来提高性能的扩散模型。通过这种方式,研究人员提高了治疗测序覆盖率,发现了新的肽段,并在不同的数据集中检测了未报告的生物体,从而扩大了蛋白质组学搜索的范围和检测率。
这项研究成果以“InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments”为题,于2025年3月31日发表在《Nature Machine Intelligence》杂志上。
InstaNovo的技术亮点
InstaNovo的核心在于其创新的技术架构:
- Transformer模型: 研究人员利用Transformer架构处理质谱数据,通过多尺度正弦嵌入有效编码MS峰,实现对肽序列的准确预测。
- 扩散模型: InstaNovo+采用扩散模型进行迭代精修,通过结合质谱信息与肽序列更新的动态知识,逐步优化初始预测,有效识别并修正IN模型的预测错误。
- Knapsack集束搜索解码: 应用Knapsack集束搜索解码进行候选选择和肽评分,进一步提高预测的准确性。
实验结果与应用前景
研究人员在最大的可用蛋白质组学数据集ProteomeTools上对InstaNovo进行了训练,并将其与当前最先进的模型Casanovo进行了比较。实验结果表明:
- InstaNovo在准确率和召回率方面均显著优于现有工具。
- InstaNovo能够检测HeLa细胞中一半以上的人类蛋白质组,并扩大新型生物制剂的序列覆盖范围。
- InstaNovo在蛋白质组中发现了新的蛋白质和病原体。
- InstaNovo能够识别免疫肽组和降解组中的肽。
InstaDeep的研究工程师、论文的共同第一作者Kevin Michael Eloff表示:“我们的模型超越了最先进的水平,并且比目前可用的工具精确得多。此外,我们的模型并不针对特定的研究领域,可以推动涉及蛋白质组学的所有领域的重大进步。”
研究人员在八个不同的数据集中实现了新的生物学发现,包括识别HeLa细胞中数据库搜索未检测到的蛋白质、将免疫肽组学数据集扩展了175%以上以及表征了新的蛋白水解裂解。
结论与展望
InstaNovo的出现,标志着AI在蛋白质组学领域的应用进入了一个新的阶段。它不仅提高了从头肽测序的准确性和效率,还为发现新的蛋白质和生物标志物提供了强大的工具。
随着AI技术的不断发展,我们有理由相信,未来的蛋白质组学研究将更加依赖于AI的赋能,从而为疾病诊断、药物研发和精准医疗带来更多突破。
参考文献:
- 论文:InstaNovo enables diffusion-powered de novo peptide sequencing in large-scale proteomics experiments. Nature Machine Intelligence, 2025.
致谢:
感谢InstaDeep、丹麦技术大学等机构的研究团队为本文提供的宝贵信息。
Views: 0