波士顿 – 麻省理工学院(MIT)和怀特黑德生物医学研究所(Whitehead Institute for Biomedical Research)的研究人员近日在《科学》(Science)杂志上发表了一项突破性研究,他们开发了一种名为ProtGPS的全新蛋白质语言模型,能够以前所未有的精度预测蛋白质在活细胞内的功能位置。这项研究不仅揭示了蛋白质序列中隐藏的定位密码,还为理解疾病机制和开发新型疗法开辟了新的途径。
蛋白质是细胞生命活动的核心驱动力,它们执行着成千上万种不同的功能。长期以来,科学家们主要关注蛋白质的结构与其功能之间的关系。然而,越来越多的证据表明,蛋白质在细胞内的精确定位同样至关重要。细胞内部并非一片混沌,而是充满了各种有助于组织细胞成分的“隔间”,包括我们熟知的细胞器,以及各种动态的、无膜的亚细胞区室。这些区室将具有共同功能的分子聚集在一起,协同完成特定的生物学过程。
为了实现细胞功能的精准调控,细胞进化出了一套复杂的机制,将大约100亿个蛋白质分子分配到不同的亚细胞区室中。这些区室需要组装具有共同功能的各种蛋白质。MIT和怀特黑德生物医学研究所的研究团队发现,具有共同功能的蛋白质共享特定的氨基酸序列代码,这些代码就像“GPS”信号一样,引导它们到达正确的区室目的地。
基于这一发现,研究团队开发了ProtGPS,这是一种基于人工智能的蛋白质语言模型。该模型经过训练,可以高效地预测人类蛋白质的区室定位,即使是那些在训练集中被排除的蛋白质也能准确预测。更令人兴奋的是,ProtGPS能够指导新型蛋白质序列的生成,这些序列可以被选择性地组装到特定的细胞核仁中。此外,研究人员还利用ProtGPS发现了改变蛋白质亚细胞定位的病理突变。
这项研究的主要作者之一,怀特黑德研究所成员、麻省理工学院教授Richard A. Young表示:“我们希望这是迈向强大平台的第一步,使人们能够研究蛋白质,并帮助我们了解人类如何发展成为复杂的生物体,突变如何破坏这些自然过程,以及如何产生治疗假设和设计药物来治疗细胞功能障碍。”
ProtGPS的强大之处在于它能够预测蛋白质将定位到12种已知类型的区室中的哪一种,以及与疾病相关的突变是否会改变这种定位。研究人员通过向ProtGPS输入超过20万种具有疾病相关突变的蛋白质,并要求它预测这些突变蛋白质的位置,从而验证了这一能力。结果显示,许多情况下,与疾病相关的突变确实会改变蛋白质的定位。
为了进一步验证ProtGPS的预测,研究人员在细胞中测试了20个例子,使用荧光标记来比较正常蛋白质和突变蛋白质在细胞中的位置。实验结果与ProtGPS的预测高度一致,证实了错误定位可能是疾病的一种未被充分重视的机制。
麻省理工学院Regina Barzilay教授表示:“能够从计算设计一路走到实验室尝试这些东西,我真的很兴奋。人工智能领域有很多令人兴奋的论文,但其中 99.9% 从未在实际系统中进行测试。感谢我们与 Young 实验室的合作,我们能够测试并真正了解我们的算法表现如何。”
这项研究的意义远不止于此。ProtGPS不仅可以帮助科学家们更好地理解蛋白质的功能和疾病的发生机制,还可以用于设计新型蛋白质,这些蛋白质可以被精确地定位到细胞内的特定区域,从而实现更精准的药物递送和基因治疗。
研究人员希望ProtGPS能够像AlphaFold等预测结构模型一样,被广泛应用于各种研究项目,从而推进我们对蛋白质功能、功能障碍和疾病的认识。
参与者之一 Ilan Mitnikov 说:「细胞是一个复杂的系统,包含许多组件和复杂的相互作用网络。利用这种方法,我们可以扰乱系统,观察结果,从而推动细胞机制的发现,甚至开发基于此的治疗方法,这真是太有趣了。」
参考文献:
- 论文原文: Protein codes promote selective subcellular compartmentalization. Science, 2025, 387(6736), 538-545.
关键词: 蛋白质, 细胞定位, 蛋白质语言模型, 人工智能, 疾病机制, 药物开发, MIT, 怀特黑德生物医学研究所, ProtGPS.
Views: 0