北大团队利用LLM预测人类蛋白质必需性,为疾病研究开辟新途径
引言: 生命体内的蛋白质如同精密仪器的零件,缺一不可。然而,识别哪些蛋白质对人类生存至关重要——即人类必需蛋白(HEP)——一直是生物医学研究的巨大挑战。传统的实验方法耗时费力且成本高昂。如今,北京大学的研究团队利用大型语言模型(LLM)的强大能力,开发出一种全新的深度学习模型,能够高效且准确地预测人类蛋白质的必需性,为疾病的预防、诊断和治疗开辟了新的途径。这项研究成果已发表在《Nature Computational Science》期刊上。
主体:
北京大学的研究团队开发的蛋白质重要性计算器 (PIC, Protein Importance Calculator) 是一个基于序列的深度学习模型。该模型通过微调预训练的蛋白质语言模型,实现了对人类蛋白质必需性的精准预测。PIC 的突破性之处在于其预测范围的广度和准确性。它不仅超越了现有的计算方法,而且能够在人类、细胞系和小鼠三个层面进行全面预测,克服了以往方法仅限于细胞系水平的局限性。
PIC 模型的核心在于其巧妙的架构设计。它包含三个主要模块:嵌入、注意和预测。研究人员利用具有6.5亿参数的ESM-2模型提取蛋白质序列特征,并采用平均池化方法生成完整的蛋白质序列表示。为了提高预测精度,团队还采用了集成学习策略,整合了323个细胞系水平的PIC模型,以及分别针对28种疾病和19种组织的模型,从而实现更细致、更全面的预测。
该研究团队通过一系列严谨的实验验证了PIC模型的有效性。他们使用了准确率、召回率、精确度、F1分数、AUROC和AUPRC等多种指标对模型性能进行评估。结果显示,PIC模型在人类水平的AUROC高达0.9132,在小鼠水平也达到了0.8736,显著优于现有方法,平均提高了5.13%到12.10%。 更重要的是,PIC模型成功量化了617,462种人类微蛋白的必需性,并通过识别乳腺癌的潜在预后生物标志物,进一步证明了其在生物医学领域的巨大应用价值。
图示说明: (此处应插入论文中提供的图1和图3,分别展示整体工作流程和PIC模型的性能比较。由于无法直接插入图片,建议读者参考原文。)
结论:
北京大学的研究成果标志着在利用人工智能技术研究人类蛋白质组方面取得了重大进展。PIC模型的开发,为高效、准确地预测人类蛋白质必需性提供了一种强有力的工具。这项研究不仅加深了我们对人类蛋白质组的理解,也为疾病研究、药物研发和精准医疗提供了新的思路和技术支持。未来,PIC模型有望应用于更广泛的生物医学领域,例如个性化医疗、疾病诊断和治疗方案的制定等。 进一步的研究可以探索PIC模型在其他物种中的应用,以及结合其他组学数据,例如转录组学和代谢组学数据,以构建更全面的蛋白质必需性预测模型。
参考文献:
(此处应列出论文的完整参考文献,并采用统一的引用格式,例如APA格式。由于信息有限,无法提供完整的参考文献。) 例如:
- [论文标题]. Nature Computational Science, 2024. (需补充完整的文献信息)
免责声明: 本文基于提供的资料进行撰写,旨在客观报道研究成果。文中数据和结论均来自原始研究论文,如有任何疑问,请参考原文。
Views: 0