香港,2025年2月7日 – 蛋白质,作为生命的基本组成单元,在生物体内执行着新陈代谢、信号传导、免疫反应等关键功能。随着生命科学的深入发展,理解蛋白质的序列、结构与功能之间的复杂关系,成为了科学家们面临的一项重大挑战。近日,香港理工大学等机构的研究团队发布了一篇系统性综述,详细阐述了大型语言模型(LLM)在计算蛋白质科学领域的最新进展,为AI和生物学研究者提供了重要的参考。
这篇发表在预印本平台arXiv上的论文(https://arxiv.org/pdf/2501.10282)指出,研究人员正积极利用LLM技术,开发蛋白质语言模型(pLMs),以期破解蛋白质的“语言密码”,并将其应用于序列-结构-功能推理等问题。
蛋白质科学的“序列-结构-功能”范式
蛋白质的功能与其三维结构密切相关,而蛋白质的结构又由其氨基酸序列决定。这一“序列-结构-功能”范式是理解蛋白质行为的基础。然而,由于蛋白质结构预测的复杂性和实验成本,大量已知的蛋白质序列仍然缺乏结构信息,这极大地限制了我们对蛋白质功能的理解。
pLMs:连接序列、结构与功能的桥梁
pLMs的出现为解决这一难题带来了新的希望。这些模型通过学习大量的蛋白质序列数据,能够捕捉氨基酸之间的相互作用,并预测蛋白质的结构和功能。
该综述将现有的pLMs分为三类:
- 基于序列的模型: 这类模型直接从氨基酸序列中学习,捕捉序列模式和隐含的结构、功能信息。根据输入数据的不同,又可分为基于单序列和基于多序列的模型。
- 结构与功能增强的模型: 这类模型在序列信息的基础上,进一步整合蛋白质的结构和功能数据,以增强模型对蛋白质的理解。
- 多模态模型: 这类模型不仅关注蛋白质本身的语义,还整合了自然语言、化学分子语言等外部信息,以更全面地理解蛋白质。
pLMs的应用与潜力
该综述重点介绍了pLMs在蛋白质结构预测、功能预测和蛋白质设计中的应用。
- 蛋白质结构预测: AlphaFold2和RoseTTAFold等基于深度学习的方法,在蛋白质结构预测方面取得了突破性进展,能够在数分钟内预测出高精度的蛋白质结构。
- 蛋白质功能预测: pLMs能够学习蛋白质的功能信息,并将其应用于蛋白质功能预测任务,尤其是在数据稀缺的情况下,能够显著提高预测性能。
- 蛋白质设计: pLMs可以用于设计具有特定功能的蛋白质,包括重新设计现有蛋白质以增强其功能,以及从头设计全新的功能性蛋白质。
此外,该综述还探讨了pLMs在抗体设计、酶设计和药物靶点发现等领域的应用潜力,并对该领域的未来发展方向进行了展望。
未来展望
LLM在计算蛋白质科学领域的应用前景广阔。随着模型的不断改进和数据的不断积累,pLMs有望在蛋白质结构预测、功能预测和蛋白质设计等领域发挥更大的作用,加速生物医药的研发进程,为人类健康做出更大的贡献。
参考文献:
Views: 0