Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

香港,2025年2月7日 – 蛋白质,作为生命的基本组成单元,在生物体内执行着新陈代谢、信号传导、免疫反应等关键功能。随着生命科学的深入发展,理解蛋白质的序列、结构与功能之间的复杂关系,成为了科学家们面临的一项重大挑战。近日,香港理工大学等机构的研究团队发布了一篇系统性综述,详细阐述了大型语言模型(LLM)在计算蛋白质科学领域的最新进展,为AI和生物学研究者提供了重要的参考。

这篇发表在预印本平台arXiv上的论文(https://arxiv.org/pdf/2501.10282)指出,研究人员正积极利用LLM技术,开发蛋白质语言模型(pLMs),以期破解蛋白质的“语言密码”,并将其应用于序列-结构-功能推理等问题。

蛋白质科学的“序列-结构-功能”范式

蛋白质的功能与其三维结构密切相关,而蛋白质的结构又由其氨基酸序列决定。这一“序列-结构-功能”范式是理解蛋白质行为的基础。然而,由于蛋白质结构预测的复杂性和实验成本,大量已知的蛋白质序列仍然缺乏结构信息,这极大地限制了我们对蛋白质功能的理解。

pLMs:连接序列、结构与功能的桥梁

pLMs的出现为解决这一难题带来了新的希望。这些模型通过学习大量的蛋白质序列数据,能够捕捉氨基酸之间的相互作用,并预测蛋白质的结构和功能。

该综述将现有的pLMs分为三类:

  • 基于序列的模型: 这类模型直接从氨基酸序列中学习,捕捉序列模式和隐含的结构、功能信息。根据输入数据的不同,又可分为基于单序列和基于多序列的模型。
  • 结构与功能增强的模型: 这类模型在序列信息的基础上,进一步整合蛋白质的结构和功能数据,以增强模型对蛋白质的理解。
  • 多模态模型: 这类模型不仅关注蛋白质本身的语义,还整合了自然语言、化学分子语言等外部信息,以更全面地理解蛋白质。

pLMs的应用与潜力

该综述重点介绍了pLMs在蛋白质结构预测、功能预测和蛋白质设计中的应用。

  • 蛋白质结构预测: AlphaFold2和RoseTTAFold等基于深度学习的方法,在蛋白质结构预测方面取得了突破性进展,能够在数分钟内预测出高精度的蛋白质结构。
  • 蛋白质功能预测: pLMs能够学习蛋白质的功能信息,并将其应用于蛋白质功能预测任务,尤其是在数据稀缺的情况下,能够显著提高预测性能。
  • 蛋白质设计: pLMs可以用于设计具有特定功能的蛋白质,包括重新设计现有蛋白质以增强其功能,以及从头设计全新的功能性蛋白质。

此外,该综述还探讨了pLMs在抗体设计、酶设计和药物靶点发现等领域的应用潜力,并对该领域的未来发展方向进行了展望。

未来展望

LLM在计算蛋白质科学领域的应用前景广阔。随着模型的不断改进和数据的不断积累,pLMs有望在蛋白质结构预测、功能预测和蛋白质设计等领域发挥更大的作用,加速生物医药的研发进程,为人类健康做出更大的贡献。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注