正文:
随着生物科技的飞速发展,蛋白质工程作为合成生物学领域的重要研究方向,正逐渐成为推动生物药物、酶等设计的重要策略。近年来,人工智能(AI)在蛋白质工程中的应用日益广泛,为这一领域带来了新的突破。近日,微软研究院科学智能中心的研究人员提出了深度学习框架µFormer,为蛋白质工程领域注入了新的活力。
µFormer:深度学习助力蛋白质突变效应预测
蛋白质工程旨在设计具有所需功能和特性的蛋白质。为了实现这一目标,科学家们需要准确地将蛋白质序列映射到其相应的功能上,从而高效地搜索具有所需功能的序列。然而,在实验数据稀疏的情况下,基于数据驱动的模型往往难以做出合理的预测。
针对这一问题,微软研究院的研究人员提出了深度学习框架µFormer。该框架将预训练的蛋白质语言模型与定制设计的评分模块相结合,从而预测蛋白质的突变效应。µFormer在预测高阶突变体、建模上位(epistatic)相互作用和处理插入方面,实现了最先进的性能。
µFormer的工作原理如下:
-
预训练蛋白质语言模型:通过在大量未标记蛋白质序列数据集上预训练掩蔽蛋白质语言模型(PLM),使模型学会在给定蛋白质序列中其余残基的情况下预测目标位置上最可能的氨基酸。
-
定制设计的评分模块:µFormer包含三个基于学习的评分模块,分别捕捉蛋白质序列的单残基有效性、基序级模式和序列级语义。这三个模块结合输出,生成最终的适应度得分。
-
强化学习策略:µFormer与强化学习框架相结合,可以高效探索广阔的突变空间,涵盖数万亿个突变候选物,来设计活性增强的蛋白质变体。
研究成果发表在预印平台bioRxiv
相关研究成果以“Accelerating protein engineering with fitness landscape modeling and reinforcement learning”为题,发表在预印平台bioRxiv上。论文链接:https://doi.org/10.1101/2023.11.16.565910
µFormer的性能优势
实验结果表明,µFormer在适应度景观建模和突变效应预测方面表现出色,具有以下优势:
-
高效预测:µFormer在不同任务上的表现优于同类方法,平均Spearman相关性为0.703,在78个测试数据集中的48个上取得了最佳性能。
-
通用工具:µFormer对训练数据大小和同源序列号的变化不敏感,表明它是蛋白质突变效应预测的通用工具。
-
高活性突变体设计:通过使用µFormer和强化学习,研究人员设计了一种β-内酰胺酶,其活性比之前发现的最高突变(1000倍)高2000倍,可作为抵抗耐药性的预防措施。
未来展望
µFormer的成功为蛋白质工程领域带来了新的希望。随着深度学习模型的不断发展,可以预见,AI将在生物科技领域发挥越来越重要的作用。深度学习模型将进一步加速蛋白质适应度的研究,为生物药物设计、蛋白质疫苗优化和蛋白质工程等各个领域做出贡献。
结语
微软µFormer框架的提出,标志着AI在蛋白质工程领域的又一重要突破。这一创新技术将为生物科技领域带来更多可能性,助力人类探索生命的奥秘。
Views: 0