2024年9月20日
北京——近日,来自清华大学的研究团队在分子性质预测领域取得重大突破,他们开发了一种名为分数去噪(Fractional denoising,简称Frad)的分子预训练框架,该框架在原子、分子和复合物级性质预测上展现出卓越性能,相关研究成果已发表在国际顶级期刊《Nature Machine Intelligence》上。
分子性质预测是药物发现和材料设计等领域的核心任务,传统方法如第一性原理计算和湿实验室实验虽然准确,但成本高昂且效率低下。近年来,科学家们开始探索深度学习方法,以期降低预测成本并加速筛选过程。然而,深度学习分子性质预测方法面临着一个主要难题——标记分子数据的稀缺性,这限制了模型的训练效果。
为了解决这一难题,清华大学的研究团队提出了一种新的自监督分子预训练方法——Frad。Frad通过引入化学感知噪声(CAN)和坐标高斯噪声(CGN)的混合噪声,不仅保留了分子的基本化学特性和物理原理,还允许噪声自定义,从而显著改善了分子分布建模。实验结果表明,Frad在力预测、量子化学特性和结合亲和力任务中,均取得了最先进的预测结果,其改进的噪声设计提高了力准确性和采样覆盖范围,创建了物理一致的分子表示。
Frad框架的核心在于,给定一个平衡分子构象,通过添加化学感知噪声和坐标高斯噪声的混合噪声,训练模型从噪声构象中预测CGN。这种“分数去噪”方法,不仅保留了力学习的解释,还通过化学先验的引入,优化了分子分布建模,从而在预测分子性质方面展现出卓越的性能。
在原子级力预测、分子级量子化学性质预测和蛋白质-配体复合物级结合亲和力预测等下游任务上,Frad均表现出色,不仅超越了现有预训练方法,还显著提高了未标记数据的利用效率,展现了其在分子性质预测领域的巨大潜力。
未来,研究团队计划进一步增加预训练数据量,以期在整体性能上取得更大突破。Frad的开发为分子性质预测提供了一种新的解决方案,有望加速药物发现和材料设计的进程,为相关领域的科学研究带来深远影响。
相关链接:
- 论文链接:https://www.nature.com/articles/s42256-024-00900-z
编辑注:
Frad预训练框架的提出,标志着分子性质预测领域的一次重要进步。通过结合化学先验和深度学习技术,Frad不仅提高了预测的准确性,还展示了在不同任务上的广泛适用性,为分子性质预测提供了新的思路和方法。随着预训练数据量的增加,Frad的潜力将进一步得到释放,有望在药物发现和材料设计等应用中发挥更大的作用。
Views: 0