湖南大学突破性研究:分子视频基础模型VideoMol开启药物发现新纪元
引言: 想象一下,能够像观看电影一样“观看”分子的动态变化,从而预测其特性和潜在药效。这不再是科幻,湖南大学的研究团队近期在《NatureCommunications》上发表的论文,展示了他们开发的基于分子视频的基础模型VideoMol,将分子表征从静态“图像”提升至动态“视频”,为药物发现领域带来革命性突破。这项研究利用1.2亿帧、200万个分子的视频数据,实现了前所未有的精度和效率。
主体:
两年前,湖南大学团队推出的ImageMol模型,利用深度学习从分子图像中学习分子结构,已展现出显著的潜力。然而,静态图像无法捕捉分子的动态特性。VideoMol的出现,正是为了弥补这一缺陷。该模型将分子视为动态的“视频”,通过捕捉分子构象的动态变化,更全面地理解其物理化学性质。
VideoMol的创新之处在于以下几个方面:
-
三维动态表征: 不同于ImageMol仅使用二维图像信息,VideoMol利用三维像素信息,更精准地捕捉分子的空间结构和动态变化。这如同从平面照片升级到3D动态影像,信息量大幅提升。
-
基于视频的预训练: VideoMol在1.2亿帧、200万个未标记的类药物分子和生物活性分子视频上进行预训练,充分利用海量数据学习分子表征。这相当于让模型“观看”了大量的分子“电影”,积累了丰富的经验。 相比ImageMol基于图的学习方法,VideoMol的预训练策略更加高效和全面。
*多指纹信息融合: VideoMol整合了21个分子指纹信息,远超ImageMol的单个MACCS键指纹,进一步丰富了模型对分子特征的理解。这如同从单一视角观察升级到多角度观察,更全面地了解分子特性。
VideoMol的架构巧妙地结合了图像表征学习、视频表征学习和多视角表征学习等技术。研究人员利用动态感知和物理化学感知,以无监督的方式从分子3D动态视频中学习分子表征。 模型通过视频编码器提取潜在特征,并采用三种预训练策略优化表示,最终在下游任务中进行微调,以提高模型性能。 此外,VideoMol还通过梯度加权类激活映射(Grad-CAM)实现了良好的可解释性,能够可视化分子视频对预测结果的贡献。
在四个关键任务——化合物激酶结合活性预测、配体-GPCR结合活性预测、抗SARS-CoV-2活性预测和分子特性预测——中,VideoMol均表现出优于现有最先进方法的性能,平均精度提升高达38.1%。 更重要的是,VideoMol成功识别了四个已知人类靶标(BACE1、COX-1、COX-2和EP4)的新型配体-受体相互作用,并在虚拟筛选任务中展现出高精度,与已有的临床和实验数据高度一致。
结论:
VideoMol的出现标志着分子表征学习进入了一个新的时代。将分子视为动态视频,并利用视频处理技术进行分析,为药物发现提供了前所未有的机遇。 这项研究不仅在技术上取得了重大突破,也为加速药物研发进程,降低研发成本,最终造福人类健康,提供了强有力的工具。 未来,VideoMol有望进一步扩展应用范围,例如用于预测药物毒性、设计新型药物分子等,为新药研发注入新的活力。 这项研究也为其他科学领域,例如材料科学和生物物理学,提供了新的思路和方法。
参考文献:
A molecular video-derived foundation model for scientific drug discovery
Views: 0