“`markdown
无需训练即可定制分子生成:TFG-Flow框架引领AI驱动的科学发现新范式
北京,[日期] – 在药物研发和材料科学领域,定向设计具有特定性质的分子一直是一项极具挑战性的任务。近日,北京大学、卡耐基梅隆大学、斯坦福大学等机构的研究团队联合推出了一种名为TFG-Flow的全新多模态引导框架,该框架无需额外训练,即可实现对分子的高效定制生成,为AI驱动的科学发现开辟了新的道路。相关研究成果已被国际顶级学术会议ICLR 2025接收。
传统方法的局限与TFG-Flow的突破
传统分子设计方法往往依赖于大量的实验试错,成本高昂且效率低下。近年来,生成式AI模型在分子设计领域展现出巨大的潜力,但现有方法仍然面临两大瓶颈:
- 多模态数据处理难题: 分子数据包含离散的原子类型(如碳、氧、氮)和连续的3D坐标,传统模型难以有效处理这种混合数据类型。
- 定向生成成本高昂: 针对特定性质的分子设计通常需要对模型进行额外训练,耗费大量计算资源。
TFG-Flow框架的出现,正是为了解决上述难题。该框架的核心创新在于其无需额外训练,即可实现对分子多模态数据的定向生成,极大地降低了计算成本,并拓展了AI在科学领域的应用范围。
TFG-Flow如何突破多模态引导的核心挑战?
分子可以被视为由离散的原子类型和连续的3D坐标构成的多模态数据。TFG-Flow通过创新性的双路径设计攻克了现有生成模型在引导这类数据时面临的两大难题:
-
维度灾难: 离散变量的组合空间随原子数量呈指数增长,传统方法计算代价高昂。TFG-Flow采用蒙特卡洛重要性采样,将计算复杂度从指数级降至对数级。
-
几何不变性: 由连续变量刻画的分子的3D结构需满足旋转、平移不变性,普通梯度引导会破坏这一特性。TFG-Flow引入旋转等变图神经网络(EGNN),确保坐标变换不影响分子性质。
实验结果:全方位超越基线模型
研究团队在QM9、GEOM-Drug等分子数据集上进行了系统验证,结果表明TFG-Flow在多个任务中均表现出色:
-
量子属性精准匹配: 以极化率(α)、偶极矩(μ)等6种量子属性为目标,TFG-Flow的平均绝对误差(MAE)相比当前最优的无训练(training-free)引导方法降低20.3%,性能甚至逼近需要专门训练的条件生成模型。
-
结构相似性优化: 当以特定分子子结构为引导目标时,TFG-Flow将生成分子与目标结构的Tanimoto相似度提升了76.8%(QM9数据集)和22.4%(GEOM-Drug数据集),展现出精准的结构控制能力。
-
药物分子设计实战: 在CrossDocked2020数据集上,TFG-Flow生成的分子与蛋白质靶点的结合能(Vina Score)达到-7.65,优于主流方法Pocket2Mol(-7.23)和TargetDiff(-7.32),且分子合成可行性(SA Score)保持合理水平。
技术亮点:高效且通用
TFG-Flow的核心优势体现在两大技术创新:
-
理论保障下的高效采样: 针对离散变量,研究团队提出基于重要性采样的近似方法。理论分析表明,提出的估计方法具有相合性等优良性质,且相比传统方法能够指数级降低计算量。实验观察发现这一方法仅需16次采样即可高精度估计转移概率。
-
即插即用的预训练模型兼容: 不同于需要从头训练的传统方法,TFG-Flow可直接调用预训练分子模型(如UniMol)作为目标预测器。实验表明,使用UniMol时TFG-Flow的MAE进一步降低,与专业训练模型EEGSDE的差距显著缩小。
开启分子设计新范式
TFG-Flow的价值不仅在于技术突破,更在于其方法论创新:
- 降低成本: 无需针对每个新目标重新训练模型,计算资源消耗大大降低。
- 拓展应用: 框架可迁移至蛋白质设计、材料发现等需处理多模态数据的科学领域。
- 促进协作: 开源代码允许化学家直接引入领域知识定义目标函数。
未来展望
研究团队表示,未来将探索更大规模的基础模型与TFG-Flow的结合,进一步释放AI在科学发现中的潜力。正如审稿人评价:“这项工作为生成模型在科学计算中的应用树立了新标杆。”
论文地址: https://arxiv.org/abs/2501.14216
代码开源: https://github.com/linhaowei1/TFG-Flow
参考文献:
- Lin, H., Li, S., & Yang, Y. (2025). TFG-Flow: Training-Free Guidance Flow for Multi-Modal Molecular Generation. ICLR 2025.
关于研究团队:
- 林昊苇是北京大学人工智能研究院二年级博士生,导师为梁一韬教授和马剑竹教授。
- 黎善达是卡耐基梅隆大学机器学习系三年级的博士生,导师为Yiming Yang教授和Ameet Talwalkar教授。
关键词: 分子生成,AI for Science,多模态数据,深度学习,ICLR 2025
“`
Views: 0