北京,[当前日期] – 在科学研究的道路上,寻找能够描述自然现象的规律性方程一直是核心目标。然而,在材料、化学等依赖实验的学科中,由于变量众多、过程复杂,传统理论推导往往难以建立明确的关系。近日,北京大学深圳研究生院、宁波东方理工大学(暂名)等机构的研究团队取得突破性进展,他们结合自动化实验平台与人工智能算法,首次成功从实验数据中挖掘出了物质分离过程中色谱关系的显式数学公式。
这项研究成果于2025年1月19日发表在《自然·通讯》(Nature Communications)上,标志着“AI for Science”领域的一项重要进展。研究团队提出了一种全新的知识发现技术,建立了可解释的公式,将化学家的经验转化为“人工智能经验”,为色谱分离实验条件的确定与优化提供了理论支持。
挑战与背景:从专家经验到“AI经验”
长期以来,化学家在进行色谱分离实验时,依赖于经验和试错,难以系统阐释背后的多尺度耦合机理。例如,在柱色谱实验中,研究人员通常先通过薄层色谱(TLC)测定混合物的保留因子(RF 值),并据此调整流动相的组成与比例。这种方法虽然有效,但缺乏理论指导,存在“知其然而不知其所以然”的现象。
为了构建真正的“AI科学家”,必须实现对实验数据的自动化分析与显式公式的推导。然而,这面临着诸多挑战:如何对多变量、多尺度的实验数据进行通用化建模?如何实现跨实验数据的精准对齐与融合?如何提高可解释性,为研究者提供透明可信的推理过程?
AI驱动的知识发现
为了解决上述问题,研究团队设计了一套完整的数据驱动框架。他们首先开发了高通量自动化TLC和CC实验平台,通过精准控制实验条件生成大规模数据集。该平台实现了样品加载、溶剂配制、色谱分离、吸光度检测和结果分析的全流程自动化,大幅减少了人工干预可能带来的误差。研究团队在自动化平台上测量了192种化合物的RF值,并在不同实验条件下记录了5984条柱色谱数据点。
为了消除不同实验来源的数据差异,研究团队引入了代理模型(surrogate model),利用神经网络将TLC和CC数据点关联起来,实现跨实验数据的精准对齐与融合。这些代理模型通过复杂的高维特征建模,预测了未观察到的实验数据。
此外,研究团队使用符号回归(symbolic regression)技术,从模型预测中提取了显式数学公式,并采用树结构以表征化合物性质的影响,提高可解释性。这些公式揭示了RF值与柱层析保留体积之间的反比例关系,并通过统计验证了其高拟合精度(R² 值超过 0.88)。
重要发现与意义
与传统机器学习模型不同的是,这些公式具备高度的可解释性,能够直观地展示实验变量之间的关系。例如,研究发现,RF 值与保留体积的关系不仅受溶剂比例的影响,还与化合物的分子结构紧密相关。这种定量化的规律性公式为化学家优化实验条件提供了科学依据。
研究团队进一步分析了这些公式的推广性与泛化性,成功地将它们应用于不同规格的色谱柱。通过迁移学习校正公式系数,可以将适用于 4 克色谱柱的公式推广至 25 克柱和串联柱。
应用价值与未来展望
这项研究的直接应用价值在于显著提升了化学分离实验的效率和可靠性。传统上,研究人员需要通过多次试错来确定最佳分离条件,而这种数据驱动的知识发现方法能够将经验体系化、公式化,从而提高实验效率和可靠性。
该研究为“AI for Science”领域开辟了新的方向,展示了人工智能在科学发现中的巨大潜力。未来,研究团队将继续探索如何利用人工智能解决更多科学难题,推动科学研究的进步。
参考文献
- 该研究成果于2025年1月19日发表在《自然·通讯》(Nature Communications)上。 (具体引用信息待补充)
致谢
感谢北京大学深圳研究生院、宁波东方理工大学(暂名)等机构的研究团队为本文提供的资料和信息。
作者声明
本文作者为资深新闻记者和编辑,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等新闻媒体。本文力求客观、准确地报道相关研究成果,并对相关信息进行了核实。
Views: 0