北京 – 在基因组学研究领域,解码和预测DNA序列一直是科学家们面临的重大挑战。近日,阿里云飞天实验室的AI for Science团队发布了一款名为GENERator的全新生成式DNA大模型,为解决这一难题带来了新的希望。
这款基于Transformer解码器架构的基因组基础模型,拥有12亿参数和高达98k碱基对(bp)的上下文长度,能够精准捕捉复杂且连续的基因结构,打破了以往基因组分析的“碎片化”局限。更重要的是,GENERator具备跨物种的泛化能力,其训练数据涵盖了3860亿bp的真核生物DNA数据,覆盖范围从酵母到人类,从启动子到蛋白编码,适用于广泛的基因组分析任务。
GENERator的核心优势在于其不仅能够“理解”DNA的语义,更能“创造”具有功能性的DNA序列,堪称“生命语言的GPT”。在性能方面,GENERator在多项benchmark指标中表现出色,与姊妹模型GENERanno并列,以绝对优势登顶SOTA。
研究团队还展示了GENERator的两大核心应用:
- 蛋白家族定制: GENERator能够生成可翻译成真实蛋白质的DNA序列,并成功再造了组蛋白/P450家族的全新变体。通过微调模型,GENERator能够稳定生成编码蛋白质的DNA序列,其长度分布与天然家族高度一致。通过AlphaFold3预测生成蛋白质的三维结构,并与蛋白质数据库(PDB)进行比对,结果显示生成蛋白质的构象与已知结构高度相似,表明GENERator真正掌握了蛋白质设计的核心规律,能够生成具有生物学意义的新分子。
- 启动子设计: GENERator能够根据简单指令设计高/低活性基因开关,为合成生物学和基因工程提供了新的工具。研究团队基于DeepSTARR的启动子活性数据,对GENERator进行微调,开发了一款启动子活性预测器,其准确率超越了DeepSTARR和NT-multi。更重要的是,GENERator能够根据简单的指令(如或)生成具有特定活性分布的启动子序列,展现了其在基因表达调控中的强大潜力。
研究团队在论文中还讨论了多种DNA预训练策略。他们认为,由于自然进化的随机性,生物DNA序列中存在大量“噪音”和“冗余”。因此,GENERator采用了“基因序列训练”策略,专注于承载了DNA核心语义信息的功能性区域,显著提升了模型在下游任务中的表现。此外,论文实验指出,对于Causal Language Model的训练任务,6-mer分词器相较于BPE或单核酸分词器,在生成任务中表现更优,能够有效提升模型训练和生成的稳定性。
GENERator的成功不仅在于其技术突破,更在于其为基因组学研究带来的深远影响。阿里云飞天实验室AI for Science团队表示,未来将进一步扩展模型的应用范围,包括开发针对原核生物和病毒基因组的版本,以及探索其在基因注释和临床基因组学中的应用。通过将序列生成能力与特定治疗目标相结合,GENERator有望在精准医疗和生物技术干预中发挥关键作用。
“曾经基因编辑就像在黑暗中拼乐高,我们希望GENERator能在这黑暗中点燃一根蜡烛,”研究团队表示,“后续,我们将推进数据、代码、和模型权重的全面开源。我们站在巨人的肩膀上迈出了一小步,也希望GENERator的烛光能照亮更多人的路。用AI重新定义生命科学,这仅仅是个开始!”
参考文献:
- GENERator论文:https://arxiv.org/abs/2502.07272
- 项目主页:https://generteam.github.io/
Views: 0