超强DNA大模型问世，生命密码设计迎来新纪元

北京 – 在基因组学研究领域，解码和预测DNA序列一直是科学家们面临的重大挑战。近日，阿里云飞天实验室的AI for Science团队发布了一款名为GENERator的全新生成式DNA大模型，为解决这一难题带来了新的希望。

这款基于Transformer解码器架构的基因组基础模型，拥有12亿参数和高达98k碱基对（bp）的上下文长度，能够精准捕捉复杂且连续的基因结构，打破了以往基因组分析的“碎片化”局限。更重要的是，GENERator具备跨物种的泛化能力，其训练数据涵盖了3860亿bp的真核生物DNA数据，覆盖范围从酵母到人类，从启动子到蛋白编码，适用于广泛的基因组分析任务。

GENERator的核心优势在于其不仅能够“理解”DNA的语义，更能“创造”具有功能性的DNA序列，堪称“生命语言的GPT”。在性能方面，GENERator在多项benchmark指标中表现出色，与姊妹模型GENERanno并列，以绝对优势登顶SOTA。

研究团队还展示了GENERator的两大核心应用：

蛋白家族定制： GENERator能够生成可翻译成真实蛋白质的DNA序列，并成功再造了组蛋白/P450家族的全新变体。通过微调模型，GENERator能够稳定生成编码蛋白质的DNA序列，其长度分布与天然家族高度一致。通过AlphaFold3预测生成蛋白质的三维结构，并与蛋白质数据库（PDB）进行比对，结果显示生成蛋白质的构象与已知结构高度相似，表明GENERator真正掌握了蛋白质设计的核心规律，能够生成具有生物学意义的新分子。
启动子设计： GENERator能够根据简单指令设计高/低活性基因开关，为合成生物学和基因工程提供了新的工具。研究团队基于DeepSTARR的启动子活性数据，对GENERator进行微调，开发了一款启动子活性预测器，其准确率超越了DeepSTARR和NT-multi。更重要的是，GENERator能够根据简单的指令（如或）生成具有特定活性分布的启动子序列，展现了其在基因表达调控中的强大潜力。

研究团队在论文中还讨论了多种DNA预训练策略。他们认为，由于自然进化的随机性，生物DNA序列中存在大量“噪音”和“冗余”。因此，GENERator采用了“基因序列训练”策略，专注于承载了DNA核心语义信息的功能性区域，显著提升了模型在下游任务中的表现。此外，论文实验指出，对于Causal Language Model的训练任务，6-mer分词器相较于BPE或单核酸分词器，在生成任务中表现更优，能够有效提升模型训练和生成的稳定性。

GENERator的成功不仅在于其技术突破，更在于其为基因组学研究带来的深远影响。阿里云飞天实验室AI for Science团队表示，未来将进一步扩展模型的应用范围，包括开发针对原核生物和病毒基因组的版本，以及探索其在基因注释和临床基因组学中的应用。通过将序列生成能力与特定治疗目标相结合，GENERator有望在精准医疗和生物技术干预中发挥关键作用。

“曾经基因编辑就像在黑暗中拼乐高，我们希望GENERator能在这黑暗中点燃一根蜡烛，”研究团队表示，“后续，我们将推进数据、代码、和模型权重的全面开源。我们站在巨人的肩膀上迈出了一小步，也希望GENERator的烛光能照亮更多人的路。用AI重新定义生命科学，这仅仅是个开始！”

参考文献：

GENERator论文：https://arxiv.org/abs/2502.07272
项目主页：https://generteam.github.io/

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

超强DNA大模型问世，生命密码设计迎来新纪元

作者智能小编

相关文章

Gemini 2.5升级！挑战Veo 2，AI视频大战爆发

Gemini 2.5 震撼登场：Pro、Flash 与优化器齐发！

人形机器人：资本狂涌，亿元融资成常态

发表回复取消回复

为您推荐