Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京 – 在基因组学研究领域,解码和预测DNA序列一直是科学家们面临的重大挑战。近日,阿里云飞天实验室的AI for Science团队发布了一款名为GENERator的全新生成式DNA大模型,为解决这一难题带来了新的希望。

这款基于Transformer解码器架构的基因组基础模型,拥有12亿参数和高达98k碱基对(bp)的上下文长度,能够精准捕捉复杂且连续的基因结构,打破了以往基因组分析的“碎片化”局限。更重要的是,GENERator具备跨物种的泛化能力,其训练数据涵盖了3860亿bp的真核生物DNA数据,覆盖范围从酵母到人类,从启动子到蛋白编码,适用于广泛的基因组分析任务。

GENERator的核心优势在于其不仅能够“理解”DNA的语义,更能“创造”具有功能性的DNA序列,堪称“生命语言的GPT”。在性能方面,GENERator在多项benchmark指标中表现出色,与姊妹模型GENERanno并列,以绝对优势登顶SOTA。

研究团队还展示了GENERator的两大核心应用:

  • 蛋白家族定制: GENERator能够生成可翻译成真实蛋白质的DNA序列,并成功再造了组蛋白/P450家族的全新变体。通过微调模型,GENERator能够稳定生成编码蛋白质的DNA序列,其长度分布与天然家族高度一致。通过AlphaFold3预测生成蛋白质的三维结构,并与蛋白质数据库(PDB)进行比对,结果显示生成蛋白质的构象与已知结构高度相似,表明GENERator真正掌握了蛋白质设计的核心规律,能够生成具有生物学意义的新分子。
  • 启动子设计: GENERator能够根据简单指令设计高/低活性基因开关,为合成生物学和基因工程提供了新的工具。研究团队基于DeepSTARR的启动子活性数据,对GENERator进行微调,开发了一款启动子活性预测器,其准确率超越了DeepSTARR和NT-multi。更重要的是,GENERator能够根据简单的指令(如或)生成具有特定活性分布的启动子序列,展现了其在基因表达调控中的强大潜力。

研究团队在论文中还讨论了多种DNA预训练策略。他们认为,由于自然进化的随机性,生物DNA序列中存在大量“噪音”和“冗余”。因此,GENERator采用了“基因序列训练”策略,专注于承载了DNA核心语义信息的功能性区域,显著提升了模型在下游任务中的表现。此外,论文实验指出,对于Causal Language Model的训练任务,6-mer分词器相较于BPE或单核酸分词器,在生成任务中表现更优,能够有效提升模型训练和生成的稳定性。

GENERator的成功不仅在于其技术突破,更在于其为基因组学研究带来的深远影响。阿里云飞天实验室AI for Science团队表示,未来将进一步扩展模型的应用范围,包括开发针对原核生物和病毒基因组的版本,以及探索其在基因注释和临床基因组学中的应用。通过将序列生成能力与特定治疗目标相结合,GENERator有望在精准医疗和生物技术干预中发挥关键作用。

“曾经基因编辑就像在黑暗中拼乐高,我们希望GENERator能在这黑暗中点燃一根蜡烛,”研究团队表示,“后续,我们将推进数据、代码、和模型权重的全面开源。我们站在巨人的肩膀上迈出了一小步,也希望GENERator的烛光能照亮更多人的路。用AI重新定义生命科学,这仅仅是个开始!”

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注