精准预测RNA可变剪接,浙大多模态深度学习模型SpTransformer登Nature子刊
引言
人类基因组中约90%的基因会发生可变剪接,这种转录后调控机制赋予了生物体多样性和蛋白质多功能性。然而,可变剪接的组织特异性一直是研究的难点。现有算法无法精准预测组织特异性可变剪接,这限制了我们对遗传变异的解读和疾病机制的理解。近日,浙江大学良渚实验室沈宁/刘志红课题组开发了基于Transformer架构的多模态深度学习模型SpliceTransformer,为解决这一难题提供了新的思路。
SpliceTransformer:基于Transformer的计算架构
SpliceTransformer模型基于GTEx人体组织RNA-seq数据和额外的哺乳动物组织RNA-seq数据训练,从多个数据集中学习可变剪接相关的序列特征。模型使用one-hot编码的pre-mRNA序列作为输入,经过卷积编码器处理后,通过一个8层包含自注意力模块的Transformer网络,输出多标签分类结果。
创新点
SpliceTransformer模型在以下方面进行了创新:
- 长序列上下文信息处理: 模型可以处理9000nt~15000nt的超长序列,并结合卷积编码和Sparse Sinkhorn Attention稀疏注意力算法,有效地处理了传统Transformer模型在处理超长序列时无法承受显存开销的问题。
- 多标签分类: 模型可以同时预测序列中存在的可变剪接位点,并为每个位点进行多标签分类,预测位点在15个主要人体组织中是否会被使用到。
- 可解释性: 研究者通过可视化分析模型考虑不同序列元件的权重,发现SpliceTransformer模型可以成功发现远端序列调控元件对可变剪接的影响。
预测疾病相关的组织特异性可变剪接
研究者应用SpliceTransformer预测单核苷酸突变(SNV)对组织特异性剪接的影响,并通过计算突变前后序列的剪接分数差异,将突变对目标区域可变剪接的影响量化为ΔSplice分数。
研究结果
研究结果表明:
- SpliceTransformer模型在预测可变剪接方面明显优于已有算法,并创新地实现了对组织特异性剪接的预测。
- 模型可以成功发现远端序列调控元件对可变剪接的影响,并识别出影响组织特异性剪接的突变及其富集的基因。
- 模型可以将大量原本标注为效果未知的突变注释为影响可变剪接,一定程度上填补了突变效应注释的空白。
结论
SpliceTransformer模型的开发为精准预测RNA可变剪接提供了新的工具,为解析组织特异性剪接变异相关的疾病提供了新的见解。该模型的应用将有助于加深我们对遗传变异的解读,并为疾病相关遗传变异提供基于可变剪接机制的全新见解。
参考文献
- SpliceTransformer predicts tissue-specific splicing linked to human diseases. Nature Communications, 2024. https://www.nature.com/articles/s41467-024-53088-6
未来展望
SpliceTransformer模型的开发为可变剪接研究开辟了新的方向。未来,该模型可以进一步应用于以下领域:
- 探索不同组织特异性可变剪接的机制,揭示其在细胞功能和疾病发生发展中的作用。
- 开发基于SpliceTransformer模型的药物靶点筛选和个性化治疗方案。
- 推动可变剪接研究的进一步发展,促进人类对生命现象的理解。
Views: 0