山大团队突破！99%准确率基因数据分类新方法问世

基因数据分类新突破：山东大学团队提出基于对比学习的 DNASimCLR方法

深度神经网络的快速发展极大地提升了从微生物序列数据中提取特征的能力，为解决生物学难题提供了新的途径。然而，标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的挑战。为了克服这些困难，山东大学的研究人员提出了一种名为 DNASimCLR 的无监督框架，专门用于高效提取基因序列数据的特征。

DNASimCLR结合了卷积神经网络和基于对比学习的 SimCLR 框架，能够从不同的微生物基因序列中提取复杂的特征。该框架在两个大型未标记数据集（宏基因组和病毒基因序列）上进行了预训练，并在后续分类任务中通过微调预训练模型来执行。DNASimCLR 的多功能性使其在处理新基因序列或以前未见过的基因序列时表现出色，使其成为基因组学领域各种应用的宝贵工具。这项研究成果于 2024 年 10 月 14 日发表在《BMC Bioinformatics》期刊上，论文标题为「DNASimCLR: a contrastive learning-based deep learning approach for gene sequence data classification」。

当前，即使是最全面的微生物基因数据库也存在数据和标签缺失的问题，这严重限制了监督式深度学习方法的有效性。 为了解决这一问题，山东大学的研究团队针对微生物基因序列数据的表征学习问题，提出了一种基于对比学习的神经网络特征提取方法。

DNASimCLR 的工作流程主要包括两个阶段：对比学习的预训练阶段和分类网络的微调阶段。 在预训练阶段，研究人员使用 One-Hot 编码方法将未标记的原始 DNA 基因序列数据转换为适合机器学习的格式。然后，对 One-Hot 编码数据进行随机掩码处理，生成训练数据集。在此阶段，研究人员采用 SimCLR 框架模型来获取未标记序列的向量表示。通过对比学习，将基因序列嵌入到固定维度的高维空间中。在微调阶段，利用预训练阶段得到的特征提取模型，对标注数据采用不进行掩蔽操作的 One-Hot 编码方法进行编码。研究人员继续进行分类预测的训练，最终得到一个能够确定 DNA 序列类别的分类网络。

在性能评估方面，该团队对不同来源的基因组数据库进行了测试。 研究人员用 DNASimCLR 对不同长度（250 bp、500 bp、1000 bp、1300 bp 和 10,000 bp）的读段序列进行了分类和短序列病毒宿主预测，实现了 99% 的显著分类准确率，实现了显著的准确性提升。

这项研究的意义是多方面的：

首次将对比学习应用到微生物基因序列数据的表征学习中，发展了一种新的针对基因数据的数据处理方法，突破了传统 SimCLR 方法仅适用于图像数据的局限性，拓展了对比学习的应用领域。
该研究提出的微生物基因序列数据分类器在性能上表现出了大幅的提升，为卷积神经网络方法在处理生物数据方面的发展开辟了新的机遇。
由于预训练阶段和分类阶段的分离，该方法可以轻松应用于其他基因组学问题，例如蛋白质功能预测和新病毒检测。

总之，DNASimCLR 代表了利用自监督学习模型进行微生物基因序列特征提取的先进探索。 这种方法有可能在生物信息学领域引入创新概念，提供通过卷积神经网络获取生物序列特征的途径。

论文链接： https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05955-8

这项研究为基因数据分析领域带来了新的突破，为更深入地理解微生物基因组和开发更精准的生物技术提供了重要的理论基础和技术支撑。 相信随着技术的不断发展，DNASimCLR方法将会在生物信息学领域发挥更大的作用，推动生命科学研究的进步。

>>> Read more <<<