南农、国防科大等联合发布显微图像分类AI新方法,准确率高达87.6%
机器之心报道
近年来,医学显微图像分类(MIC)领域取得了长足进步,基于卷积神经网络(CNN)和Transformer的模型被广泛应用。然而,CNN在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力;而Transformer则受到二次计算复杂性的制约。为了解决这些挑战,来自南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的联合研究团队提出了一种名为Microscopic-Mamba的新型架构,该模型在多个公共数据集上取得了优异的性能,准确率高达87.6%。
Microscopic-Mamba模型的核心在于其双分支结构,由用于局部特征提取的卷积分支和用于全局特征建模的状态空间模型(SSM)分支组成。该模型还引入了调制交互特征聚合(MIFA)模块,旨在有效融合全局特征和局部特征。
具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最后一层线性层,增强了Mamba的局部特征提取能力。此外,研究人员提出了调制交互特征聚合(MIFA)模块,使模型可以有效地调制和动态聚合全局和局部特征。他们还采用了并行VSSM机制,以改善通道间信息交互,同时减少参数数量。
研究人员用五个公共医学图像数据集对Microscopic-Mamba模型进行了广泛的测试,均表现出了优异的性能。这些数据集包括视网膜色素上皮(RPE)细胞数据集、用于疟疾细胞分类的SARS数据集、用于结直肠息肉分类的MHIST数据集、用于肿瘤组织分类的MedFM Colon数据集,以及包含超过236,386张人类肾细胞图像的TissueMNIST数据集。
在RPE数据集上,Microscopic-Mamba实现了87.60%的总体准确率(OA)和98.28%的曲线下面积(AUC),优于现有方法。该模型的轻量级设计,在某些任务上仅有4.49GMAC和110万个参数,确保它可以部署在计算资源有限的环境中,同时保持高精度。
消融研究表明,引入MIFA模块和PSFFN对模型的成功至关重要。将这两个元素结合起来,可显著提高所有数据集的性能。在MHIST数据集上,该模型仅用486万个参数就实现了99.56%的AUC,凸显了其在医学图像分类中的效率和有效性。
Microscopic-Mamba模型的成功,标志着医学图像分类领域取得了新的突破。该模型能够处理和整合局部和全局特征,非常适合进行显微图像分析,有望成为自动化医疗诊断的标准工具,从而简化流程并提高疾病识别的准确性。
论文链接:
https://arxiv.org/pdf/2409.07896v1
相关内容:
Views: 0