YOLOv8改进策略|智慧医疗案例|YOLOv8脊椎骨折检测，在骨折检测方面实现了 96% 的平均精度 (mAP)

标签：mAP 检测模型分类 YOLOv8 颈椎图像 CNN

颈椎⻣折构成严重的医疗紧急情况，如果不及时治疗或未发现，可能会导致终⾝瘫痪甚⾄死亡。随着时间的推移，如果不进⾏⼲预，这些⻣折可能会恶化。为了解决缺乏深度学习技术在脊柱⻣折检测实际应⽤⽅⾯的研究，本研究利⽤包含颈椎⻣折和⾮⻣折计算机断层扫描图像的数据集。本⽂介绍了⼀种两级管道，旨在识别每个图像切⽚中颈椎的存在并查明⻣折的位置。在第⼀阶段，训练⼀个包含图像和图像元数据的多输⼊⽹络。该⽹络基于 Global Context Vision Transformer，其性能以流⾏的深度学习图像分类模型为基准。在第⼆阶段，训练 YOLOv8 模型来检测图像内的裂缝，并将其有效性与 YOLOv5 进⾏⽐较。实验结果表明，该算法显着减轻了放射科医⽣的⼯作量，提⾼了⻣折检测的准确性。

1 简介

颈部是脊柱的⼀部分，是贯穿⾝体⼤部分的⻓⽽灵活的结构。颈椎或颈部区域由七块称为椎⻣的⻣头组成，这些⻣头被椎间盘分开，如图 1 所⽰。第三⾄第六颈椎显⽰出⼏乎相同的特征，因此被认为是该区域的典型特征。上部两块颈椎、寰椎（C1）、轴（C2）和第七颈椎（C7）不典型。典型的颈椎（C3 ⾄ C6）具有由相对致密且坚固的⽪质壳制成的⼩矩形体。 C1的主要功能是⽀撑头部。 (C2) 有⼀个⼜⼤⼜⾼的⾝体，作为向上突出的巢⽳的基础。突出椎⻣（C7）是所有颈椎中最⼤的，具有胸椎的许多特征[1]。

颈椎⻣折 (CSFx) 是⼀种严重损伤，由于脊髓、头部与脊柱交接处的颅底以及颈部⾎管受损，可能导致死亡或严重残疾。如果脊柱不稳定，会对脊髓施加压⼒并造成进⼀步的损伤[2]。过去⼗年中新发脊髓损伤的发⽣率保持不变，为每 100 万⼈中有 26.5 例[3]。脊髓损伤是年轻⼈和劳动⼈⺠残疾的主要原因，对个⼈和社会都有重⼤影响。因此，快速识别和稳定 CSFx 以防⽌进⼀步残疾⾮常重要。年轻男性最容易遭受脊髓损伤，最常⻅的原因是交通事故、跌倒、袭击和体育活动[4]。对疑似胸腰椎损伤患者的初步评估包括临床评估，包括彻底的神经系统检查和诊断成像。成像测试包括传统的前后和左右 X 射线、计算机断层扫描 (CT) 扫描和磁共振成像 (MRI) 扫描 [5]。快速检测和精确定位椎⻣⻣折对于防⽌创伤事件后神经功能恶化和瘫痪⾄关重要。采⽤深度学习为实现这⼀⽬标提供了⼀种有价值的⽅法。深度学习（DL）是⼈⼯智能（AI）的⼀种，近年来在放射学领域得到⼴泛应⽤。 DL 已被⽤于开发针对不同⾝体部位的射线照⽚的⾃动⻣折检测系统。随着计算机视觉模型、深度学习和⽆处不在的医疗数据的兴起，现在可以开发出可以帮助过度劳累的医务⼈员的系统。深度学习实现的更快诊断可以防⽌终⾝残疾，在某些情况下甚⾄可以防⽌死亡。深度学习还可⽤于分析 CT 扫描，由于⼆维切⽚数量众多，⼈类很难进⾏导航 [6]。⼏项研究探索了深度学习和计算机视觉算法在检测颈椎⻣折中的应⽤[7, 8]。例如，[9]中提出了⼀种具有双向⻓短期记忆（Bi-LSTM）层的深度卷积神经⽹络，⽤于⾃动断裂检测，并在不同数据集上实现了 79.18% 的分类准确率。 [10] 中对视觉变换器 (ViT) 的使⽤进⾏了探索，发现 ViT 在检测颈椎⻣折⽅⾯优于传统的卷积神经⽹络 (CNN)，准确率⾼达 98%。这项⼯作[11]重点是使⽤深度学习模型将颈椎损伤分类为⻣折或脱位，实现⾼精度、敏感性、特异性和精确度值。这项⼯作 [12] 利⽤深度学习进⾏颈椎⻣折⾃动检测，通过⾃定义层和数据增强进⾏⼴泛的模型优化，并开发可部署的智能⼿机应⽤程序。此外，⼀些研究主要集中在椎⻣的分割上。他们采⽤了 U-Net [13] 等技术，要么采⽤ 2D 形式，将脊柱图像的各个切⽚处理为⽹络的单独输⼊ [14, 15]，要么采⽤ 3D 变体，其中来⾃多切⽚图像的 3D 图像块作为输⼊，并训练 3D U-Net [16, 17]。

2 材料与⽅法

本节概述本研究中⽤于颈椎⻣折分类和检测的深度学习模型。本⽂档的后续部分对这些概念进⾏了深⼊讨论。

2.1 卷积神经⽹络

CNN 是⼀种深度学习模型，专⻔⽤于处理具有⽹格状拓扑的数据（例如图像）。 CNN 通常由⼀系列层组成，包括卷积层、池化层和全连接层。

卷积层是 CNN 架构中最重要的层。它负责通过使⽤⼀系列过滤器从输⼊图像中提取特征。每个滤波器都是⼀个⼩的权重矩阵，应⽤于输⼊图像的⼀个⼩区域。卷积层的输出是特征图，它是表⽰从输⼊图像中提取的特征的值矩阵。池化层负责减⼩卷积层⽣成的特征图的空间⼤⼩。这是通过对每个特征图应⽤池化函数来完成的。池化函数通常采⽤特征图的⼀⼩部分区域并将其减少到单个值。最常⻅的池化函数是最⼤池化和平均池化。全连接层是 CNN 架构中的最后⼀层。它负责做出最终的预测，例如对图像进⾏分类或检测图像中的对象。全连接层是传统的神经⽹络层，意味着该层中的每个神经元都与前⼀层中的每个神经元连接[18, 19]。

CNN 在图像处理领域具有⼏个显着的优势。值得注意的是，CNN 将权重共享、稀疏连接和局部感受野作为整体设计原则。权重共享有助于在输⼊图像的空间维度上共享权重，减少可训练参数的数量，从⽽提⾼效率并减轻过度拟合。稀疏连接确保层内的每个神经元仅与前⼀层中有限的神经元⼦集保持连接，从⽽进⼀步提⾼效率并减少过度拟合问题。此外，CNN 采⽤局部感受野，将每个神经元的响应限制在输⼊图像的⼀⼩部分局部区域，从⽽增强对图像内噪声和变化的鲁棒性。这些基本特征共同提⾼了 CNN 在图像分析和分类任务中的功效 [18, 19]。

各种 CNN 架构在推进计算机视觉任务⽅⾯发挥了关键作⽤。 VGGNet [20]、ResNet [21]、DenseNet [22] 和 ConvNeXt [23] 在 ImageNet 的⼴泛图像集合上进⾏训练，在图像分类⽅⾯始终表现出⾊。迁移学习是⼀种在新任务中重⽤预先训练的模型的技术，对这些成功产⽣了深远的影响。它提供了⼀种在标记数据有限时有效训练 CNN 的解决⽅案，使模型能够利⽤初始任务期间获得的先验知识。这种⽅法不仅节省了时间，⽽且还通过利⽤学习到的特征来提⾼性能[19]。

总体⽽⾔，CNN 已被证明在⼴泛的计算机视觉任务中⾮常有效，包括图像分类、对象检测和图像分割。

2.2 愿景

3 结果

⽹络的评估在多标签分类任务的背景下利⽤多个指标。具体来说，本研究中采⽤的评估指标包括宏 F1、精确匹配⽐ (EMR) 和覆盖误差。这些指标是使⽤ Scikit-learn 库 [33] 计算的。 Macro F1-score 是⽤于评估多标签分类模型性能的指标。它计算所有标签的平均 F1 分数，提供⼀个单⼀值来反映模型同时平衡多个类别的精确度和召回率的能⼒。 F1 分数是精确率和召回率的调和平均值，它同时考虑了误报和漏报。对于每个标签，它衡量模型正确识别真阳性同时最⼤限度地减少假阳性和假阴性的程度。然后，宏 F1 分数计算这些特定于标签的 F1 分数的平均值，从⽽对模型在所有标签上的整体分类性能进⾏综合评估。公式 1 描述了计算 Macro F1 分数的公式。

颈椎多标签分类的结果证明了各种神经⽹络模型的性能。所提出的⽹络的 MacroF1 得分为 0.96，精确匹配率为 0.95，与其他模型（包括 ViT、Convext、InceptionV3、ResNet152V2 和 Swin Transformer）相⽐，显⽰出有希望的结果。表 2 显⽰了所提出⽹络的分类报告，说明了其在多标签颈椎分类⽅⾯的强⼤性能。该⽹络在所有七个类别（C1 ⾄ C7）中均实现了⾼精度（0.97 ⾄ 1.00）、召回率（0.93 ⾄ 0.98）和 F1 分数（0.95 ⾄ 0.99），表明其在正确识别椎⻣⽅⾯的有效性。微观、宏观和加权平均值均约为 0.97，显⽰出整体表现⼀致。图 6 还显⽰了所提出⽹络的损失图，显⽰了在 25 个训练周期中持续下降的趋势。

4.讨论

本⽂提出了⼀个两步流程，旨在检测单个图像切⽚内的颈椎并定位⻣折。在初始阶段，包括图像数据和相关图像元数据的多输⼊⽹络接受训练。该⽹络基于 Global Context Vision Transformer 架构构建，并根据性能进⾏评估，并与众所周知的深度学习图像分类模型进⾏⽐较。在后续阶段，专⻔训练 YOLOv8 模型⽤于图像中的断裂检测，并相对于 YOLOv5 评估其性能。

所提出的⽹络的显着优势之⼀是其较低的覆盖误差，为 1.26。这表明与其他⼀些模型相⽐，它预测的不必要标签更少，例如覆盖误差为 1.41 的 ViT 和覆盖误差为 1.35 的 Conveext。这种较低的覆盖误差表明所提出的⽹络产⽣更精确的结果，这对于该特定分类任务来说是⼀个显着的优势。

不利的⼀⾯是，重要的是要考虑所提出的⽹络中相对较多的不可训练参数（14,683,998）。⾼不可训练参数计数可能会导致内存和计算需求增加，从⽽可能限制其在资源受限环境中的实⽤性。

总体⽽⾔，所提出的⽹络在颈椎分类⽅⾯表现出强⼤的性能，具有有竞争⼒的 MacroF1 分数、⾼精确匹配率以及在覆盖误差⽅⾯的显着优势。然⽽，⼤量不可训练的参数是某些部署场景需要解决的潜在缺点。在确定所提出的⽹络对特定应⽤的适⽤性时，仔细考虑精度和模型复杂性之间的权衡⾄关重要。

对于基于结果的断裂检测，很明显YOLOv8的性能优于YOLOv5。这是⼀个显着的改进，特别是考虑到 YOLOv8 也⽐ YOLOv5 更快。此外，虽然 YOLOv8m 有更多参数，但 YOLOV8s 的 mAP50 更⾼⼀些。另⼀⽅⾯，YOLOv8m 具有更⾼的 mAP50-95。很明显，YOLOv8s 表现出了将图像正确分类为“正常”的强⼤能⼒，有 194 个真阳性，只有 6 个假阴性，如图 9 所⽰。

然⽽，当将图像分类为“⻣折”时，它往往会犯更多错误，如 97 个误报和 1347 个真阳性所⽰。这可以归因于医学图像分析的性质，其中遗漏“⻣折”的成本（误报）负⽚）可能⽐将“正常”图像错误分类为“⻣折”（误报）要⾼得多。另⼀⽅⾯，YOLOv8m 表现出类似的趋势，但与 YOLOv8s 相⽐，性能略有提⾼。它正确分类了 192 个“正常”图像和 1353 个“⻣折”图像。然⽽，它仍然会出现⼀些错误，“正常”有 8 个误报，“⻣折”有 91 个误报。该模型似乎在两个类别的精度和召回率之间取得了更好的平衡，表明分类性能更稳健。

5 结论

该研究引⼊了利⽤深度学习模型的两阶段流程，⽤于对椎⻣进⾏分类和检测颈椎⻣折。第⼀阶段将多输⼊⽹络与全局上下⽂视觉变换器 (GCViT) 结合起来进⾏椎⻣分类，⽽第⼆阶段则采⽤ YOLOv8 进⾏⻣折检测。随后将结果与现有的基于深度学习的图像分类模型进⾏⽐较，产⽣了值得注意的结果。所提出的架构展⽰了其功效，在椎⻣分类⽅⾯实现了值得称赞的 96% Macro F1 准确率，在⻣折检测⽅⾯实现了 96% 的平均精度 (mAP)。

就未来的研究⽅向⽽⾔，值得探索分割模型的潜在整合，以进⼀步提⾼颈椎⻣折识别的精度。这种分割模型可以促进颈部区域内不同解剖结构的描绘，最终完善诊断过程。

总之，本研究的重点是研究医学图像诊断，特别是颈椎⻣折的早期和准确识别。这项研究中引⼊的两阶段⽅法有望改善严重医疗伤害的管理并减轻放射科医⽣的负担。

标签：mAP,检测,模型,分类,YOLOv8,颈椎,图像,CNN
From： https://blog.csdn.net/m0_68036862/article/details/139284593