本⽂提出了⼀种基于YOLOv5s-BC的苹果检测实时检测⽅法。通过添加新的检测头并结合CA和 BiFPN模块优化YOLOv5s⽹络模型,可以有效提取⽬标苹果的图像特征,增强对较⼩⽬标苹果的 检测能⼒。详细结论总结如下。
YOLOv5-BC模型在测试集上的mAP性能达到88.7%,⽐YOLOv5s、YOLOv4、YOLOv3、SSD、 Faster R-CNN(ResNet50)和Faster R-CNN(VGG)模型分别提⾼了4.6%、3.6% %、 20.48%、23.22%、15.27% 和 15.59%。模型的权重⼤⼩仅为16.7 Mb,⽐原始YOLOv5s⼤3 Mb,但⽐YOLOv8、YOLOv4、YOLOv3、SSD、Faster R-CNN(ResNet)和Faster R-CNN (VGG)⼩4.7, 239.3、229.6、74.4、96.8 和 530.2 Mb。⼀张图像的检测仅需0.018秒,保证 了苹果检测的实时性要求。在热图中,向模型添加新的检测头可以检测较⼩⽬标中的苹果。另 外,加⼊CA机制使得模型更加关注和学习检测到的⽬标的⾼层信息,⽽抛弃其他不相关的信息。 在短距离和⻓距离的测试实验中,所提出的模型能够更完美地检测到所有⽬标,显⽰出模型良好 的鲁棒性。
⽬前的苹果检测算法⽆法准确区分被遮挡的苹果和可采摘的苹果,从⽽导致苹果采摘准确率较 低,误采或漏采的情况发⽣率很⾼。为了解决现有算法的相关问题,本研究提出了⼀种基于 YOLOv5s 的改进⽅法,称为 YOLOv5s-BC,⽤于实时苹果检测,其中引⼊了⼀系列修改。⾸先, 将协调注意(CA)块合并到主⼲模块中以构建新的主⼲⽹络。其次,颈部模块中原来的串联操作 被替换为双向特征⾦字塔⽹络(BiFPN)。最后,头部模块中添加了⼀个新的检测头,能够检测机 器⼈视野内更⼩、更远的⽬标。所提出的YOLOv5s-BC模型与多种⽬标检测算法进⾏了⽐较,包括 YOLOv5s、YOLOv4、YOLOv3、SSD、Faster R-CNN(ResNet50)和Faster R-CNN(VGG), 显着提升了4.6%、3.6%, mAP 分别为 20.48%、23.22%、15.27% 和 15.59%。所提出的模型的 检测精度也⽐原始YOLOv5s模型⼤⼤提⾼。该模型平均每张图像检测速度为0.018秒,权重⼤⼩仅 为16.7 Mb,⽐YOLOv8s⼩4.7 Mb,满⾜拣货机器⼈的实时性要求。此外,根据热图,我们提出的 模型可以更多地关注和学习⽬标苹果的⾼级特征,并且⽐原始的 YOLOv5s 模型更好地识别较⼩的 ⽬标苹果。然后,在其他苹果园测试中,该模型能够实时、正确地检测到可采摘的苹果,表现出 良好的泛化能⼒。值得注意的是,我们的模型可以为苹果采摘机器⼈在实时⽬标检测和采摘序列 规划⽅⾯提供技术⽀持。
目录
⼀、简介
苹果作为世界四⼤⽔果之⼀,富含多种维⽣素和矿物质,⼀直深受世界各地消费者的喜爱。据联 合国粮⻝及农业组织统计,全球⽔果产量中,苹果位列第⼆位,仅次于葡萄(贾等⼈,2020 )。然⽽,⼤多数苹果果实都是⼿⼯采摘的,这样的⽣产⽅法效率很低。此外,随着⼈⼝⽼龄化 和农村劳动⼒⼤量涌⼊城市,⽔果种植⾏业的劳动⼒成本也相应上升。所有这些因素都显着影响 着⽔果产品的市场竞争⼒。因此,实时⾼效采收苹果等⽔果,降低采收成本势在必⾏。基于机器 视觉的⽔果采摘机器⼈可以利⽤其信息感知来识别和采摘⽔果。从⽽提⾼效率、增加经济效益, 已成为智能农业装备的研究热点(吕等⼈,2022 )。但应⽤于农业的⽔果采摘机器⼈产品还很 少,且⼤多智能化程度较低,⼤规模应⽤的更少(周等⼈,2022 ,丰塔斯等⼈,2020 )。鉴于 上述情况,研究⽔果采摘机器⼈相关技术具有重要的现实意义。
在实验室内,研究了不同的⽔果收割机器⼈。尽管这些⽔果采摘机器⼈具有适合特定应⽤场景的 独特功能,但它们都依赖于相同的核⼼技术,例如稳定的移动平台、多传感器协作、先进的机器 视觉技术和灵活的运动控制。其中,机器视觉由于⼈⼯智能的快速发展⽽受到⾼度关注。多年 来,研究⼈员结合视觉技术对⽔果进⾏识别和定位,为⽔果采摘机器⼈提供技术⽀持。综合调查 显⽰,在机器视觉领域,⽬标检测算法凭借其检测精度⾼、易于部署等特点,具有巨⼤的增⻓潜 ⼒(赵等,2016 )。需要注意的是,主流的两阶段⽬标检测算法包括Faster R-CNN(任等⼈, 2017 ) 和 Mask R-CNN (他等⼈,2017 ),⽽⼀阶段⽬标检测算法是SSD(刘等⼈,2016 )和 YOLO(You Only Look Once)系列包括YOLOv3(雷德蒙和法哈迪,2018 ), YOLOv4 (博赫科夫 斯基等⼈,2020 ) 和 YOLOv5 (超解剂 )等。值得注意的是,两阶段⽬标检测算法⼀般检测精度 较⾼,但训练的模型较⼤,导致实际检测时检测速度较慢。相⽐之下,⼀阶段⽬标检测算法由于 模型参数少、检测速度快的优点越来越多地被⽤作⾸选解决⽅案。
下⾯重点讨论近三年来YOLO在农业上的应⽤。 YOLO系列由Redmon和他的同事⾸创,并在暗 ⽹上开发了版本YOLOv1、YOLOv2和YOLOv3(雷德蒙等⼈,2016 ,雷德蒙和法哈迪,2017 , 雷 德蒙和法哈迪,2018 )。从那时起,出现了许多迭代,并且博赫科夫斯基等⼈。 (2020) 继续在 暗⽹上进⾏构建并提出了 YOLOv4。与之前的版本不同,Ultralytics 使⽤ Pytorch 框架开发了 YOLOv5。 YOLOv5受到⻘睐研究⼈员对其易于部署和良好的检测性能表⽰赞赏。 YOLOv5有四种基本⽹络模型:YOLOv5s、 YOLOv5m、YOLOv5l和YOLOv5x。它们的特征图深度逐渐加深,模型参数依次增加。表格1 总结 了改进后的YOLOv5模型在农业领域的表现。在苹果检测⽅⾯,严等⼈。 (2021) 提出⼀种基于改 进的YOLOv5s算法的苹果采摘机器⼈光⽬标检测⽅法。瓶颈 Cross Stage Partial (CSP) 模块被重 新设计为瓶颈 CSP-2 模块。此外,将视觉注意机制⽹络中的挤压和激励模块插⼊到改进的主⼲⽹ 络中。平均检测准确率为86.75%。吕等⼈。 (2022) 提出了⼀种使⽤ YOLOv5s 算法检测果园苹果 ⽣⻓模式的视觉识别⽅法。作者将⽹络中的SiLU激活函数替换为ACON-C激活函数,在不牺牲实 时性能的情况下提⾼了算法的准确性。孙等⼈。 (2022) 提出了⼀种改进的轻量级苹果检测⽅法 YOLOv5-PRE,⽤于果园环境下的快速苹果产量检测,并在YOLOv5-PRE模型中引⼊ShuffleNet 和GhostNet轻量级结构以减⼩模型尺⼨。徐等⼈。 (2023) 提出了⼀种改进的YOLOv5苹果分级⽅ 法。 Mish激活函数取代了原来的YOLOv5激活函数,并且在YOLOv5主⼲中添加了squeeze激励 模块。改进后的YOLOv5算法在测试集下对苹果进⾏分级的平均准确率为90.6%。对于其他⽔果 和蔬菜的检测,姚等⼈。 (2021) 开发了⼀种基于 YOLOv5 的猕猴桃缺陷检测模型,称为 YOLOv5-Ours。所提出的模型通过将 SELayer 注意⼒嵌⼊到不同通道来添加⼩⽬标检测层。 YOLOv5-Ours的平均检测准确率达到94.7%。吴等⼈。 (2022) 通过增强损失函数构建了新的 YOLOv5-B模型。然后,通过利⽤边缘检测算法分割轴的轮廓来获得最佳截断点。实验表明,该 模型对⾹蕉多⽬标识别的平均检测准确率为93.2%。徐等⼈。 (2022) 提出了⼀种改进的基于 YOLOv5s 的花椒采摘机器⼈⽬标检测⽅法。在⻣⼲CBH模块的基础上提出了改进的CBF模块,并 提出了Spectre模块来替代瓶颈CSP模块。在NVIDIA Jetson TX2上进⾏的测试实验表明,平均推 理时间为0.072s。梁等⼈。 (2023) 开发了⽤于深秋芽识别的YOLOv5-SBiC算法。算法中引⼊了 变压器模块来加速⽹络收敛,使⽤注意⼒机制模块来帮助模型提取更多有⽤的信息。测试结果表 明,所提算法⽐原YOLOv5算法识别准确率提⾼4.0%,达到79.6%。在果蔬病⾍害检测领域,张 等⼈。 (2022) 提出了⼀种基于⽬标检测⽹络、特征提取和分类器来检测相邻⻨穗的新⽅法。该算 法在原有YOLOv5的基础上结合距离联动⾮极⼤值抑制,形成改进的YOLOv5⽬标检测⽹络,平均 检测精度为90.67%,检测时间为0.73ms。⻬等⼈。 (2022) 借鉴⼈类视觉注意⼒机制,通过在原 始YOLOv5⽹络框架中插⼊挤压刺激模块,实现了关键特征的提取。该模型在番茄病毒病测试集 上进⾏评估,平均检测准确率为94.10%。包等⼈。 (2023) 提出了⼀种基于DDMA-YOLO的⽆⼈ 机遥感⽅法来检测和监测茶叶枯萎病。
考虑到上述讨论,需要进⼀步开发具有轻量级模型的实时苹果检测⽅法。综合考察农业领域改进 的YOLO⽬标检测⽅法,现有的检测模型虽然⼤多具有较⾼的识别精度,但其复杂性、参数和硬 件要求的增加通常导致实时性较低。因此,有必要设计⼀种轻量级的实时苹果检测算法,在保证 识别精度的同时满⾜采摘机器⼈实时识别的要求。在本⽂中,我们提出了⼀种改进的基于 YOLOv5s的实时苹果检测⽅法,以克服当前苹果识别技术的局限性。⾸先,将CA块合并到⻣⼲ 模块中,构建新的⻣⼲⽹络。然后,在颈模块中,原来的串联操作已被替换为 BiFPN。此外,头 部模块中还添加了⼀个新颖的检测头,以发现视野内较⼩和较远的⽬标。值得注意的是,所提出 的模型可以在保证⾼识别速度的同时提⾼识别精度。
2. 数据采集与预处理
2.1 苹果图像采集
在这项研究中,数据集来⾃华盛顿州⽴⼤学农业⾃动化和机器⼈实验室,最初⽤于估计机器⼈收 割的产量(陆和杨,2020 )。为了获取数据集,实验室研究⼈员将图像传感器安装在机器⼈的 棱柱形⻰⻔后⾯。传感器与树⽊的距离接近1.5⽶。 图。1 显⽰数据集中从清晨到⻩昏的苹果图 像。在这项⼯作中,我们从原始数据集中提取了1750张苹果RGB图像作为新数据集,并按照 0.85:0.15的⽐例对该数据集进⾏了初步划分,其中1487张图像属于训练集,263张图像属于测试 集。两组之间没有重叠。
2.2 图像标注
利⽤标注软件(Labelimg)对采集后⼈眼可⻅的苹果图像进⾏分类标注,如图图2 。由于苹果园 环境复杂,将苹果图像分为可抓和不可抓两类,分别对应标签“苹果”和“块”。具体⽽⾔,苹 果根据以下标准进⾏分类:
2.3 图像增强
训练集的质量在决定卷积神经⽹络(CNN)模型准确识别苹果的能⼒⽅⾯起着关键作⽤。如果训 练集太⼩,可能会导致模型过度拟合,这可能会妨碍其在新的或未知环境中的性能。图像增强涉 及增强图像的视觉质量并增强其特定性通过应⽤⼀系列过程来实现功能。该⽅法可以有效扩⼤训练集的规模和多样性,提⾼CNN模型的 泛化能⼒。根据应⽤场景和数据特点选择具体的图像增强⽅法。我们根据⾃⼰的场景需求选择了 ⼋种数据增强⽅法。这些⽅法包括随机对⽐度、边缘增强、对⽐度限制⾃适应直⽅图均衡 (Clahe)、运动模糊、透视变换、添加椒盐噪声、最⼤池和改变⾊温(严等⼈,2021 )。这些 ⽅法从1487张图像的初始训练集中⽣成了总共11896张增强图像,因此新的训练集由13383张图 像组成。图3 说明了每个图像上使⽤的⼋种不同的图像增强⽅法。
3. ⽅法
3.1 YOLOv5
YOLOv5算法是⼀种单阶段⽬标检测算法,⽆需区域建议即可⽣成对象的类概率和位置坐标值。 它是农业研究⼈员中最流⾏的⽬标检测算法之⼀,其⽹络结构可分为四个模块:输⼊、⻣⼲、颈 部和头部。输⼊模块使⽤⻢赛克数据增强、⾃适应锚框计算和⾃适应图像缩放操作。这⻣⼲⽹络由焦点和跨阶段部分(CSP)结构组成。颈部模块采⽤特征⾦字塔⽹络(FPN)和路径 聚合⽹络(PAN)结构。 CIoU损失函数⽤作头部模块中边界框的损失函数。 由于YOLOv5s模型是YOLOv5官⽅ 提供的四个模型中参数最少的,符合轻量化的趋势,更容易部署在⽔果采摘机器⼈上,从⽽满⾜ 实时抓取的效果。因此,在本研究中,我们选择它作为研究对象。
3.2 CA块
注意⼒机制对于识别⽬标⾄关重要,因为它使模型能够专注于图像的关键部分,从⽽提⾼检测的 准确性和效率。侯等⼈。 (2021) 提出了⼀种将位置信息融⼊通道注意⼒的CA机制。更详细地 说,CA 将通道注意⼒分解为两个⼀维特征编码过程,分别沿两个空间⽅向聚合特征。这允许捕 获⼀个空间⽅向上的远程依赖性,同时在另⼀空间⽅向上保持准确的位置信息。然后,得到的特 征图分别被编码为⼀对⽅向感知和位置敏感的注意⼒图,它们可以互补地应⽤于输⼊特征图,以 增强感兴趣对象的表⽰。此外,CA还具有可移植性,可以灵活地嵌⼊到CNN中。综合考虑,我们 选择它作为本实验中引⼊ YOLOv5 ⽹络的注意⼒机制组件。 CA的具体操作分为2步:坐标信息嵌 ⼊和CA⽣成。图4 显⽰ CA 块的结构。
3.4 YOLOv5s-BC
在实际检测中,YOLOv5s算法可以检测到识别度较⾼的苹果。然⽽,由于果园内复杂环境的⼲扰 和影响,距离较远的⼩⽬标苹果通常会被算法忽略。考虑到被遮挡的苹果被误认为是⽬标,这导 致机器⼈⽆法通过正确估计苹果的位置和姿势来抓取苹果。因此,我们通过进⾏如下⼀些修改, 提出了⼀种改进的 YOLOv5s 算法,命名为 YOLOv5s-BC。
(i) CA 块在主⼲和颈部模块中实现。整合 主⼲中的CA机制增强了特征⾦字塔的表⽰能⼒和模型的抽象能⼒。在颈部加⼊CA机制,可以增 强特征⾦字塔的区分能⼒,帮助模型区分不同尺度的⽬标,提⾼对较⼩⽬标的检测能⼒。
(ii) 颈部模块引⼊了 BiFPN,它从主⼲⽹络接收特征图 各种规模。它通过融合多个层次的特征并调整⾃适应权重来构建更加稳定和精确的特征⾦字塔。 然后,颈部模块将这个特征⾦字塔发送到后续的检测头以检测⽬标。
(iii) 头部模块中加⼊了新的检测头以增强⽬标检测 表现 (朱等⼈,2021 )。添加该头可以利⽤⾼分辨率特征图来检测距离较远的较⼩⽬标,从⽽ 提⾼⽬标检测和定位的准确性。
3.5 模型评价指标
为了评估所建⽴模型的性能,本节讨论了⼏个指标。真阳性(TP)是指被正确分类的阳性样 本。真阴性(TN)是被准确识别的阴性样本。假阳性 (FP) 是被错误标记为阳性的阴性样本。当 阳性样本被错误地标记为阴性时,就会出现假阴性 (FN)。精确和记起定义于等式。(7) 和等式。 (8) , 分别。计算公式为准确性显⽰在等式。(9) 。F1 分数已成为统计学中常⽤的衡量标准 衡量分类模型的准确性,因为它结合了分类模型的精度和召回率。可以通过以下⽅式计算等式。
绘制精确率-召回率(PR)曲线,横坐标为召回率右纵坐标为准确率磷。这条曲线围成的⾯积就 是平均精度(AP)。的计算美联社是基于等式。
在图7(a) ,可以看出两个盒⼦没有相交,因此 IoU 值等于 0,不⾜以表明它们之间的距离。此 外,当损失等于零时,不存在梯度向后传递,因此不会发⽣学习进展。因此,IoU ⽆法提供其交 集的稳健表⽰。图7(b) 证明在两种情况下 IoU 保持相等,但是它们的重叠程度不同。为了解决 这个问题,最近提出了许多解决⽅案来增强 IoU 计算。在本研究中,我们采⽤原始的YOLOv5s 选择,即Complete IoU(CIoU)来计算框损失(Box Loss)。
CIoU损失的提出是考虑到边界框⻓宽⽐的⼀致性是⼀个重要的⼏何因素(郑等⼈,2020 )。α 是⼀个正权衡参数(参⻅等式。(13) ), ν是公制纵横⽐的相似度(参⻅等式。(14) ), 在哪⾥⼄ 和⼄GT表⽰中⼼点 地⾯实况框和预测框,距离(⋅)是欧⼏⾥得距离,并且⻓度(⋅)是个 覆盖两个盒⼦的最⼩封闭盒⼦的对⻆线⻓度。 CIoU 损失的计算公式为等式。
4 实验与讨论
4.1.实验装置
本实验中模型的训练和测试都是在服务器上完成的。服务器配置参数如下所⽰表2 。此外, YOLOv5s-BC⽹络采⽤随机梯度下降(SGD)作为优化器,具体超参数如图所⽰表3 。此外,模 型训练了 200 个 epoch,模型训练的批量⼤⼩设置为 16。默认情况下,输⼊图像的⼤⼩为 640 像素。上述训练参数得到后 确定后,就可以对模型进⾏相应的训练。
4.2 实验结果
4.2.1 不同⽬标检测算法对⽐
第⼀个策略(策略1)涉及将CA块添 加到⽹络中,对应于图中的YOLOv5s-CA曲线。第⼆种策略(策略2)融⼊了BiFPN的思想,在图 中表⽰为YOLOv5s-BiFPN曲线。第三种策略(策略3)结合了策略1和策略2,并进⼀步增加了⼀ 个新的检测头,如同图中的YOLOv5s-BC曲线所⽰。请注意,与原始 YOLOv5s 算法相⽐,仅将 策略 1 或策略 2 集成到 YOLOv5s ⽹络中可以获得更好的性能。我们提出的YOLOv5s-BC模型同 时利⽤了策略1和策略2的优点,测试结果表明它⽐其他模型具有更快的收敛速度和更⾼的检测精 度。这进⼀步证明了这些策略的灵活性和可转移性 融合多种策略的卓越性能。 通过与其他⼏种著名的⽬标检测模型(即 YOLOv8、YOLOv4、YOLOv3、SSD、Faster R-CNN (VGG) 和 Faster R-CNN (ResNet50))评估其性能,进⼀步测试了 YOLOv5s-BC 的功效。具体来 说,Faster R-CNN (VGG) 和 Faster R-CNN (ResNet50) 采⽤ VGG 和 ResNet50 作为各⾃的⻣⼲ ⽹络。所有⼋个模型均使⽤先前确定的相同训练数据集和参数进⾏训练。不同⽬标检测算法的训 练结果⻅表4 。结果表明,改进后的YOLOv5s-BC模型在测试集上达到了88.7%的mAP,⽐原始 YOLOv5s、YOLOv4、YOLOv3、SSD、Faster R-CNN (ResNet50)和Faster R-CNN (VGG)模型提 ⾼了4.6%分别为 3.6%、20.48%、23.22%、15.27% 和 15.59%。
另⼀⽅⾯,与原始YOLOv5s相⽐,YOLOv5s-BC模型的检测速度下降了37.57%。尽管如此,它 ⽐ YOLOv4、YOLOv3、SSD、Faster R-CNN (ResNet50) 和 Faster R-CNN (VGG) 有了显着的改 进,分别提⾼了 434%、331%、240%、201% 和 72%。这⼀观察结果凸显了⼀级⽬标检测算法 相对于两级⽬标检测算法的检测速度的优势。值得注意的是,为资源有限的移动设备设计的模型 需要轻量级。因此,模型参数的数量是评估模型性能的重要指标。由于嵌⼊了 CA 块并添加了新 的检测头,我们提出的模型中的⽹络层数和模型参数有所增加。值得注意的是,YOLOv5s-BC的 权重⽂件⽐原始YOLOv5s⼤了21.9%。然⽽,它⽐ YOLOv8、YOLOv4、YOLOv3、SSD、Faster R-CNN (ResNet) 和 Faster R-CNN (VGG) 分别⼩ 4.7、239.3、229.6、74.4、96.8 和 530.2 Mb。 综上所述,虽然我们提出的⽅法在检测速度和模型参数数量⽅⾯略逊于原始YOLOv5s模型,但在 检测精度⽅⾯⾼于原始YOLOv5s模型。与其他⽬标检测算法相⽐,我们提出的模型的整体性能也 是最⾼的。
PR 曲线图10 通过将预测结果与不同阈值下的真实标签进⾏⽐较来描述所提出模型的性能。当不同 类别⽬标的 PR 曲线更接近右上⻆时,模型被认为表现更好。具体来说,表5 显⽰所提出模型的 PR 曲线和 F1 值,同时表6 说明了所提出的模型在测试集上执⾏时的准确性。对于可采摘苹果类别, F1 为 91.6%。对于不可采摘的苹果类别,F1 为 77.0%。这是由于叶⼦或重叠的苹果的存在遮挡了 它们,使得模型难以学习复杂的⾼级特征。整体F1达到84.32%,是这些算法中得分最⾼的。对于 可抓取的苹果类别,检测准确率达到99.8%;对于不可抓取的苹果类别,检测准确率达到 98.55%。这表明我们的模型在测试集上没有过拟合,并且可以很好地检测新的苹果图像。此外, 该模型在视频检测过程中实现了超过55 FPS的检测速度,在实时检测中展现了出⾊的识别精度和 效率。因此,我们的模型满⾜移动部署的标准要求。
4.2.2 苹果检测模型的进⼀步测试
经过上述实验,我们确定YOLOv5s-BC模型综合性能最优,满⾜实时检测苹果的前提条件。 为了进⼀步评估其识别苹果形态属性的准确性,检测层的特征图以热图的形式展⽰。我们选择测 试集中的第1328号图⽚作为显⽰图像,进⾏YOLOv5s-BC和YOLOv5s模型的对⽐实验。图11 图 解了 YOLOv5s 和 YOLOv5s-BC 在最⼩检测层的热图。 YOLOv5s-BC 模型包括⼀个新的预测头, 以增强对可能被树叶隐藏或位于远处的较⼩物体的识别。中⼩尺度的检测结果表明,YOLOv5s模 型仅提供⽬标位置的粗略指⽰,其中包括树叶和树枝等不必要的信息。相⽐之下,我们提出的模 型可以更准确地识别⽬标,同时避免合并叶⼦和树枝等不相关的细节,尤其是在中⼩尺度上。这 是由于CA机制使模型能够更好地关注图像中最相关的部分,从⽽提⾼整体检测精度。
为了进⼀步测试所提出模型的泛化性,从不同的苹果园捕获了新图像,如图12 。通过短距离测 试(参⻅图12(a) ),模型准确地检测到了⼏乎所有的苹果,甚⾄那些被树叶或树枝遮挡的苹果 也被正确识别为块类别。此外,在⻓距离测试中,模型的检测也表现良好。如图所⽰图12(b) , 它可以检测整棵树上所有可采摘和不可采摘的苹果。这两个测试进⼀步证明我们的模型可以很好 地检测不同苹果园中的⽬标苹果,并且具有良好的泛化性和鲁棒性。
5、结论
本⽂提出了⼀种基于YOLOv5s-BC的苹果检测实时检测⽅法。通过添加新的检测头并结合CA和 BiFPN模块优化YOLOv5s⽹络模型,可以有效提取⽬标苹果的图像特征,增强对较⼩⽬标苹果的 检测能⼒。详细结论总结如下。
YOLOv5-BC模型在测试集上的mAP性能达到88.7%,⽐YOLOv5s、YOLOv4、YOLOv3、SSD、 Faster R-CNN(ResNet50)和Faster R-CNN(VGG)模型分别提⾼了4.6%、3.6% %、 20.48%、23.22%、15.27% 和 15.59%。模型的权重⼤⼩仅为16.7 Mb,⽐原始YOLOv5s⼤3 Mb,但⽐YOLOv8、YOLOv4、YOLOv3、SSD、Faster R-CNN(ResNet)和Faster R-CNN (VGG)⼩4.7, 239.3、229.6、74.4、96.8 和 530.2 Mb。⼀张图像的检测仅需0.018秒,保证 了苹果检测的实时性要求。在热图中,向模型添加新的检测头可以检测较⼩⽬标中的苹果。另 外,加⼊CA机制使得模型更加关注和学习检测到的⽬标的⾼层信息,⽽抛弃其他不相关的信息。 在短距离和⻓距离的测试实验中,所提出的模型能够更完美地检测到所有⽬标,显⽰出模型良好 的鲁棒性。
标签:4.6%,YOLOv5,检测,模型,准确率,CNN,苹果,YOLOv5s From: https://blog.csdn.net/m0_68036862/article/details/139283307