一种基于SCConv轻量化改进YOLOv8模型的谷物流量检测方法

一种基于SCConv轻量化改进YOLOv8模型的谷物流量检测方法实质审查发明

技术领域

[0001] 本申请实施例涉及基于特定计算系统的图像检测技术领域，尤其涉及一种基于SCConv轻量化改进YOLOv8模型的谷物流量检测方法。

具体实施方式

[0032] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0033] 需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

[0034] 在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

[0035] 提供本申请涉及的术语解释：

[0036] YOLOv8是YOLO系列最新的算法，也是目前单阶段目标检测算法中性能最优的算法。YOLOv8采用了深度卷积神经网络，将目标检测任务转换为端到端的回归问题，同时预测输入图像的类别和边界框。YOLOv8的结构如图1所示，可大致分为两部分：Backbone和Head。

[0037] Backbone部分：

[0038] A.卷积层P1:是一个基础的卷积层，用于对输入图像进行初步的特征提取。

[0039] B.c2f结构:对应"CSP Bottleneck with 2convolutions"，为Backbone提供了中间的特征提取能力。从图1中可以看到，c2f结构在P1至P5的每个阶段都出现，代表在每个尺度上都会有特征的提取和重整。它由卷积层(conv)、分离层(spilt)和Bottleneck×N(N次应用Bottleneck结构)组成。

[0040] C.卷积层P2，P3，P4，P5：这些卷积层在特定的步骤中进一步提取特征，这些层可能与不同的特征图尺寸对应，提取不同级别的特征。

[0041] D.SPPF：SPPF是空间金字塔池化结构，通常在卷积网络中用于捕捉多尺度信息。

[0042] Head部分：

[0043] a.c2f与卷积操作：在Head部分，可以看到c2f结构与其他卷积层结合，用于生成更丰富和细化的特征图。

[0044] b.Concat与Upsample：这两个操作用于融合不同层级的特征图并调整其尺寸，这在多尺度目标检测中非常重要。

[0045] c.Detect：最终的检测操作，负责产生目标的边界框、分类得分等。其包含Box Loss&Cls Loss，其中Box Loss处理边界框的回归问题，Cls Loss处理分类问题。

[0046] 鉴于检测目标是谷物颗粒等小目标物体，结合YOLOv8的结构和功能，本申请可以总结其不足之处如下：

[0047] 小尺度目标检测：尽管YOLOv8在多尺度目标检测方面表现出色，但对于谷物颗粒等小目标，其检测能力仍然存在局限。在实际应用过程中，对谷物颗粒这种小目标的检测至关重要。

[0048] 在众多实际应用场景中，当收获机进行收获作业或实验台运作时，谷物颗粒之间常常发生重叠现象。这一状况往往会对传统目标检测模型构成挑战，因其易受干扰，从而导致检测精度的降低。鉴于谷物流量检测通常需在边缘端即时完成，模型的轻量化设计不仅促进了其在边缘端的便捷部署，还提升了运算效率，确保了检测工作的实时性与准确性。

[0049] 为方便本领域技术人员理解本申请实施例提供的技术方案，下面对相关技术进行说明，具体如下：

[0050] 针对上述缺陷，本申请实施例中提供了一种基于SCConv轻量化改进YOLOv8模型的谷物流量检测方法，如图2所示，包括：

[0051] 基于SCConv对YOLOv8模型进行改进：在原有YOLOv8模型基础上，使用SCConv卷积模块替换原先的c2f卷积模块，同时在原先检测头的基础上增加一个专门处理检测小目标物体的小目标检测头。

[0052] 如图2所示，在原有YOLOv8模型基础上，针对所使用的实际情况，对模型进行了一些结构上的改进，使用了SCConv轻量化模型的同时并且增加了一个小目标检测头，提高了对谷物颗粒等小目标的检测精度。

[0053] 如图3所示为SCConv的结构示意图，SCConv由两个单元组成，空间重建单元(SRU)和通道重建单元(CRU)，以顺序的方式放置。具体而言，对于瓶颈残差块中的中间输入特征X，我们首先通过SRU运算获得空间细化特征Xw，然后利用CRU运算获得信道细化特征Y。我们在SCConv模块中利用了特征之间的空间冗余和通道冗余，可以无缝集成到任何CNN架构中，以减少中间特征映射之间的冗余并增强CNN的特征表示。

[0054] 如图4所示，本申请中采用基于SCConv轻量化改进YOLOv8模型的谷物流量检测方法，包括：

[0055] S1、图像预处理：对输入图像执行以下预处理操作：调整图像大小、归一化和数据增强。

[0056] 具体来说，当输入为尺寸640×640的特征图时，模型接收到图像输入后，首先对图像进行一系列预处理步骤，包括调整图像大小、归一化(例如，将像素值缩放到0到1之间)，以及数据增强(如翻转、旋转、缩放等)，以适应模型的输入维度并提高模型的泛化能力。

[0057] S2、主干网络特征提取：对预处理后的图像输入主干网络中提取出图像的空间和语义信息。

[0058] 基于SCConv改进后的YOLOv8模型中利用深度卷积网络提取图像的基础特征，这些特征逐步提取出图像的空间和语义信息，同时减少数据的维度，使模型能够提取到多层次的图像特征。

[0059] S3、聚合、融合操作：利用特征金字塔网络FPN和路径聚合网络PAN对不同尺度的特征图进行聚合和融合。

[0060] FPN从深层次到浅层次聚合特征，而PAN从浅层次到深层次聚合特征，确保不同层次的特征图能够捕捉图像中多尺度目标的细节。改进前后的差异点：在添加小目标检测头后，FPN和PAN的设计会更注重高分辨率的特征图，因为这些特征图更适合用于小目标检测。相比之前未添加小目标检测头的YOLOv8模型，这种多尺度特征图的聚合方式会针对性地为小目标提供更细粒度的特征信息。

[0061] S4、小目标物体检测：利用新增的小目标检测头处理高分辨率特征图，获得更多局部图像信息，捕捉小目标物体。

[0062] 在原有的检测头之外，添加了一个小目标检测头，专门用于处理高分辨率特征图。这一小目标检测头直接连接高分辨率的特征图(例如，来自PAN的高分辨率特征层)，以更好地识别小目标的特征信息。改进前后的差异点：未添加小目标检测头的YOLOv8通常采用三个检测头，分别用于大、中、小三个尺度的目标检测。然而，这里的“小”尺度检测头通常无法捕捉到更小的物体特征。添加小目标检测头后，模型可以利用更高分辨率的特征层，更专注于检测小物体，增强了模型在复杂背景下识别小物体的能力。

[0063] S5、多尺度边界框预测和分类：利用模型中的每个检测头根据所接收的特征图预测物体的边界框位置、大小和类别。

[0064] 小目标检测头会特别关注小尺度特征图上的物体信息，生成更细致的预测。改进前后的差异点：与之前的YOLOv8模型相比，新增的小目标检测头增强了模型在小目标检测上的预测能力，尤其是在目标分类和边界框回归时表现更为准确。这一改进主要体现在小目标检测头专门处理的小尺度目标上，大大减少了漏检和误检的情况。

[0065] S6、非极大值抑制操作：对来自每个检测头的检测结果执行非极大值抑制(Non‑Maximum Suppression,NMS)操作，去除重叠或冗余的检测框，最终保留置信度较高的框作为最终结果。

[0066] NMS会综合考虑大目标、中等目标以及小目标的检测结果，筛选出最优的预测框。改进前后的差异点：由于添加了小目标检测头，模型会产生更多的小目标检测框，这样在执行NMS时，需要进一步优化以避免小目标之间的冗余检测。这种改进可以减少因小目标密集而产生的误检和重叠检测框的数量。

[0067] S7、检测结果输出：将新增的小目标检测头所贡献的检测结果将与原始检测头的结果结合在一起输出最终检测结果，包括包括每个目标的类别、边界框坐标和置信度。

[0068] 经过NMS后，模型会输出最终的检测结果，包括每个目标的类别、边界框坐标、置信度等信息。新增的小目标检测头所贡献的检测结果将与原始检测头的结果结合在一起，确保大目标和小目标的检测均衡。改进前后的差异点：在未添加小目标检测头的YOLOv8模型中，若图像中有大量小目标，模型可能无法准确检测这些小目标。而添加小目标检测头后，模型在输出检测结果时能更好地涵盖小目标，尤其是在复杂背景或小目标密集的情况下，提供更全面的检测结果。

[0069] S8、谷物流量计算：使用ByteTrack算法对检测到的谷物颗粒进行追踪与计数，从而计算出谷物流量。

[0070] ByteTrack算法是一种创新的多目标跟踪(Multiple Object Tracking，MOT)系统，以其高效的算法优化和简洁的设计，在视频跟踪领域展现出显著优势。ByteTrack采用TBD(Tracking By Detection)方法，即每一帧都需要进行检测，然后通过卡尔曼滤波器预测每一条轨迹在当前帧的位置。这种方法结合了检测与跟踪的优势，提高了跟踪的准确性和鲁棒性。ByteTrack使用了卡尔曼滤波器，它负责预测轨迹在当前帧可能出现的位置。通过predict函数进行位置预测，并通过update函数根据预测位置和配对的检测框对卡尔曼参数进行调整，ByteTrack通过独特的关联检测框技术，实现了更快更准确的对象追踪，它能够正确地关联不同帧间相同目标的检测框，即使在复杂多变的环境中也能保持稳定的跟踪效果。

[0071] 具体工作流程是：读取当前目标检测帧的位置和各检测帧图像块的深度特征。根据帧的置信度对帧进行滤波，去除置信度低的帧和特征。随后对检测帧进行非极值抑制，消除一个目标的多帧。利用卡尔曼滤波预测目标在当前帧中的位置。

[0072] 追踪器一般都是和目标检测网络结合实现多目标的追踪功能。如图5所示为目标检测器和ByteTrack结合实现物体追踪的原理。通过对检测到的谷物颗粒进行追踪与计数，从而能够计算出谷物的流量。

[0073] 本申请实施例中，YOLOv8继承了YOLO系列的特点，具有高效的特征提取能力和多尺度特征融合。通常情况下，YOLOv8会在不同尺度上进行检测，通常会有三个检测头，用于处理大、中、小不同尺度的目标。但对于非常小的目标，例如，当处理小目标谷物颗粒图像识别问题时，面临谷物颗粒直径在4～7mm范围内、低像素覆盖率等问题。此外，输入图像尺寸对小目标谷物颗粒识别也产生了干扰，因为过大的图像会导致缩放，使小目标的识别更加困难。因此，这三个尺度可能仍然不足以有效捕捉，为了应对这些挑战，对YOLOv8网络进行优化，并添加一个专门处理小目标的更精细的检测头。小目标通常在图像中占据很小的像素面积，容易被高层特征图上的大范围特征所淹没。通过在浅层特征图上添加一个额外的检测头，可以利用更多局部信息，从而提高小目标的检测精度。这个检测头将在更细的特征图(即分辨率更高的特征图)上进行检测，以便更好地捕捉小目标。这个预测头将允许网络更加关注像素值较小的谷物颗粒实例，从而提高小目标谷物颗粒识别的准确性。

[0074] 针对谷物颗粒重叠导致模型检测效果失真的问题，本申请使用了MPDIOU改进。MPDIoU(Minimum Point Distance based IoU)是一种创新的边界框回归损失函数，主要应用于目标检测和实例分割等计算机视觉任务中。使用MPDIOU可以直接预测边界框与实际标注框之间的左上角和右下角点之间的距离。具体计算公式为：

[0075]

[0076]

[0077]

[0078] 式中A、B——分别表示两个任意凸形

[0079] w、h——输入图像的宽度、高度

[0080] ——分别表示A的左上和右下点坐标

[0081] ——分别表示B的左上和右下点坐标

[0082] ——分别A、B的左上角之间的欧式距离和右下角点之间的欧式距离的平方MPDIOU简化了两个边界框之间的相似性比较，帮助算法选择最合适的边界框来准确定位目标。使用MPDIOU可以有效解决谷物颗粒重叠导致的检测框失真现象，有效降低谷物颗粒漏检问题。

[0083] 为了促进模型在边缘端的顺利部署并保障检测任务的实时执行，进而为在收获机上的后续应用打下基础，本申请采用了SCConv对YOLOv8模型进行了轻量化处理，SCConv(Spatial and channel reconstruction convolution)是一种轻量化卷积，由SRU(Spatial reconstruction unit)和CRU(Channel reconstruction unit)两部分串联组成，通过减少标准卷积中的空间和通道特征冗余来降低模型参数和浮点运算量(FLOPs)。

[0084] 显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算机设备来实现，它们可以集中在单个的计算机设备上，或者分布在多个计算机设备所组成的网络上，可选地，它们可以用计算机设备可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算机设备来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

[0085] 需要说明的是，以上仅为本申请的优选实施例，并非因此限制本申请的专利保护范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页