技术领域
[0001] 本发明涉及目标检测技术领域,特别是涉及一种多尺度高斯注意力的小目标检测方法、装置、设备和介质。
相关背景技术
[0002] 随着计算机视觉的快速发展,特别是深度学习的广泛应用和残差网络的提出,目标检测的性能在速度和准确性方面都取得了相当大的进步。例如,最新发布的YOLOv10实现了毫秒级检测,具有相当优秀的精度,而且参数量仅为2.3M,在日常生活中,基于目标检测技术的应用越来越成为不可或缺的一部分,如医疗健康、智慧交通、环境保护等领域。近年来,许多研究人员致力于提高目标检测器的性能,受人类观察事物的方式所启发,注意力机制成为最受欢迎的研究领域之一。尽管有很多关于常规目标检测注意力机制的研究,但是专门为微小目标检测设计的方法还比较欠缺。
[0003] 经分析发现,传统的用于常规目标和微小目标检测的注意力机制存在一些没有考虑全面的地方。第一,在计算通道注意力和空间注意力的过程中,通常只使用一个尺寸的卷积核进行卷积操作,这使得卷积运算过程中只考虑了一种尺度的感受野。众所周知,小目标检测数据集中目标对象的大小变化也很显著。例如,在VisDrone2019数据集的同一图像中,既有非常小的目标对象,也有非常大的目标对象,因此,固定的感受野可能不适合一些具有尺度变化目标对象的应用场景。一些改进的方法在计算过程中使用了不同尺度的卷积核,但只是简单地将它们加起来,并没有考虑到不同感受野可能具有不同权重的特点;第二,传统方法大多只考虑了通道注意力和空间注意力中的某一种,这使得模型没有充分利用通道信息和空间信息,尽管一些方法同时考虑了通道注意力和空间注意力,但它们使用级联结构,或者简单地将两种类型的注意力特征相乘,这可能会导致信息混乱,从而影响检测性能;第三,大多数现有的通道注意力和空间注意力机制依赖于一系列卷积层或全连接层,这会给网络带来一些额外的参数。此外,考虑到图像中的大多数小目标对象可能总是集中在某一个特定的区域,但现有的大部分计算注意力特征的方法没有考虑这一点,这可能会导致注意力向量受到周围噪声的干扰,从而导致模型无法更好地聚焦于重要的通道或区域。
具体实施方式
[0012] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0013] 需要说明,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0014] 另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
[0015] 下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
[0016] 实施例1参考图1,为本发明提出的主干网络的整体结构示意图,包括多个阶段的数据处理,每个阶段的结构类似,对数据处理的方式也是类似的。通过这种多阶段数据处理,一方面可以逐层提取图像不同层次特征,使得网络能够在浅层捕捉到更细微的、与小目标相关的特征,并在深层保留这些特征,从而提高小目标的检测能力。另一方面通过利用上下文信息,能够结合不同尺度的特征,来提升小目标的辨识度,减少漏检率。总之,通过这种多阶段的处理逐步提取和压缩特征,能够减少噪声对小目标特征的干扰,帮助网络形成更稳定、更鲁棒的目标表示,使整个网络具有更强的适应性,更好地处理图像中的尺度变化,从而有效检测出大目标和小目标。
[0017] 在进行具体地数据处理时,上一阶段的输出作为下一阶段的输入,本实施例中示出的主要处理阶段为4个,即阶段1到阶段4,阶段的数量根据需求进行设置,本实施例仅给出其中一个示例。在阶段1之前的初始阶段是神经网络的预处理阶段,由一些卷积层和池化层组成,其输出的 为经过初始阶段预处理之后的特征图。
[0018] 参考图2,为其中一个阶段的结构框架示意图,包括基础模块和多尺度高斯注意力机制模块(MGAM),其中,基础模块包括两个以上的卷积层,通过两个以上的卷积层对输入的待检测图像 进行处理后输出卷积特征图;还设置一个恒等连接层,恒等连接层将输入的待检测图像 直接加到卷积特征图上,得到第一特征图 。值得说明的是,基础模块中各卷积层的卷积核大小可以根据需求进行设置; 是指在第 阶段中基础模块重复的次数,重复的次数同样可以根据需求进行设置。
[0019] 基础模块将生成的第一特征图 输出至MGAM模块,MGAM模块包括多尺度特征提取模块(MFEM)、高斯注意力模块(GAM)和动态权重模块(DWM),通过多尺度特征提取模块(MFEM)、高斯注意力模块(GAM)和动态权重模块(DWM)依次进行数据处理,输出该阶段包含小目标检测结果的图像 。具体来说,首先MFEM模块通过并行的全局平均池化对第一特征图进行不同尺度下的特征提取,从而得到考虑不同感受野的第二特征图;然后GAM模块计算第二特征图的通道注意力权重与空间注意力权重,并通过一维高斯分布对通道注意力权重进行高斯建模,通过二维高斯分布对空间注意力权重进行高斯建模,从而得到经过高斯建模后的第三特征图,这样的方式能够使注意力机制更加平滑和集中,避免信息混乱,减少噪声干扰;最后,考虑到不同尺度下的特征图对同一场景的重要性不同,通过DWM模块对各第三特征图与第一特征图进行权重计算,为每个特征图设置合适的权重,从而增强特征的辨别能力,增强对不同场景的适应性和鲁棒性,使其能够更灵活地处理不同大小的目标,提升对微小目标的捕捉能力。
[0020] 参考图3,为本实施例提供的多尺度高斯注意力的小目标检测方法,其仅示意其一个阶段的数据处理过程。在第 阶段的数据处理过程中,包括以下步骤:步骤201,获取待检测图像;对待检测图像进行卷积处理,得到第一特征图。
[0021] 可以理解,该步骤对应图2中的基础模块的数据处理过程,靠近输入端的卷积层提取低级特征,位于中间的卷积层提取复杂一些的特征,靠近输出端的卷积层则提取更深层的高级特征,然后通过恒等连接层连接输入端与输出端,从而将待检测图像与卷积特征图相加,恒等连接层的设计使得信息能够在网络中更深层次传播,减少了信息的丢失和变形,能够学习到更丰富、更具判别力的特征,最终得到多层次、多尺度的特征图,记为第一特征图 。
[0022] 具体地,对待检测图像 进行若干层卷积处理后,输出卷积特征图;将卷积特征图与待检测图像相加,得到第一特征图 。
[0023] 步骤202,通过若干并行的全局平均池化操作对第一特征图进行特征提取,输出不同尺度下对应的第二特征图。
[0024] 可以理解,该步骤对应图2中MGAM模块中的多尺度特征提取模块(MFEM)的数据处理过程。参阅图4,为多尺度特征提取模块结构框架示意图,其包括若干并行的全局平均池化层,通过并行的全局平均池化层进行特征提取,得到不同尺度下对应的特征图,记为第二特征图 。通过若干并行的全局平均池化层进行特征提取,能够考虑不同感受野的特点,从而更好地捕捉输入数据的多尺度特征,帮助网络更好地理解整体结构和局部细节。值得说明的是,每个全局平均池化层的卷积核大小 根据需求进行设置。
[0025] 具体地,本实施例中分别通过核大小为1×1、3×3、5×5和7×7四个不同尺度的全局平均池化层对第一特征图 进行特征提取,得到相应的第二特征图,分别记为和 。
[0026] 步骤203,对各第二特征图进行全局平均池化和全局最大池化处理,得到通道注意力权重;通过一维高斯分布对通道注意力权重进行建模,得到建模后的通道注意力权重;将建模后的通道注意力权重与第二特征图相应通道相乘,得到通道注意力特征图;对各第二特征图进行均值处理和最大化处理,得到空间注意力权重;通过二维高斯分布对空间注意力权重进行建模,得到建模后的空间注意力权重;将建模后的空间注意力权重与第二特征图相应通道相乘,得到空间注意力特征图;对通道注意力特征图与空间注意力特征图进行相加,得到各尺度下对应的第三特征图。
[0027] 可以理解,该步骤对应图2中MGAM模块中的高斯注意力模块(GAM)的数据处理过程。参阅图5,为高斯注意力模块结构框架示意图,通过将步骤202得到的 和分别输入高斯注意力模块进行处理,从而对应得到第三特征图 和 。
[0028] 高斯注意力模块包括通道注意力与空间注意力两个部分。在通道注意力一侧,包括全局平均池化层和全局最大池化层,通过全局平均池化层和全局最大池化层分别对第二特征图 进行处理后,将得到的两个特征相加,得到各尺度下对应的通道注意力权重 ,然后通过一维高斯分布函数 对通道注意力权重 进行建模,得到建模后的通道注意力权重 ,将建模后的通道注意力权重 与第二特征图 相应通道相乘,得到通道注意力特征图 。
[0029] 在空间注意力一侧,包括在某一维度上进行均值处理和最大值处理的层,对第二特征图 分别进行均值处理和最大化处理后,将得到的两个特征相加,得到各尺度下对应的空间注意力权重 ,然后通过二维高斯分布函数 对空间注意力权重 进行建模,得到建模后的空间注意力权重 ,将建模后的空间注意力权重 与第二特征图 相应通道相乘,得到空间注意力特征图 。
[0030] 其中,一维高斯分布函数 表达式为:;
式中, 表示一维高斯分布的均值; 表示一维高斯分布的方差; 表示通道
注意力权重中最大值所在的点坐标; 表示通道数。
[0031] 二维高斯分布函数 表达式为:;
式中, 表示二维高斯分布的均值; 表示二维高斯分布的协方差矩阵; 表
示空间注意力权重中最大值所在的点的横坐标; 表示空间注意力权重中最大值所在的点的纵坐标; 表示空间注意力权重的宽度; 表示空间注意力权重的高度。
[0032] 最后,分别将各尺度下的通道注意力特征图 与空间注意力特征图 进行相加,得到各尺度下对应的第三特征图 。在本实施例中,对应尺度下的第三特征图分别记为 和 。
[0033] 步骤204,根据各第三特征图与第一特征图进行权重计算,得到每个第三特征图的占有权重;根据第一特征图、第三特征图及每个第三特征图的占有权重进行计算,得到包含小目标检测结果的图像。
[0034] 可以理解,该步骤对应图2中MGAM模块中的动态权重模块(DWM)的数据处理过程。参阅图6,为动态权重模块结构框架示意图,包括权重计算层与恒等连接层,权重计算层一方面从多尺度特征提取模块(MFEM)获取第一特征图 ,另一方面从高斯注意力模块(GAM)获取第三特征图 ,然后根据第三特征图 与第一特征图
一起进行权重分配计算得到第三特征图 对应的占有权重
,计算过程表达式为:
;
式中, 表示占有权重; 表示第三特征图; 表示第一特征图; 表
示第三特征图 和第一特征图 之间的距离; 表示第一特征图的宽; 表示第一特征图的高; 表示卷积核大小为 时对应的数据; 表示第 阶段下对应的数据,
其中 表示可替换的数据。
[0035] 然后,分别将第三特征图 与对应的占有权重相乘后进行多项求和,与恒等连接层获取的第一特征图 相加,从而得到包含小目标检测结果的图像,计算过程表达式为:
;
式中, 表示第 阶段输出的包含小目标检测结果的图像。
[0036] 通过多个阶段的重复计算,得到最终的包含小目标检测结果的图像。
[0037] 其中一个实施例中,对本发明提出的多尺度高斯注意力的小目标检测方法进行验证。
[0038] 以经典的两阶段通用目标检测器Faster R‑CNN为基础检测器,在AI‑TOD数据集上进行训练和测试,分别比较基础检测器的检测效果以及在此基础上添加了本发明提出的MGAM模块之后的效果,除此之外,模型的其他设置均相同。
[0039] 具体检测效果如图7和图8所示。其中,绿色、蓝色和红色的矩形框分别代表正确检测、误检和漏检的目标对象,通过对比可以直观地看出,采用本发明所提的多尺度高斯注意力的小目标检测方法在检测效果的提升很明显。
[0040] 除了可视化的对比,本发明还在AI‑TOD数据集上进行了详尽的实验验证,具体结果如表1所示,其中,第1行至第5行为两阶段基于锚框的目标检测器上的结果,第6行和第7行为使用一阶段基于锚框的目标检测器的检测结果,第8行至第10行为使用无锚框的检测器得到的检测结果,第11至13行为现有的效果最好的三种注意力机制在AI‑TOD数据集上的检测结果,第14至18行为本发明提出的多尺度高斯注意力的小目标检测方法应用到经典目标检测器上的检测结果。
[0041] 本发明提出的方法可以很容易地嵌入各类常见的目标检测器,从表1中可以看出,通过在基础检测器RetinaNet、FCOS、Faster R‑CNN、Cascade R‑CNN以及DetectoRS上添加MGAM模块,可以使检测正确率分别提升2.2、5.1、9.5、8.6以及10.2个百分点。与最好的注意力机制相比,本发明提出的方法可以带来3.7个百分点的提升。
[0042] 表1 在AI‑TOD数据集上的测试结果正确率对比
[0043] 综上所述,本发明提出的用于小目标检测的多尺度高斯注意力机制可以很好地处理小目标检测任务,尤其是对于尺寸非常小的目标对象,检测正确率的提升更为明显。
[0044] 虽然本实施例图1中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0045] 实施例2基于实施例1中多尺度高斯注意力的小目标检测方法,本实施例公开了一种多尺度高斯注意力的小目标检测装置,如图9所示,多尺度高斯注意力的小目标检测装置包括:
基础模块401、多尺度特征提取模块402、高斯注意力模块403和动态权重模块404,其中:
基础模块401,用于获取待检测图像;对所述待检测图像进行卷积处理,得到第一特征图;
多尺度特征提取模块402,用于通过若干并行的全局平均池化操作对所述第一特征图进行特征提取,输出不同尺度下对应的第二特征图;
高斯注意力模块403,用于对各所述第二特征图进行全局平均池化和全局最大池化处理,得到通道注意力权重;通过一维高斯分布对所述通道注意力权重进行建模,得到建模后的通道注意力权重;将建模后的通道注意力权重与所述第二特征图相应通道相乘,得到通道注意力特征图;对各所述第二特征图进行均值处理和最大化处理,得到空间注意力权重;通过二维高斯分布对所述空间注意力权重进行建模,得到建模后的空间注意力权重;
将建模后的空间注意力权重与所述第二特征图相应通道相乘,得到空间注意力特征图;对所述通道注意力特征图与所述空间注意力特征图进行相加,得到各尺度下对应的第三特征图;
动态权重模块404,用于根据各所述第三特征图与所述第一特征图进行权重计算,得到每个第三特征图的占有权重;根据所述第一特征图、所述第三特征图及每个第三特征图的占有权重进行计算,得到包含小目标检测结果的图像。
[0046] 本实施例中,基础模块401、多尺度特征提取模块402、高斯注意力模块403和动态权重模块404的具体工作过程以及工作原理均与实施例1中的方法相同,因此本实施例中不再对其进行赘述。其中各个单元模块可全部或部分通过软件、硬件及其组合来实现,各个单元模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元模块对应的操作。
[0047] 实施例3如图10所示为本实施例公开的一种计算机设备,该计算机设备可以是服务器,包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储实施例1的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现实施例1中的方法。
[0048] 本领域技术人员可以理解,图10中示出的结构,仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0049] 实施例4本实施例公开了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现上述实施例1中的方法。
[0050] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0051] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0052] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。