首页 / 一种基于注意力机制的图像检测方法

一种基于注意力机制的图像检测方法无效专利 发明

技术领域

[0001] 本发明是一种基于注意力机制的图片特征检测方法,涉及深度学习,涉及目标检测技术。

相关背景技术

[0002] 自从深度神经网络算法首次在ImageNet数据集上大放异彩,物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出,数据集的准确率一再被刷新。实际上,深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类上明显的提升也带动了检测领域的快速发展。目标检测是检测领域的一种,目前已广泛的应用于交通监控、人机交互、精确制导等各个领域。目标检测方法可大概分为四种,基于模板匹配的方法,基于知识的方法,基于遥感图像分类技术(OBIA)的方法以及机器学习方法。基于使用的模板类型,模板匹配方法可被进一步的分为固定模板匹配和可变模板匹配方法两大类,其主要步骤包括模板生成和相似度度量。而基于知识的目标检测方法则通过使用先验知识如几何信息和纹理信息将目标检测问题转化为一个假设检验问题。基于遥感图像分类技术(OBIA)的方法主要包括图像分割和目标分类两个步骤,其中如何选择合适的分割尺度是影响目标检测效果的关键因素。
[0003] 但是,在我们对图片进行相关的特征检测时,以往的检测方法容易受到图片内容的影响,对图片重要部分的特征进行提取与检测的精度不高,从而影响对图像的分析、匹配。

具体实施方式

[0021] 下面结合附图以及具体实施例对本发明进行详细说明。
[0022] 实施例
[0023] 本发明基于Ubuntu18.04.4LTS环境下工作,以PyTorch为框架进行,主要参数有:初始学习率为0.01,最终学习率为0.0005;动量参数为0.937,权重系数为0.0005,训练阈值为0.2,imagesize为608×608,epoch为400。
[0024] 本发明采用的技术方案为:一种基于基于注意力机制改进的目标算法,包括以下几个步骤:
[0025] 步骤1、获取目标数据集图像的信息,并作为图像样本;
[0026] 本实施例的图像数据集是通过网络收集得到,所收集的数据集图片均来自于生活中的场景,然后利用目标检测标注工具进行标注,将图片格式化为一定的图片尺寸,数据集各种生活场景组成。
[0027] 步骤2、对目标数据集图像样本进行划分验证集和测试集;
[0028] 所选取图像样本的划分,采用随机抽样法将广告图像数据按验证集80%,测试集20%的比例划分为独立的验证集和测试集
[0029] 步骤3、对目标数据集图像所划分的验证集和测试集进行特征提取,分别获得验证集和测试集内各图像的特征;
[0030] 步骤4、在Darknet53网络模型中增加SCSE模块,并对模型进行训练得到图像检测模型;将验证集内图像的特征输入SCSE模块得到空间注意力特征,并通过对图像检测模型验证,通过对模型的运行,最后通过结果,获取图片检测模型的参数;将测试集内图像的特征输入带参数的图片检测模型中,获取检测结果,验证模型性能;
[0031] Darknet53一共53层卷积,除去最后一个全连接层,总共52个卷积用于当做主体网络。Darknet53共降维5次,通过采取上采样和下采样,可以达到多尺度融合预测;本发明在此基础上引进了SCSE(Concurrent Spatial and Squeeze and Channel Excitation)模块,SCSE模块的简易图如图2所示,SCSE模块表示卷积模块的注意力机制,主要是一种结合了空间(spatial)和通道(channel)的注意力机制模块,学习了通道之间的相关性,筛选出了针对通道的注意力。此外,通过了解要强调或抑制的信息有助于网络内的信息流动。主要网络架构很简单,一个是通道注意力模块,另一个是空间注意力模块,SCSE就是集成了通道注意力模块和空间注意力模块。在整体的网络结束后,也就是第26层卷积层后,添加SCSE模块,如图3和图4所示。SCSE的大致工作流程是:SCSE就是将SSE(Spatial Squeeze and Channel Excitation)和CSE(Channel Squeeze and Spatial Excitation)相加起来。
[0032] 下面分别对于SCE和SSE模块工作流程进行介绍:
[0033] CSE的工作流程:将特征图通过平均池化层(global average pooling)从[C,H,W]变为[C,1,1];然后使用两个1×1×1卷积进行信息的处理,最终得到C维的向量;然后使用sigmoid函数进行归一化,得到对应的mask模型;最后通过channel‑wise相乘,得到经过信息校准过的特征图。
[0034] SSE的工作流程:直接对特征图使用1×1×1卷积,将特征图从[C,H,W]变为[1,H,W];然后使用sigmoid进行激活得到空间注意力图,最后直接施加到原始特征图中,完成空间的信息校准。
[0035] 图5展示了测试后的效果图,选出两组对比一下。图5中(a)、(b)组左侧是未加入SCSE模块的测试效果图,图5(a)、(b)组右侧是加入SCSE模块的测试效果图。对于(a)组来说,可以看出未添加之前是存在漏检的项目,但检测精度也很可观,添加后的模型可以缓解漏检的缺陷;对于(b)组来说,在一定程度上可以提高检测的精度,总体来说,加入SCSE模块对检测准确性能起到了一定的提升作用。
[0036] 图6中(a)和(b)分别是本发明未增加与增加SCSE模块的实验数据分析对比图,展示了该模型的精度和各个指标,是在参数epoch为400,batchsize为16,imagesize为608情况下训练得到的;GIoU(Generalized Intersection over Union)表示任意两个边框的度量,此发明中的GIoU作为一种损失度量,其中GIoU和IoU计算公式如下:
[0037]
[0038]
[0039] 其中,A、B代表任意的两个框,C代表能够包住它们的最小方框。
[0040] Objectness以具象化理解为“置信度”,Objectness对应的是布尔值类型的二分类标签,理解成对应的真实和错误的逻辑值;其他分别是,分类模型的性能评价指标、精准率、回归率、平均精度,mAP@=0.5是指IOU=0.5时测得模型的精度,F1是指P‑R的调和平均,F1由精准率和回归率两个因素决定,计算公式为:
[0041]
[0042] 其中,Recall为召回率,Precision为精准率。
[0043] 鉴于计算机硬件,本发明只验证了400个epoch就可以得到明显的提升。实验数据分析:实验采取epoch为0和epoch为399对比,如下表所示:
[0044] 表1:epoch为0和epoch为399时的对比
[0045]
[0046] 对表格一中的几个主要的参数进行分析,在epoch为0时,未加入SCSE模块时,准确率为0.56,加入SCSE模块后,准确率提高到0.619,提高了0.059;未加入SCSE模块时,召回率为0.356,加入SCSE模块时,召回率为0.357,提高了0.001;未加入SCSE模块时,map@0.5为0.409,加入SCSE模块时,map@0.5为0.419,提高了0.01;未加入SCSE模块时,F1为0.371,加入SCSE模块时,F1为0.381,提高了0.01;
[0047] 在epoch为399时,未加入SCSE模块时,准确率为0.622,加入SCSE模块后,准确率提高到0.642,提高了0.02;未加入SCSE模块时,召回率为0.805,加入SCSE模块时,召回率为0.816,提高了0.011;未加入SCSE模块时,map@0.5为0.76,加入SCSE模块时,map@0.5为782,提高了0.22;未加入SCSE模块时,F1为0.698,加入SCSE模块时,F1为0.716,提高了0.018;
[0048] 所以,加入该机制能提升检测的总体性能。
[0049] 表2:综合对比
[0050]
[0051] 由实验数据分析,加入SCSE模块后,精度一定的提升,而测试的时候,也验证是这样的,如图4所示。本实施例验证了Darknet53网络的第26层添加了SCSE注意力机制起到了可观的效果。
[0052] 本发明的技术方案不局限于上述各实施例,凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

当前第1页 第1页 第2页 第3页
相关技术
机制图像相关技术
检测方法相关技术
宋公飞发明人的其他相关专利技术