首页 / 一种快速高准确度的无人机航拍目标检测方法

一种快速高准确度的无人机航拍目标检测方法实质审查 发明

技术领域

[0001] 本发明涉及人工智能技术领域,更具体地说,它涉及一种快速高准确度的无人机航拍目标检测方法。

相关背景技术

[0002] 使用无人机来代替人工审查可以带来极大的帮助[1‑2],无人机可以快速地覆盖大面积区域,比传统的人工巡检更加高效。在一些难以到达的区域,无人机可以取代人工巡检,提高工作效率。无人机配备高精度的传感器和相机,可以对目标进行高精度的检测和测量。无人机还可以实现多角度、多方位的观测,提高检测准确性。相比传统的人工巡检,无人机可以自主飞行,不需要额外的人力和设备,可以大幅降低成本同时还可以节省时间和能源。
[0003] 针对无人机航拍在执行目标检测任务中成像小、像素特征少、相对速度变化快、样品集少等检测难点,提出了一种高准确度的无人机航拍目标检测方法。在传统YOLO算法的基础上,首先在head网络引入注意力机制,同时考虑空间和通道维度信息,且不在原始网络中添加额外参数;之后在主干网络中结合InceptionNext网络,降低网络计算量,并保留目标特征,最后使用基于纹底特征的预测优化提高检测精度。在自有低空飞行物数据集上实验结果表明,YOLO‑EAM算法平均精度相比YOLO v8算法,mAP提高了7.8%,且误检、漏检率低,达到了在复杂背景下检测低空飞行物目标的要求。
[0004] 基于深度学习的图像目标检测方法上,通常可分为两阶段检测方法和单阶段检测方法两类。两阶段检测方法有RCNN[3]、Fast RCNN[4]、Faster RCNN[5]等,两阶段检测方法精度高,但是伴随的问题是速度慢,不适合实时检测任务。单阶段检测方法有Retina Net[6]、YOLO[7‑10]等,相比于两阶段检测方法,单阶段检测方法速度极快。
[0005] 由于无人机图像存在分辨率高、背景复杂、目标较小的特点,为此针对无人机检测对算法进行了改进[11‑16]。在YOLO的基础上,在特征增强(NECK)中使用了Transfromer[17]的结构,获得更大的感受,引入了多尺度注意力模块EMA[18],保留每个通道上的信息和降低计算开销,使用InceptionNext主干网络的SCConv[19]替换Yolov8的主干,加快推理速度。为了进一步提高检测精度,应用待检测目标纹底特征对候选框进行优化选择,进一步提高检测精度。

具体实施方式

[0024] 实施例1
[0025] 参照图1至图5
[0026] 参考文献
[0027] [1]刘彬.基于无人机图像的房屋目标检测研究[D].沈阳理工大学,2023.DOI:10.27323/d.cnki.gsgyc.2022.000021.
[0028] [2]黄艳晖,向环丽,余荣春.基于并联卷积神经网络的无人机遥感影像建筑区域测量[J/OL].计算机测量与控制:1‑8[2023‑09‑03].http://kns.cnki.net/kcms/detail/11.4762.TP.20230821.0920.018.html.
[0029] [3]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,Salt Lake City,2014:580‑587.
[0030] [4]GIRSHICK R.Fast  R‑CNN[C]//Proceedings of the  2015  IEEE International Conference on Computer Vision,Santiago,2015:1440‑1448.[0031] [5]REN S Q,HE K M,GIRSHICK R,et al.Faster R‑CNN:towards real‑time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137‑1149.
[0032] [6]LIN T Y,GOYALP,GIRSHICK R,et al.Focal loss for dense object detection[C]//Proceedings of the 2017 IEEE International Conference on Computer Vision,2017:2980‑2988.
[0033] [7]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real‑time object detection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,2016:779‑788.
[0034] [8]REDMONJ,FARHADIA.YOLO9000:better,faster,stronger[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,2017:6517‑6525.
[0035] [9]FARHADI A,REDMON J.YOLOv3:an incremental improvement[C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition,2018.
[0036] [10]BOCHKOVSKIYA,WANG C Y,LIAO H M,et al.YOLOv4:optimal speed and accuracy of object detection[C]//Proceedings of the 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:2‑7.
[0037] [11]张晨光,滕桂法,丁文卿.基于改进YOLOV5s模型的遥感图像目标检测及应用[J/OL].计算机仿真:1‑12[2023‑09‑03].http://kns.cnki.net/kcms/detail/11.3724.tp.20230 418.1822.018.html.
[0038] [12]万羽欣.基于YOLO改进算法的遥感图像小目标检测方法研究[D].北京交通大学,2023.DOI:10.26944/d.cnki.gbfju.2022.003528.
[0039] [13]魏雪影.基于YOLO深度卷积神经网络的遥感图像目标检测方法研究[D].桂林理工大学,2023.DOI:10.27050/d.cnki.gglgc.2022.000381.
[0040] [14]甄然,刘雨涵,孟凡华等.基于改进YOLOv7的低空飞行物目标检测方法[J/OL].无线电工程:1‑14[2023‑09‑01].http://kns.cnki.net/kcms/detail/13.1097.TN.20230 828.1418.002.html.
[0041] [15]陈卫彪,贾小军,朱响斌等.基于DSM‑YOLO v5的无人机航拍图像目标检测[J/OL].计算机工程与应用:1‑11[2023‑09‑01].http://kns.cnki.net/kcms/detail/11.2127.TP.20230705.2129.004.html.
[0042] [16]王欣然.基于YOLO的遥感图像目标检测算法研究[D].重庆大学,2022.DOI:10.27670/d.cnki.gcqdu.2022.002909.
[0043] [17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York:ACM,2017:6000‑6010
[0044] [18]Daliang Ouyang,Su He,Jian Zhan,et al.Efficient Multi‑Scale Attention Module with Cross‑Spatial Learning
[0045] [19]李嘉丰.基于卷积神经网络模型的结构优化算法研究[D].华东师范大学,2023.DOI:10.27149/d.cnki.ghdsu.2023.000189.
[0046] [20]俞奋孝.注意力机制在提高YOLOv5目标检测精度的研究[D].阜阳师范大学,2023.DOI:10.27846/d.cnki.gfysf.2023.000275.
[0047] 1.YOLO序列算法
[0048] YOLO系列算法是一类典型的one‑stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结合起来,从而做到了高效、灵活和泛化性能好,所以在工业界也十分受欢迎。Yolo算法采用一个单独的CNN模型实现end‑to‑end的目标检测,核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框)的位置及其所属的类别。最新YOLOv8使用了CSPDarkNet53作为backbone,Neck使用的也是类似于YOLOv5的PAN‑FPN,称作双流FPN,高效,速度快,与之前的YOLOv6,YOLOX类似,使用了Decoupled Head,YOLOv8也使用3个输出分支,但是每一个输出分支又分为2部分,分别来分类和回归边框。
[0049] YOLOv8的Backbone类似于YOLOv5的Backbone,不同点是将C3换成了C2F,如图1,以及将第一个Convolution层设置为kernel size等于3,stride为2(YOLOv5的Kernel Size为6,padding为2),每一个Bottleneck的输入Tensor的Channel都只有上一级的0.5倍,因此计算量明显降低,梯度流的增加,也能够明显提升收敛速度和收敛效果。Darknet的Bottleneck单元并未使用最后的1*1卷积进行通道的恢复,而是直接在中间的3*3卷积中进行了恢复,可以大大减少参数,降低计算量。
[0050] 2.注意力机制
[0051] 在卷积神经网络中,一般来说,模型的参数越多,模型的表达能力就越强,模型存储的信息量就越大,但这会带来信息过载的问题。通过引入注意力机制[20],在众多输入信息中关注当前任务的更关键信息,减少对其他信息的关注,过滤掉不相关的信息,缓解信息过载的问题,提高任务处理的效率和准确性。
[0052] 注意力机制是一种类脑机制,模拟人脑关注更感兴趣的目标进而弱化非重要目标。首先扫描全局图像,获得需要关注的目标区域,如违章建筑的屋顶。然后在该区域投入更多的注意力资源,获得更多与目标相关的细节,如屋顶的形状和纹底。通过这种机制,有限的注意力资源可以用来从大量信息中快速筛选出目标特征的信息。
[0053] 3.EMA
[0054] 期望最大化注意力机制(EMA),克服了在全图上计算注意力而使得计算量大的问题,提出了通过期望最大化(EM)算法迭代,构建一组紧凑基,在基上运行注意力机制,降低了复杂度,提高了效率。其中,E步更新注意力图,M步更新紧凑基。E、M交替执行,收敛之后用来重建特征图。
[0055] 无人机图像由于距离过远,像素过高,背景复杂,目标较小,YOLO模型如YOLOV8无法很好的检测出目标,需要对原本的网络模型进行改进,包括轻量化骨干网络、样品数据增强、引入注意力机制、预测函数改进和预测优化。
[0056] 1.构建轻量化骨干网络
[0057] 使用SCConv替代YoloV8中的卷积,实现轻量化的网络设计,如图2所示。卷积神经网络(CNN)在各种计算机视觉任务中取得了显著的性能,但这是以巨大的计算资源为代价的,部分原因是卷积层提取冗余特征。要么压缩大型模型,要么探索设计良好的轻量级模型,SCConv利用特征之间的空间和通道冗余来进行CNN压缩,以减少冗余计算并促进代表性特征的学习。SCConv由空间重构单元(SRU)和信道重构单元(CRU)两个单元组成。SRU采用分离重构的方法来抑制空间冗余,CRU采用分离变换融合的策略来减少信道冗余,是一种即插即用的架构单元,可直接用于替代各种卷积神经网络中的标准卷积。实验结果表明,在替换完成后,网络结构中参数大大减少,通过减少冗余特征来获得更好的性能,并且显著降低了复杂度和计算成本。
[0058] 2.实现样品数据增强
[0059] 为了解决训练数据少,数据集中目标分布不均匀,在训练过程中学习不充分的问题,先将训练数据图片4000*3000的样本随机切割成20张1080*1080的样本。再使用Stitcher数据增强,Stitcher将同一批次四张图缩小到同一大小,然后拼接成一张图片,很好的解决了分布不均匀的问题。屋顶违建一般都存在建筑物密集,大小不一,颜色不一的问题,一片区域可能都为同一类型的棚顶,导致训练同一批次或几个批次未训练到某一目标,导致学习不充分的情况,为了解决此问题,将同一批次四张图缩小到同一大小,然后拼接成一张图片,在训练过程中监控各个目标损失的反馈情况,如果训练过程中,损失下降占总下降值的比例较低,则在该批次加入含有该类的目标的图片进行训练。
[0060] 3.引入注意力机制
[0061] 随着深度卷积神经网络的发展,当我们将CNN扩展到多个卷积层时,它表现出增强学习到的特征表示的显著能力。然而,它会导致堆叠更多的深度卷积对象,需要消耗大量的内存和计算资源。EMA方法由于其灵活的结构特性,不仅加强了对更有判别力的特征表示的学习,而且可以很容易地插入到CNN的主干架构中。通过引入EMA,优化CNN主干架构,形成EMA注意力机制,多尺度并行子网络来建立短和长依赖关系,如图3所示,EMA通过三条平行路线来提取分组特征图的注意力权重描述符。两条平行路径在1x1分支上,第三条路径在3x3分支上,不仅对信道间信息进行编码以调整不同信道的重要性,而且将精确的空间结构信息保留到信道中。
[0062] 4.损失函数
[0063] 算法采用yolov8类似的损失函数,使用的分类损失为PFL Loss,但是为了加快计算速度,将回归损失为CIOU Loss+PFL的形式,这里Reg_max默认为8。其中:
[0064]
[0065] 如上述公式所示,p是label,正样本时候q为norm_align_metric计算出的值,负样本时候p=0,当为正样本时候其实没有采用FL,而是普通的BCE,只不过多了一个自适应norm_align_metric加权,用于突出主样本。而为负样本时候就是标准的FL了。可以明显发现VFL比QFL更加简单,主要特点是正负样本非对称加权、突出正样本为主样本。
[0066] PFL(Piecewise Focal Loss)将坐标回归的单个值更改成输出n+1个值,每个值表示对应回归距离的概率,然后利用分段函数获得最终的回归距离。针对这里的VFL,其主要是将框的位置建模成一个分段分布,让网络快速的聚焦于和目标位置距离近的位置的分布。
[0067] PFL(Si,Si+1)=‑((yi+1‑y)log(Si)+(y‑yi)log(Si+1))
[0068] VFL能够让网络更快地聚焦于目标y的值,就是它的回归值;VFL的含义是以交叉熵的形式去优化与标签y最接近的位置的概率,从而让网络更快的聚焦到目标位置的邻近区域的分布,通过将原损失函数求积分改成求分段阈值,进一步提高检测速度。
[0069] 5.预测优化
[0070] 在实现场景目标检测中,对于检测目标具有特定的限定,没有封体的顶不是违章建筑等。因此,在预测阶段,对候选区域进行下采样,随后对下采样后的图像进行预测,对于每个目标块类的矩形框区域图像二值化,然后计算包含黑点的面积,检测当前面积的占比值是否大于指定域值。如对于违章检测,取0.7点,小于该值的删除该候选框。
[0071] 实验效果
[0072] 将YOLO‑EMA与Faster‑RCNN、Mask‑RCNN和YOLOv8对比分析检测结果,使用自拍摄数据集训练300轮,再替换网络结构的卷积层,加入EMA注意力机制,使用数据增强。可以观察到,在修改前棚顶检测效果并不好,有很多目标并未识别到。在替换后,明显提高了识别效果。
[0073]
[0074] 图4反映检测的情况可以看出本文算法比Faster‑RCNN、Mask‑RCNN、YOLOv8具有更好的检测准确度,尤其是对于小目标的检测。
[0075] 为了进一点提高检测精度,对候选框采用基于纹底特征的阈值优化,如上图5。因为纹底特征,二次化后,黑点数不够多,即黑点占有候选框的面积小于0.7,这样就要删除候选框。
[0076] 上述实验结果表明,好同时压缩模型尺寸,降低计算复杂度,改进的损失函数进提升了模型检测速度,引入EMA注意力机制和预测优化提升了检测精度。总体来看,最终在保证模型检测精度较高的同时,一定程度上将模型轻量化。
[0077] 以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本模板的保护范围。
[0078] 以上对本发明的一个实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

当前第1页 第1页 第2页 第3页