首页 / 一种基于双通道注意力的轻量化打电话检测方法

一种基于双通道注意力的轻量化打电话检测方法公开 发明

技术领域

[0001] 本发明涉及图像处理的目标检测领域,更具体地说是涉及一种基于双通道注意力的轻量化打电话检测方法。

相关背景技术

[0002] 在人工智能和机器视觉领域,图像识别技术已成为一个重要的研究方向。图像识别技术能够使计算机系统理解和解释视觉信息,从而实现对图片内容的自动分析和理解。特别是在行为识别领域,通过分析图像中的人物动作,可以识别出各种行为模式,如行走、跑步等。然而,识别更为复杂和微妙的行为,例如打电话,仍然是一个挑战。现有的图像识别技术主要包括基于传统计算机视觉的方法和基于深度学习的方法。传统方法通常依赖于手工设计的特征,如SIFT(尺度不变特征变换)和HOG(方向梯度直方图),这些特征需要专家知识和大量的手动调整。而基于深度学习的方法,尤其是卷积神经网络(CNN),通过自动学习图像特征,已经在图像分类、目标检测和行为识别等多个领域取得了显著的成果。
[0003] 尽管深度学习方法在图像识别领域取得了巨大成功,但在识别打电话这一特定行为时,仍存在一些局限性。例如现有模型可能在特定的数据集上表现良好,但在面对新的或未见过的场景时,其泛化能力可能不足;在需要实时反馈的应用场景中,如视频监控或交互式系统,现有技术可能无法满足快速识别的需求。

具体实施方式

[0025] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0026] 参照图1,本发明实施例提供一种基于双通道注意力的轻量化打电话检测方法,包括步骤S1‑S5。
[0027] S1、改进模型:优化准确性和推理速度。
[0028] S2、Yolov5深度可分离幽灵卷积轻量化模块。
[0029] 在传统的Yolov5网络中,主干网采用的是较为复杂的C3网络结构,这使得模型计算量大幅度地增加,检测速度较慢,应用受限,在真实的打电话检测场景中,在某些算力受限的设备上,无法做到实时推理检测。为了解决这个问题,本发明实施例引入了轻量化可分离幽灵卷积模块,减少模型的计算量。
[0030] 在深度学习领域,轻量化网络模型的设计是为了在保持高性能的同时减少计算复杂度和参数数量,使得模型更适合在资源受限的设备上运行。幽灵卷积网络是一种高效的模块设计,通过生成更多的特征图"幽灵特征"来减少计算量。本发明实施例提出了在传统的幽灵卷积网络模块中引入深度可分离卷积的创新方法,旨在进一步优化模型的轻量化和性能。本发明实施例的创新之处在于结合了深度可分离卷积的参数和计算量优势,通过在幽灵卷积网络模块中引入这两种技术,不仅实现了对特征的有效提取和融合,还增强了模型对于不同输入特征的适应能力。这种结合方式在保持轻量化的同时,提升了模型的性能和泛化能力。
[0031] 深度可分离卷积将标准的卷积操作分解为两个部分:深度卷积和逐点卷积。深度卷积对输入的每个通道分别应用单独的卷积核,而逐点卷积则是一个1x1的卷积,用于融合深度卷积的输出。这种分解方式大大减少了参数数量和计算量。
[0032] 本发明实施例中,完成了深度可分离幽灵卷积轻量化模块的Pytorch实现,并将它嵌入到Yolov5目标检测模型的主干网络中。
[0033] S3、双通道注意力特征融合机制。
[0034] 双通道注意力特征融合机制能够让模型在处理图像数据时更加关注于重要的特征,提高模型对于信息的理解和预测能力。双通道注意力特征融合机制通常涉及两个维度:第一个维度关注图像中的横向序列特征,第二个维度关注图像中的纵向序列特征。结合这两种注意力特征,可以使模型更有效地捕捉数据中的关键信息。本发明实施例设计了一个综合的双通道注意力特征融合模块,该模块同时考虑横向序列和纵向序列的相关性,能够同时处理横向序列和纵向序列的交互影响。
[0035] 在独立处理横向和纵向通道的特征之后,需要一个融合策略来整合这些信息。在注意力特征融合阶段,可以采用注意力融合模块来实现更好的特征融合。采用一个更好的融合策略,如IAFF(Interactive Attentional Feature Fusion,交互式注意力特征融合)模块,可以有效地整合多维度的特征。IAFF模块通过学习不同特征之间的交互,智能地调整每个特征的贡献,从而实现更加精细化的特征融合。以下是IAFF模块的技术原理及其在时空融合上的应用推导。
[0036] IAFF模块的核心思想是利用注意力机制来动态调整不同通道特征在融合过程中的重要性。具体来说,IAFF模块首先对横向通道特征和纵向通道特征进行交互学习,然后基于学习到的交互信息来生成注意力权重,最后应用这些权重来调整原始特征,实现有效的特征融合。
[0037] 假设有横向通道特征图 和纵向通道特征图 其中C是通道数,H和W分别是高度和宽度。首先,对X和Y执行特征交互操作,以学习它们之间的依赖关系:
[0038] Fsum=[X,Y]
[0039] 其中,[X,Y]表示特征拼接。对合并后的特征图Fsum应用点卷积,此操作通用于调整通道数并保持空间维度不变。同时用最终融合特征图Z作为附加反馈链接,迭代地更新注意力图。紧接着,通过ReLU激活函数引入非线性。
[0040] Fconv=ReLU(Fpw(Fsum)+Zn‑1)
[0041] Fpw表示点卷积操作,Zn‑1是上一次循环后得到的特征图,通过两个不同尺度的分支来提取通道注意力,在全局尺度分支上,对输入特征图Fconv执行全局平均池化操作,该操作将每个通道的空间信息压缩为一个单独的数值,结果是一个全局特征向量Fglobal。
[0042] Fglobal=Fgap(Fconv)
[0043] Fgap表示局平均池化操作,全局特征向量Fglobal首先通过点卷积和ReLU激活函数处理,然后再次通过点卷积,接着应用批归一化来生成通道注意力图Achannel。
[0044] Achnnel=Fbn(Fpw(ReLU(Fbn(Fpw(Fglobal)))))
[0045] Fbn表示批归一化操作,在局部尺度分支上,合并特征图Fconv也通过点卷积和ReLU激活函数处理,然后再次通过点卷积和批归一化来生成空间注意力图Aspatial。
[0046] Aspatial=Fbn(Fpw(ReLU(Fbn(Fconv))))
[0047] 最后将通道注意力图Achannel和空间注意力图Aspatial相加,并经过ReLU激活函数后,分别和原始输入特征图X和Y逐元素相乘,然后将加权后的特征图相加以融合信息。
[0048]
[0049] 表示逐元素乘法,在这个过程中,注意力图的更新是受到前一次融合结果Zn‑1的直接影响。这种设计允许网络在每一轮迭代中根据融合的效果自我校正,从而逐步优化注意力权重,并最终达到更加精细的特征融合。这个反馈机制的关键点在于,它提供了一种机制,允许模型在迭代过程中持续学习和适应,从而可能改善长期的特征融合策略。通过在训练中不断迭代,模型可以更好地学习如何结合不同来源的特征信息。
[0050] 在这个结构中,通过点卷积和全局平均池化来生成注意力图,实现了特征之间的自适应融合。这样的机制能够使网络专注于更有信息量的特征,同时抑制不重要的特征,从而提高了网络对输入数据的理解能力,增强了模型对复杂数据的处理能力。
[0051] S4、Swish激活函数。
[0052] Swish是一种激活函数,它具有平滑的非线性特性,并且在某些情况下表现出比其他常用激活函数更好的性能。
[0053] Swish激活函数的定义如下:
[0054] Swish(x)=x*Sigmiod(βx)
[0055] 其中x是输入,β是一个可学习的参数,它可以调整Sigmiod函数的斜率,从而影响Swish函数的非线性特性。
[0056] Swish函数具有以下特点:
[0057] 平滑性:Swish函数在整个实数范围内都是连续可导的,并且具有平滑的非线性特性。这使得模型在训练过程中更容易优化,并且可能避免梯度消失的问题。
[0058] 自适应性:Swish函数具有自适应性,它可以根据输入的值自动调节激活的幅度。在大部分情况下,Swish函数会将输入放大,以增加梯度传播的效果。
[0059] 保留重要信息:Swish函数在输入为负值时将其压缩,但并不完全丢弃。这有助于保留一些有用的负向信息,提供更全面的特征表示能力。
[0060] H‑Swish是一种激活函数,是对Swish激活函数的改进版本。H‑Swish的提出是为了减少Swish函数中的乘法操作,以进一步提高计算效率。
[0061] H‑Swish激活函数的定义如下:
[0062] H‑Swish(x)=x*relu6(x+3)/6
[0063] 其中x表示输入,relu6(x)表示输入x经过relu激活函数并进行截断,即relu6(x)=min(max(0,x),6)。H‑Swish函数与Swish函数类似,具有非线性特性,但它通过使用relu函数来替代Swish函数中的Sigmiod操作和乘法操作,从而降低了计算复杂度。
[0064] 本发明实施例中,主干网络和head将relu激活函数更改为H‑Swish激活函数,使模型在减少计算负担的同时,仍然具有一定的非线性表达能力。
[0065] S5、EIoU损失函数。
[0066] Yolov5使用的CIoU loss虽然考虑了边界框回归的重叠面积、中心点距离、纵横比。但是通过其公式中反映的是纵横比的差异,而不是宽高分别与其置信度的真实差异,所以有时会阻碍模型有效的优化相似性。针对这一问题,EIoU loss在CIoU loss的基础上将纵横比拆开,并且加入Focal聚焦优质的锚框。
[0067] EIoU度量通过引入一个额外的偏移量来修正CIoU度量的不足。具体来说,EIoU度量将目标定位问题建模为最优偏移量的估计问题。通过最小化修正后的IoU与真实边界框之间的误差,可以获得更准确的目标定位结果。
[0068] EIoU度量的计算过程如下:
[0069] 1、计算传统的IoU,即预测边界框与真实边界框之间的交集面积除以它们的并集面积。
[0070] 2、计算边界框的中心偏移量,用于衡量预测边界框相对于真实边界框的中心位置误差。
[0071] 3、计算边界框的宽度偏移量和高度偏移量,用于衡量预测边界框的宽度和高度相对于真实边界框的尺度误差。
[0072] 4、根据中心偏移量、宽度偏移量和高度偏移量,计算修正后的IoU。
[0073] EIoU的惩罚项是在CIoU的惩罚项基础上将纵横比的影响因子拆开分别计算目标框和锚框的长和宽,该损失函数包含三个部分:重叠损失,中心距离损失,宽高损失,前两部分延续CIoU中的方法,但是宽高损失直接使目标盒与锚盒的宽度和高度之差最小,使得收敛速度更快。
[0074] 最后,将改进模型进行数据训练,得到基于双通道注意力的轻量化打电话检测的成型模型;然后将检测数据输入到成型模型中,从而输出检测结果。
[0075] 本发明实施例中,模型使用EIoU损失函数,提供更准确的目标定位结果,并有助于改善目标检测任务的性能。
[0076] 以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

当前第1页 第1页 第2页 第3页
相关技术
检测方法相关技术
注意力轻相关技术
黄业文发明人的其他相关专利技术