首页 / 利用卷积神经网络矫正梯度的弱监督目标定位方法

利用卷积神经网络矫正梯度的弱监督目标定位方法有效专利 发明

技术领域

[0001] 本发明涉及计算机视觉技术领域,尤其是涉及一种利用卷积神经网络矫正梯度的弱监督目标定位方法。

相关背景技术

[0002] 在计算机视觉领域,利用卷积神经网络进行目标定位取得了巨大成功。但是现有目标定位方法有一大类是基于有监督的目标定位方法,这类方法需要大量标注的数据训练卷积神经网络,其中训练数据需要标注目标类别和目标的位置信息,尤其是标注目标位置信息需要耗费大量的人力物力成本。另一类方法是基于弱监督的目标定位方法,例如只利用目标的类别标签信息,训练得到一个用于分类任务的卷积神经网络,然后利用训练好的分类网络的内部特性,经过变换,得到近似的关注于目标的热图,最终实现目标定位。中国专利申请CN202010405216.1公开一种基于深度学习的细粒度图像弱监督目标定位方法,直接在图像的像素级别上和语言描述的word进行模态间的细粒度语义对齐。把图像输入到卷积神经网络中提取特征向量,同时对语言描述进行编码,提取出语言描述的特征向量。将卷积特征图和语言描述特征向量进行特征匹配,并对特征匹配图进行处理,得到目标的显著图,根据特征匹配图得到最终定位的结果。中国专利申请CN201810407386.6公开一种基于数据增强的弱监督目标定位方法,其主要内容包括:基准网络的构建、目标的定位和性能的优化,其过程为,对于输入的图片,先利用预激活残差网络实现分类网络的作用,作为基准网络,然后用一个网络数据集来训练分类网络,同时通过数据增强、小的批处理规模和深的网络深度优化定位性能,接着应用类激活映射(CAM)算法生成热图,通过控制热图的阈值,由基准网络输出分类(即对象标签)和定位(即边界框)的结果。目前,这一类基于弱监督的目标定位方法得到的定位热图,要么包含很多噪声,要么无法区分不同的目标,导致定位精度远远低于有监督的目标定位方法。

具体实施方式

[0030] 以下实施例将结合附图对本发明作进一步的说明。
[0031] 参见图1,本发明实施例包括以下步骤:
[0032] 在给定的只包含类别标签的数据集上训练好一个用于分类功能的卷积神经网络,先对网络进行正向传递,输出各个类别的分类得分,然后人为指定待定位的目标的类别,或者根据网络输出的分类得分,取得分最高的前m个类别作为待定位的目标的类别,每次选取一个待定位目标类别,进行卷积神经网络矫正梯度反向传递,即从输出层向输入层逐层反向传递梯度,并且进行相应的矫正操作。输出目标对中间层或者输入层各维度变量的梯度大小,反映了该变量对输出目标的重要程度,进而可以找出哪些变量是输出目标分类预测的重要依据,从而在空间维度上确定目标的定位区域。但是直接求解得到的梯度用来定位,存在一定的偏差,需要针对卷积神经网络中特殊的模块进行矫正操作,进而提升基于梯度定位的精度。
[0033] 参加图2,所述卷积神经网络矫正梯度反向传递部分,具体包含以下步骤:
[0034] 1)初始化输出层梯度
[0035] 根据选定的待定位目标类别ck(其中k=1,2,…,m),将其初始梯度值设置为1,即其他类别的初始梯度设置为0,即 其中 表示第l+1层第j个单元的梯度。
[0036] 2)全连接层的梯度传递
[0037] 2.1)对卷积神经网络中最后一层全连接层的梯度进行矫正,根据正向连接与负向连接的贡献比例,增强负向连接权重,梯度传递的公式为
[0038]
[0039] 其中wij为连接第l层的第i个单元与第l+1层第j个单元的权重, 表示该权重值将负值截断为0, 表示该权重值将正值截断为0,|·|表示绝对值运算。最后一层全连接层与输出层直接相连,以上矫正操作是为了提升目标选择性,通过增强负向连接更好地抑制与目标无关的背景。
[0040] 2.2)其他全连接层使用原始梯度进行反向传播,其传递公式为
[0041]
[0042] 3)卷积层的梯度传递
[0043] 对卷积层的梯度进行矫正,利用输出特征值与卷积感受野内输入特征的绝对值之和的比例,获得矫正的梯度传递公式:
[0044]
[0045] 其中 表示第l层第i个特征, 表示取 的符号,uij是布尔变量,当 在感受野内的时候,uij=1,否则uij=0。这里的 本质上属于输入特征与元素全为1的卷积核进行卷积的过程。这里传递的矫正梯度充分利用了输入与输出特征的信息,可以更精细地定位目标。这里的 会根据输入特征的符号自动调整传递的梯度的符号,目的是使得梯度传递的过程对含有负值特征的模型具有鲁棒性。
[0046] 4)对批标准化层、局部响应标准化层以及输入特征含有负值的平均池化层的梯度进行矫正,其传递公式为
[0047]
[0048] 5)对其他层使用原始的梯度进行反向传递,其传递公式同式2。
[0049] 6)将矫正后的梯度传递到中间特征层或者输入层,将梯度逐元素乘以输入特征,并且在通道方向上求和,得到每个输入对输出的贡献值,其公式为
[0050]
[0051] 跟据式5将得到一个二维空间热图,可以用一维向量表示为S=[s1,s2,...,sn],n为空间维度的像素个数。
[0052] 7)对步骤6得到的热图,取一个阈值,将高于该阈值的区域作为该目标的定位区域。
[0053] 每次完成步骤1~步骤7,k=k+1,进行下一个目标的定位,重复步骤1~步骤7,直到k=m+1,结束循环,完成m个类别的目标定位。
[0054] 进一步,根据实际应用中具体任务的要求,定位区域可以直接以分割的形式输出,即输出分割的掩码,即将m个类别目标定位区域的各个像素分别标记为对应于类别的数值记号,将定位区域外的区域的各个像素标记为背景的数值记号;或者将定位区域以包围盒的形式输出,即输出定位坐标,即m个类别目标定位区域分别取m个最紧致的矩形包围盒,输出包围盒的顶点的坐标。

当前第1页 第1页 第2页 第3页
相关技术
定位方法相关技术
弱监督相关技术
王菡子发明人的其他相关专利技术