首页 / 基于特征强化模型的特征提取方法

基于特征强化模型的特征提取方法实质审查 发明

技术领域

[0001] 本发明涉及水下声音特征提取技术领域,具体为基于特征强化模型的特征提取方法。

相关背景技术

[0002] 卷积神经网络相比于深度神经网络来说,在训练过程中产生的特征有所不同,使得卷积神经网络对平移有较好的宽容度,而相对于对于旋转,卷积神经网络的宽容程度却下降了许多。并且全连接层为了有效降低训练参数的数量会在对特征进行集成的时候会丢失特征位置信息的问题,而池化操作会对信息的细节进行一定的舍弃。

具体实施方式

[0014] 需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
[0015] 具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于特征强化模型的特征提取方法,包括以下步骤:
[0016] 步骤一:设定损失阈值,然后获取训练数据集,并利用训练数据集训练卷积神经网络,当卷积神经网络误差小于等于损失阈值时,提取卷积神经网络池化后的特征矩阵;
[0017] 步骤二:对特征矩阵进行仿射变换;
[0018] 步骤三:针对仿射变换后的特征矩阵,将特征矩阵中局部位置的抗特征变化能力进行加强,得到特征矩阵N;
[0019] 步骤四:将特征矩阵N输入到卷积神经网络的全连接层中再次训练,得到最终特征。
[0020] 具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述仿射变换表示为:
[0021]
[0022] 其中,(xSource,ySource)表示原矩阵特征点,(xTargea,yTarget)表示经过仿射变换后的矩阵的特征点,θ11、θ12、θ13、θ21、θ22以及θ23表示仿射变换系数。
[0023] 具体实施方式三:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述步骤三中抗特征变化能力进行加强包括通道维度增强和空间维度增强。
[0024] 具体实施方式四:本实施方式是对具体实施方式三的进一步说明,本实施方式与具体实施方式三的区别是所述步骤三中将特征矩阵中局部位置的抗特征变化能力进行加强通过特征集加权算法进行,所述特征集加权算法具体步骤为:
[0025] 步骤1:对仿射增强后的特征矩阵中的每个通道维度赋予一个权重参数βk;
[0026] 步骤2:对仿射增强后的特征矩阵中每个空间维度中的每个元素赋予一个权重参数αij;
[0027] 步骤3:将αij和βk与对应元素位置进行相乘,得到带权三维张量;
[0028] 步骤4:对带权三维张量进行最大池化,得到一维张量M;
[0029] 步骤5:将一维张量M进行归一化,归一化后的M即为特征矩阵N。
[0030] 具体实施方式五:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述步骤1的具体步骤为:
[0031] 首先将特征矩阵进行离散化,然后根据离散化后的特征矩阵得到信息熵,最后对信息熵进行归一化得到每个通道的权重参数βk。
[0032] 具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述离散化表示为:
[0033]
[0034] 其中x表示矩阵中元素的激活值,Xmin,Xmax分别表示激活函数的下界和上界,o表示离散后的区间长度。
[0035] 具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述βk表示为:
[0036]
[0037]
[0038]
[0039] 其中,Hk表示第k个特征矩阵的熵值,Hi表示第i个特征矩阵的熵值,f(i,j)表示特征二元组(i,j)出现的次数,pij表示特征二元组(i,j)出现的频率,m表示特征矩阵的长,W表示特征矩阵的宽,H表示特征矩阵的高,min为 中的最小值,k∈[0,k],底数为10。
[0040] 具体实施方式八:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述权重参数αij表示为:
[0041]
[0042]
[0043] 其中, 表示前k个通道中每个通道中第ij个元素的累加和,m和n表示特征矩阵的长和宽,0≤i≤m,0≤j≤n,a和b表示可调参数, 表示3维数组χ中的第m个二维数组中第ij个元素。
[0044] 具体实施方式九:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述带权三维张量表示为:
[0045] x′kij=αijβkxkij
[0046] 其中,xkij表示三维张量。
[0047] 具体实施方式十:本实施方式是对具体实施方式九的进一步说明,本实施方式与具体实施方式九的区别是所述一维张量M表示为:
[0048]
[0049] W表示特征矩阵的宽,H表示特征矩阵的高。
[0050] 虽然现有的卷积神经网络模型经过有效的训练,在特征提取方面具有很大的优势,然而,卷积神经网络模型在特征变换的鲁棒性方面却存在明显的缺陷。特征强化方法的提出是基于优质分类器所提取出的训练样本特征进行的。首先使用训练数据对分类卷积神经网线进行有效的训练,从而得到可用的优质特征。这个完整的过程称这学习特征与表示过程,与传统的卷积神经网络训练无异,过程的评判标准就是分类的准确率。当分类器在训练样本上的分类准确率达到可以应用的程度或者训练模型的损失函数优化足够好,就可以认为当前模型取得了在训练样本上可用的模型特征。
[0051] 然后,本发明针对于所提取的优质特征提出了特征平面强化算法,该算法在提取到的优质特征集合的基础上通过施加仿射变换来模拟特征集的旋转与平移等变化,特征平面强化算法如算法1所示。
[0052]
[0053]
[0054] 在卷积神经网络中,全连接层将卷积层产生的特征图映射成一个固定长度(一般为输入图像数据集中的图像类别数)的特征向量。这个特征向量包含了输入图像所有特征的组合信息,该向量将图像特征保留了下来以此完成图像分类任务。但是,从CNN的feature map进入全连接层前进行flatten操作的这一操作,会丢失掉feature map的空间位置信息。这一问题会影响特征提取的质量。
[0055] 因此,变形的特征集合还要结合相应特征的位置信息,因为脱离了位置信息的特征加强集合不但不能起到增强健壮性的目的还会使模型所提取的特征变得更差。本方法使用特征集加权算法对经过仿射变换的特征集进行处理,加强了特征局部位置的抗特征变化能力,可以有效的提高特征集合的健壮性。强化的角度从平面和空间两个维度来增强,特征集加权算法如算法2所示。
[0056]
[0057]
[0058] 最终将输出的归一化的特征矩阵N,输入到全连接层,经过网络的不断反馈调节,最终确定N的具体数值,即N为基于特征强化模型的特征提取方法所提取到的优质特征。
[0059] 其中Step(3)的详细步骤为:
[0060] 首先定义 为仿射增强特征矩阵集合。χ可以视为一个三维数组,k表示3维数组中2维数组的个数,W与H分别为每个矩阵的行和列。定义xkij为3维数组中第k个二位数组的第(i,j)个元素。定义 为加权之后的仿射增强特征矩阵集合,它通过权重参数αij、βk、xkij三者相乘得到。计算过程如式(1):
[0061] x′kij=αijβkxkij   (1)
[0062] 其中Step(4)详细步骤为:
[0063] 最后对χ‘的每个二维数组施加池化操作,加权之后的仿射增强特征矩阵集合聚合成一个一维的特征向量F={f1,f2,…,fk},其中fk计算由式(2)表示:
[0064]
[0065] 特征的仿射变换方法:
[0066] 仿射变换是二维平面中一种重要的空间变换,是指在几何中,一个向量空间进行一次线性变换后,变换为另一个向量空间的概念。在几何上定义为两个向量空间之间由一个非奇异的线性变换接上一个平移变换组成。作为一种二维坐标到二维坐标之间的线性变换,仿射变换可以有效的保证目标变换的平直性(straightness)与平行性(parallelness)。
[0067] 通过调整仿射变换的参数,可以对提取出的特征进行以上几种变换操作。本发明针对特征矩阵的仿射变换如式(3)所示。
[0068]
[0069] 式中,(xSource,ySource)表示原矩阵特征点,(xTarget,yTarget)表示经过仿射变换后的矩阵的特征点,系数矩阵θ即为仿射变换系数,可以通过调整系数矩阵θ,实现图像的放大、缩小、平移和旋转等变换,如式(4)所示。
[0070]
[0071] 只要设置6个参数就可以进行仿射变换,本发明在提取到优质的特征后对每个特征矩阵都设置1组初始的6个参数,来模拟特征的放缩、平移、和旋转并将这些特征结合其位置信息送入CNN中再次强化训练。通过网络的不断反馈调节确定每个特征矩阵最终的仿射变换参数,从而确定最终的优质的特征。
[0072] 权重参数计算方法:
[0073] (1)空间权重参数计算方法
[0074] 仿射变换增强矩阵集合可以视为一个三维数组,定义Ck为3维数组χ中的第k个二维数组, 为三维数组中所有二维数组的累加,其中Sij∈S,即如式(5)所示。
[0075]
[0076] 计算出空间权重参数矩阵,这意味着不同二维数组的相同位置处的激活值被叠加,以反映平面空间中某个位置处累积激活值的强度,即强度越大,位置越重要,对应于该位置的αij值应该越大。然后,执行归一化操作以获得最终权重矩阵A,这里的归一化处理选择具有两个超参数的归一化函数,式中的sij表示S内第(i,j)个元素值,根据神经网络训练情况可以动态调整a,b两个参数。如式(6)所示。
[0077]
[0078] (2)通道权重参数计算方法
[0079] 根据香农信息论,熵被定义为描述事物不确定性的度量,它代表系统混沌状态,也可以理解为它平均信息量的体现。熵越大,无序度越高,反之亦然。由此,熵的概念被引入到图像处理领域。它能有效地反映图像信息的丰富程度和衡量图像的平均信息含量。熵的类型可分为一维信息熵和二维图像熵。
[0080] 由于仿射变换增强矩阵集合所代表的特征是不同角度下声音的高层次特征,不同的矩阵中的信息含量也不尽相同,因此,集合中每个矩阵的重要程度可以根据它所含有的信息量来衡量。针对面向通道维度的权重参数计算问题,本发明提出了一种基于图像熵的权重参数计算方法。由于一维图像熵只能反映图像中灰度分布的聚集。它不能显示信息的空间分布特征因此,本发明通过二维图像熵的方式计算通道的权重参数,目的是体现出仿射变换增强特征矩阵中信息的空间分布特征。
[0081] 为了让连续数据变得离散化,可以在计算二维图像熵之前使用宽度离散化方法预处特征矩阵,矩阵中每个元素的激活值具体的计算方法如式(7)所示。
[0082]
[0083] 其中x是矩阵中某元素的激活值,Xmin,Xmax是激活函数的下界和上界,m是离散后的区间长度。定义(I,J)为离散化后的特征二元组,其中I(0≤I≤m)是特征元素的离散激活值,J(0≤J≤m)是离散化后的特征矩阵邻域激活均值。Hk是第K个特征矩阵的熵值,具体计算方法如式(8)所示。
[0084]
[0085] 其中:
[0086]
[0087] f(i,j)表示特征二元组(i,j)出现的次数,HW可以衡量特征矩阵的大小。最后一步需要对所有特征矩阵的熵统一归一化,如式(10)所示。
[0088]
[0089] 实施例:
[0090] (1)使用MFCC特征表示方法对原始音频和环境音频分别进行特征表示得到表示的特征向量记为A,B。
[0091] (2)将A和B作为传统的CNN的输入,把提取出的特征组合为特征D,并将D输入到WaveNet中做声音生成。
[0092] (3)将A和B作为特征强化模型的输入,将提取出的特征组合为特征D1。并将D1输入到WaveNet中做声音生成。
[0093] (4)比较(2)、(3)两步生成的声音信号与测量场真实声音信号的均方误差。
[0094] 需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

当前第1页 第1页 第2页 第3页
相关技术
提取方法相关技术
模型特征相关技术
何鸣发明人的其他相关专利技术