首页 / 声音分类模型的构建方法、声音分类方法和系统

声音分类模型的构建方法、声音分类方法和系统有效专利 发明

技术领域

[0001] 本发明涉及声音识别技术领域,尤其涉及一种声音分类模型的构建方法、声音分类方法和系统。

相关背景技术

[0002] 声音蕴藏着丰富的信息,是人类感官世界的组成部分之一,环境音频数据与动物、人类生活的密切关系,如在森林、原野等地使用自动监听和识别物种声音的技术对濒临灭绝的动物进行侦察;在地震带分布地区使用自动监听和识别动物声音异常的设备可作为地震预警系统的辅助技术。可见,自然环境声音的识别和分类与人类息息相关。因此,我们可以通过提取和分析自然环境声音所蕴含的信息特征来帮助了解生物多样性,进而监控生态系统的平衡。可以通过分析各种环境声音,来获得环境信息,更好保护环境,实现人与自然通过发展。
[0003] 从环境声音的识别技术来看,它涉及多个学科的交叉,如数字信号处理、听觉机理、模式识别、机器学习等。环境声音识别被应用在很多领域,如音频取证、声场景分析、环境安全监控、定位跟踪和声源分类、病人监护和非正常事件检测等,然而目前对环境声音的相关研究力度较小、尚未形成成熟的识别方法。

具体实施方式

[0057] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0058] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0059] 下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0060] 实施例1
[0061] 结合图1和图2,本实施例提供了一种声音分类方法,包括以下步骤:
[0062] 预处理,对原始声音数据进行预处理;
[0063] 特征提取,对声音信号进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换提取频谱特征;
[0064] 建模,利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈值,对提取出的特征数据进行训练得到训练数据库,通过极限学习机分类器进行实证分析和参数优化,得到分类模型。
[0065] 本实施例利用梅尔倒谱系数算法提取自然环境声音,再使用极限学习机作为分类器对提取的音频特征进行训练和测试,最后分析出待测声音所属的特征类别,从而实现声音的识别和分类,不仅可以有效识别和分类出不同的声音,而且在分析方法的确定和应用上,具有明显的优势。
[0066] 具体的,本实施例提供的声音分类模型的构建方法包括,
[0067] 预处理,对原始声音数据进行预处理;
[0068] 所述预处理包括将原始声音数据转化为wav格式,每段声音样本采用滤波器消除环境杂音,裁剪声音波形中的杂音和静音部分,保留特征波形,从而降低信号长度,减少运算量。
[0069] 特征提取,利用梅尔倒谱系数(CMCC)算法对声音信号进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换提取频谱特征;
[0070] 梅尔倒谱系数(MFCC)算法能够用来提取声音信号的特征,梅尔标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
[0071]
[0072] 所述对声音信号进行预加重的方法为,利用一个高通滤波器提升声音信号的高频部分,所述高通滤波器为,
[0073] y(n)=x(n)‑α*x(n‑1)#    (2)
[0074] 其中,0.9≤α≤1.0,本实施例中取0.97,n为信号的采样点数,x(n)为声音信号,y(n)为预加重后的声音信号。
[0075] 分帧的方法为,将预加重处理后的声音信号划分为时长为t的多个帧,在进行傅里叶变换将时域信息转化到频域前,通过分帧保留部分时域信息,从而对语音信号的频域和时域信息进行适当的表达。
[0076] 语音识别所采用的语音信号的采样频率为8KHz或16KHz,则分帧的间隔t适应性的取256或512。
[0077] 加窗的方法为,将每一帧数据加入大小为1103的汉明窗,窗外的值设定为0,分帧后的信号表示为S(n),n=0,1,...N‑1,其中n为分帧后得到的帧数,N为帧的大小,即帧与帧之间交叉的采样点个数,加入汉明窗后,表示为S′(n)=S(n)*W(n),则W(n)的形式为,[0078]
[0079] 其中,不同的a值会产生不同的汉明窗,一般情况下a=0.46。
[0080] 乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,并对语音信号的频谱取模平方得到语音信号的功率谱,具体方法为,创建汉明窗矩阵C,其大小与S(n)相同,两个矩阵的对应位置相乘,得到加窗后的声音信息矩阵S′(n),对加窗后的声音信息矩阵进行FFT快速傅里叶变换得到矩阵D,对矩阵D里每一帧的数据点分别取模再取平方,计算得到能量谱密度E,对每一帧得到的能量相加,得到一个新的矩阵F,其中的每个元素代表每一帧能量的总和。。
[0081] 然后定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,其频率响应定义为:
[0082]
[0083] 其中,
[0084] 计算每个滤波器组输出的对数能量为,
[0085]
[0086] 其中,s(m)为对数能量,X(k)为声音信号的能量谱,Hm(k)为滤波器组;
[0087] 将不同频带的能量取对数变换后,再经由离散余弦变换变回时域,称作梅尔频率倒频谱参数(MFCC)。其计算公式如下:
[0088]
[0089] 建模,利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈值,对提取出的特征数据进行训练得到训练数据库,通过极限学习机分类器进行实证分析和参数优化,得到分类模型;
[0090] 所述建模的过程包括随机特征映射和线性参数求解两个阶段;
[0091] 第一阶段,隐藏层参数随机进行初始化,采用一些非线性映射作为激活函数,将输入数据映射到一个新的特征空间,记隐藏层的输出为H(x),计算公式为:
[0092] H(x)=[h1(x),...,hL(x)]#    (7)
[0093] hi(x)表示如下:
[0094] hi(x)=g(wi,bi,x)=g(wix+bi),wi∈RD,bi∈R#   (8)
[0095] 其中wi和bi是隐藏层节点参数,g(wi,bi,x)是激活函数,,根据公式(7)和(8)计算出隐藏层输出H;
[0096] 第二阶段,通过最小化近似平方差的方法对连接隐藏层和输出层的权重(β)进行求解,目标函数如下:
[0097] min||Hβ‑T||2,β∈RL*m#     (9)
[0098] 其中H是隐藏层的输出矩阵,T是训练数据的目标矩阵:
[0099]
[0100] 通过线代和矩阵论的知识可推导得公式(9)的最优解为:
[0101] β*=H+T#    (11)
[0102] 其中H+为矩阵H的Moore‑Penrose广义逆矩阵,H+=(HTH)‑1HT,至此完成训练,在测试时利用训练得到的结果便可预测结果,用极限学习机模型来实现对自然环境声音的识别。
[0103] 实施例2
[0104] 本实施公开了一种声音分类方法,包括,
[0105] 基于实施例1提供的声音分类模型的构建方法训练得到极限学习机分类模型;
[0106] 将待分类的声音信号输入到极限学习机分类模型中得到分类结果。
[0107] 实施例3
[0108] 参考图3,本实施例提供了一种声音分类系统,包括,
[0109] 拾音器,包括麦克风和音频放大电路,用于采集声音信号。
[0110] 主处理模块,包括植入预处理算法的控制芯片,所述预处理算法用来接收拾音器获取的声音信号并进行预处理;
[0111] 所述控制芯片选用STM32F103T8,它有64KB的闪存存储器和20KB的运行内存。封装体积小,最大工作电压3.6V,使用了低压差线性稳压器将输入电压降到3.3V给微控制器供电;
[0112] DSP算法处理模块,与所述主处理模块通信连接,包括植入识别算法的芯片,所述识别算法为训练得到的所述分类模型,实现自然环境声音识别和分类;
[0113] 所述DSP算法处理模块选择型号为TMS320VC5509A的芯片它是基于TI C55x架构的定点音频专用DSP处理器,在提高并行度的同时全面减少能量耗散,实现了高性能低功耗,用DSP模块将特征提取好的数据存储在flash存储器中,然后用极限学习机学习方式训练数据,再处理数据实现自然环境声音识别和分类;
[0114] 显示模块,包括显示器和驱动控制器,用于将采集和处理声音信号过程中的执行状态显示出来,包括系统的启动、信号处理、识别结果;
[0115] 所述显示模块采用OLCD显示屏,用芯片型号为SVB‑LT0701的专用液晶驱动控制器;
[0116] 键盘模块,通过键盘实现系统的启动和关闭,通过键盘上不同的按键控制系统执行过程,包括显示正在进行的步骤、暂停当前系统运行;本实施例选用4×4键盘模块;
[0117] 电源和晶振模块,所述电源电压为2V~3.6V;所述晶振模块用来提供时钟信号;
[0118] STM32F103C8T6电源电压为2V~3.6V,只需在电路中设计一个XH插座,使用3,7V锂电池供电,接入电压不允许超过6V。晶振电路用来给芯片提供时钟信号。没有晶振单片机就无法工作,晶振值越大,单片机的运行速度就越快,但速度越快越容易被干扰,可靠性就越差,因此根据设计需求选择合适的电源和晶振即可。
[0119] 本领域内的技术人员应明白,本发明的实施例可提供为方法、设备(系统)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0120] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0121] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页 第1页 第2页 第3页
相关技术
分类模型相关技术
声音分类相关技术
沈希忠发明人的其他相关专利技术