首页 / 环境声音分类目标模型构建方法及系统

环境声音分类目标模型构建方法及系统实质审查 发明

技术领域

[0001] 本发明涉及声音信号处理技术领域,具体来说是一种环境声音分类目标模型构建方法及系统。

相关背景技术

[0002] 随着深度学习的发展,环境声音分类也越来越受到人们的关注。环境声音分类具体是指在复杂的声学环境里能够准确识别出其中的环境声音,并对识别到的环境声音精准分类。在实际生活中,人们在许多方面也对环境声音分类任务提出需求,如在智能家居中,通过识别不同的声音事件(如敲门声、玻璃破碎声等),可以实现家庭安全的自动报警。随着机器学习发展,目前环境声音分类已经超过了人类。
[0003] 现有的环境声音分类方法依赖于传统的信号处理技术,如梅尔频率倒谱系数(MFCC)等,这些方法在处理非平稳信号时存在局限性,难以准确捕捉声音信号的瞬时特性。随着深度学习技术的发展,卷积神经网络(CNN)在声音信号处理上展现出巨大潜力,但现有方法在特征提取和模型泛化能力上仍有提升空间。

具体实施方式

[0059] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060] 本实施例中,提供一种基于Wigner‑Ville分布和改进ResNet50的环境声音分类目标模型的构建方法,是通过深度学习的方法对环境声音进行识别分类,通过Wigner‑Ville分布,辅助分析声音信号的动态变化。通过改进ResNet50的网络结构,在分类准确率、泛化能力和实时性方面均有显著提升,进而为环境声音分类提供了新的解决方法。该基于Wigner‑Ville分布和改进ResNet50的环境声音分类方法具体包括:数据收集与预处理、Wigner‑Ville分布变换、改进ResNet50模型构建、网络模型训练、声音分类;
[0061] 如图3所示,是基于Wigner‑Ville分布和改进ResNet50的环境声音分类方法框架。先获取周围环境音,在经过预处理后,再通过WVD变换,完成声音特征的提取过程,之后将提取出来的特征输入到训练模型中,进行建模,最后通过分类器得到结果输出。具体步骤如下:
[0062] 步骤1:数据预处理:
[0063] 步骤1.1:获取带有声音类别标签的声音数据集,本实例中,采用的数据集包括城市交通、家庭环境、自然环境等30多种场景下的音频数据,音频样本总数超10000个,确保了数据的多样性和实际应用的覆盖度,其中80%为训练集,10%为验证集,10%为测试集。
[0064] 步骤1.2:通过专业的声学分析师团队对音频数据进行精确标注,包括声音类别、持续时间、强度等信息,以支持监督学习的需求。
[0065] 步骤2:利用Wigner‑Ville分布对声音信号进行时频变换,生成时频特征图;
[0066] 步骤2.1:定义Wigner‑Ville分布;
[0067]
[0068] 其中s(t)是输入的信号序列,τ是时间延迟,s*(t)是s(t)的复共轭,ω是角频率。
[0069] 步骤2.2:对经过预处理的音频信号进行希尔伯特变换,将其转换到复数域。从而增强信号包络和相位信息的清晰度,并消除负频率‑分量,以改善信号在时域和频域中的表现;
[0070] 步骤2.3:使用WVD量化不同时间尺度上的瞬时频率和振幅变化,捕捉声音信号的固有非平稳特征;
[0071] 步骤2.4:通过加权窗函数的方法来调整频率成分的时频分辨率,利用稀疏表示理论来增强信号的时频特征表示,并采用时频分布方法来改善时频能量的集中度;
[0072] 步骤3:构建包含Inception Convolution结构的改进ResNet50模型:
[0073] 步骤3.1:采用Efficient Dilation Optimization(EDO)算法,根据数据确定最佳参数配置。
[0074] 步骤3.1.1:初始化预训练网络,将其中每个卷积层均设定为包含所有可能的扩张i模式,其中卷积滤波器的权重定义为 W代表第i个卷积滤波器的权重,
采样位置定义为 其中 和 代表第i个通道的采样位置。
[0075] 步骤3.1.2:以 为目标函数,最小化预训练权重W的预期输出和采 样膨胀 权重的 预期输 出之间 的误 差 其中 采样位 置范围 为
[0076] 步骤3.2:将Inception Convolution(初始卷积法)架构融入ResNet50模型中[0077] 步骤3.3:改进ResNet50模型
[0078] 步骤3.3.1:将卷积层的卷积核大小从初始的3×3修改为(2dmax+1)×(2dmax+1),本实施例中dmax=2。选择dmax=2是为了能够获得更大的感受野,从而更好地捕获长程依赖,并且对于更大的卷积核,它不会忽视区域细节,从而获得更好地局部信息。
[0079] 步骤3.3.2:选择最佳膨胀模式以最小化误差。
[0080] 步骤3.4:通过将具有相同膨胀模式的滤波器合并,以重组滤波器。
[0081] 步骤4:使用时频特征图对改进ResNet50模型进行训练。
[0082] 步骤4.1:将图像比例调整为224x224以满足IC‑ResNet的训练需求
[0083] 步骤4.2:应用Z‑score标准化将像素值归一化到指定范围。
[0084] 步骤4.3:使用反向传播算法更新网络权重,本实施例中采用了交叉熵损失函数、优化器、正则化技术和学习率调度策略等组件来增强模型的泛化能力并防止过拟合。
[0085] 步骤5:对新的声音信号进行分类,以识别声音类型。
[0086] 本实施例中的一个特征为采用Wigner‑Ville分布变换包括对声音信号进行Hilbert变换,并将其转换到复数域。
[0087] 本实施例的一个特征在于改进ResNet50模型通过Efficient Dilation Optimization算法优化Inception Convolution结构的膨胀模式。
[0088] 本实施例的模型评估和测试经过训练后,测试集中的声音图像通过预处理步骤转换成网络可读格式,并使用经过训练的IC‑ResNet50模型进行分类预测。预测结果记录在案,并与实际标签进行比较。通过计算声音分类任务的准确度、精确度、召回率、F1评分和平均精确度(AP)等评价指标,综合评价模型的性能和泛化能力,将WVD处理的声音图像与IC‑ResNet50结构和EDO算法优化的初始卷积层相结合,建立了一个高效稳健的声音分类模型。该模型充分利用了跨时间和频率域的声音信号的丰富信息,能够准确识别声音类型。
[0089] 如图3所示,图3左边为原本的模型,右边为改进的模块,改进之处在于将原本两个5*5的卷积块给替换成了3*3的Inception Convolution。
[0090] 为了验证基于ResNet‑50的改进IC‑resNet50算法在低信噪比下的性能优势,并使其更具说服力,本实施例在VGG‑11、VGG‑19、ResNet‑18、ResNet‑50和IC‑resNet‑50之间进行了对比实验。这一部分的实验数据使用的是WVD时频图像,信噪比在‑16分贝至4分贝之间。
[0091] 表1.比较实验结果
[0092]
[0093] 从表1中可以看出,该算法的识别精度在一定程度上优于其他常规方法。即使在信噪比为‑14分贝的情况下,8种声音信号调制的整体平均识别准确率仍可达到96.39%。分析表明,基于WVD时频分析和IC‑ResNet50方法的模型能够自动挖掘信号的时频特征,具有较强的表示能力,充分挖掘信号的时频特征,使算法能够提取更多的区辨特征表示。该模型具有较好的学习能力和抗噪声能力,识别性能得到一定程度的提高,说明初始卷积结构有助于提高识别精度。
[0094] 本实施例提出了一种新的环境声分类方法IC‑ResNet50。该方法首先对环境声音数据进行WVD变换,捕捉复杂的时频特征。然后将这些特征转换为频域图像,作为进一步分类的输入。通过将Inception Convolution(IC)结构无缝集成到ResNet50框架中,特征表示和分类精度都得到了提高。实验结果验证了IC‑ResNet50在分类性能方面优于其他方法。未来,为了满足应用需求,将对提出的环境声分类方法进行轻量级研究,以在不影响准确性的情况下提高分类速度。
[0095] 以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页 第1页 第2页 第3页