技术领域
[0001] 本发明涉及口语训练,具体涉及一种外语口语智能训练方法。
相关背景技术
[0002] 目前,在口语教学实践中,为了使学生能够熟练掌握相应的口语发音技巧,一般采用的方法都是向学生提供不同类别的口语发音训练素材,以便学生能够反复随着口语发音训练素材进行跟读,从而使自身的实际口语发音能够接近口语发音训练素材对应的标准口语发音。
[0003] 但是,上述口语发音训练方式只能依靠学生自身的主观感受来判断口语发音的训练结果是否与标准口语发音相符,不能对学生自身的实际口语发音情况进行客观的分析判断,不利于学生对自身的实际口语发音情况进行有针对性的调整改善,从而大大降低了口语发音训练的训练效果。此外,口语发音训练素材的训练内容有限,如何在已有的口语发音训练素材上对口语数据进行扩增,帮助学生扩展训练内容,也是需要解决的问题。
具体实施方式
[0064] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0065] 一种外语口语智能训练方法,如图1和图2所示,S1、收集口语数据,对口语数据进行预处理,得到口语数据集,具体包括:
[0066] S11、收集口语数据,对口语数据进行加窗滤波和频域变换,得到对应的频谱序列,并对频谱序列进行归一化处理;
[0067] S12、采用线性预测编码方法提取归一化后的频谱序列的标准发音特征;
[0068] S13、对标准发音特征与口语数据进行匹配,并对口语数据进行标注,得到口语数据集。
[0069] 具体地,S11中对口语数据进行加窗滤波和频域变换,得到对应的频谱序列,包括:
[0070] 采用快速傅里叶变换对口语数据进行频域变换,得到对应的频谱序列:
[0071]
[0072] 其中,F(A,B)表示频谱序列,A、B表示频谱序列二维向量,f(a,b)表示口语数据,a、b表示口语数据二维向量,m、n分别表示口语数据二维向量a、b的数量。
[0073] S2、对口语数据集进行数据扩增,得到扩增口语数据集,并利用扩增口语数据集进行外语口语训练,具体包括:
[0074] S21、构建生成对抗网络GAN,将口语数据集输入生成对抗网络GAN进行数据扩增;
[0075] S22、对扩增口语数据集中新的口语数据进行加窗滤波和频域变换,得到对应的频谱序列,并对频谱序列进行归一化处理;
[0076] S23、采用线性预测编码方法提取归一化后的频谱序列的标准发音特征;
[0077] S24、对标准发音特征与新的口语数据进行匹配,并对新的口语数据进行标注,得到扩增口语数据集;
[0078] S25、利用扩增口语数据集进行外语口语训练。
[0079] 本申请技术方案中,生成对抗网络GAN包括生成网络G、第一判别网络D1和第二判别网络D2;
[0080] 生成网络G,将口语数据集作为输入,捕捉样本数据的分布,尽可能生成在第一判别网络D1中被认为是真实的新的样本数据;
[0081] 第一判别网络D1,对生成网络G生成的新的样本数据进行真实性判断;
[0082] 第二判别网络D2,控制生成网络G生成的新的样本数据的真实性和平滑性。
[0083] 上述技术方案,收集口语数据,对口语数据进行预处理,得到口语数据集,对口语数据集进行数据扩增,得到扩增口语数据集,并利用扩增口语数据集进行外语口语训练,构建生成对抗网络GAN对口语数据集进行数据扩增,有效扩展了训练内容,同时通过对扩增口语数据集中的口语数据进行加窗滤波和频域变换,得到对应的频谱序列,并对频谱序列进行归一化处理,采用线性预测编码方法提取归一化后的频谱序列的标准发音特征,并对口语数据进行标注,使得用户能够利用标准发音特征进行规范化的外语口语训练。
[0084] 如图1和图3所示,S3、采集用户进行外语口语训练的训练语音数据,并提取训练语音数据的特征参数,具体包括:
[0085] S31、采集用户进行外语口语训练的训练语音数据,对训练语音数据进行加窗滤波和频域变换,得到对应的频谱序列;
[0086] S32、根据训练语音数据的频谱序列获取训练语音数据的混合特征向量;
[0087] 其中,混合特征向量包括梅尔频率倒谱系数和优化嗓音起始时间,优化嗓音起始时间为声带震动与所对应音素结束中较早发生的时间与口腔除阻时间之差,口腔除阻时间为语音语料按音素切分后音素开始时间。
[0088] 具体地,S32中根据训练语音数据的频谱序列获取训练语音数据的混合特征向量,包括:
[0089] S321、将训练语音数据的频谱序列输入一组Mel刻度的三角滤波器组,以将频谱从线性刻度转换至Mel刻度;
[0090] S322、对每个滤波器输出的能量取对数,并进行离散余弦变换DCT,取预设数量的系数作为梅尔频率倒谱系数;
[0091] 其中,Mel刻度采用下式计算:
[0092]
[0093] 上式中,fM为Mel刻度,f为实际频率。
[0094] S4、根据训练语音数据的特征参数对训练语音数据进行发音错误识别,得到发音错误识别结果,具体包括:
[0095] S41、获取扩增口语数据集中的口语数据及其对应的频谱序列,将口语数据的频谱序列输入一组Mel刻度的三角滤波器组,以将频谱从线性刻度转换至Mel刻度;
[0096] S42、对每个滤波器输出的能量取对数,并进行离散余弦变换DCT,取预设数量的系数作为梅尔频率倒谱系数;
[0097] S43、确定口语数据的声带震动与所对应音素结束中较早发生的时间与口腔除阻时间之差,口腔除阻时间为语音语料按音素切分后音素开始时间,得到口语数据的混合特征向量;
[0098] S44、对口语数据的混合特征向量与训练语音数据的混合特征向量进行匹配,以对训练语音数据进行发音错误识别,得到发音错误识别结果。
[0099] 上述技术方案,采集用户进行外语口语训练的训练语音数据,并提取训练语音数据的特征参数,根据训练语音数据的特征参数对训练语音数据进行发音错误识别,得到发音错误识别结果,通过对口语数据的混合特征向量与训练语音数据的混合特征向量进行匹配,能够对训练语音数据进行发音错误识别,得到发音错误识别结果,从而能够对用户的实际口语发音情况进行客观分析判断。
[0100] 如图1和图3所示,S5、针对发音错误识别结果在扩增口语数据集中匹配类似的口语数据,利用类似的口语数据重复进行外语口语训练,具体包括:
[0101] S51、获取发音错误的训练语音数据对应的目标口语数据的混合特征向量,通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据;
[0102] S52、获取类似的口语数据的标准发音语谱图,并给出预先录制好的标准发音口腔舌位动画,供用户重复进行外语口语训练。
[0103] 具体地,S51中获取发音错误的训练语音数据对应的目标口语数据的混合特征向量,通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据,包括:
[0104] S511、对目标口语数据的混合特征向量和扩增口语数据集中其他口语数据的混合特征向量进行归一化处理;
[0105] S512、采用下式计算归一化后的目标口语数据的混合特征向量与扩增口语数据集中其他口语数据的混合特征向量之间的相似度:
[0106]
[0107] 其中,S(X,Yi)为目标口语数据的混合特征向量X与扩增口语数据集中第i个口语数据的混合特征向量Yi之间的相似度,Xj为目标口语数据的混合特征向量X的第j个分量,Yij为扩增口语数据集中第i个口语数据的混合特征向量Yi的第j个分量,N为混合特征向量的维度。
[0108] 上述技术方案,针对发音错误识别结果在扩增口语数据集中匹配类似的口语数据,利用类似的口语数据重复进行外语口语训练,通过计算混合特征向量之间的相似度在扩增口语数据集中匹配类似的口语数据,获取类似的口语数据的标准发音语谱图,并给出预先录制好的标准发音口腔舌位动画,供用户重复进行外语口语训练,从而能够帮助用户对自身的实际口语发音情况进行有针对性的调整改善,大大提升了口语发音训练的训练效果。
[0109] 以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。