技术领域
[0001] 本发明涉及计算机辅助语言教学领域,更具体地涉及用于发音评估的方法和系统。
相关背景技术
[0002] 语言是人类交流的工具,在国际化程度越来越高的今日,掌握多门语言已经被越来越多人所推崇。在这种背景条件下,利用计算机辅助口语学习的各种方式应运而生。
[0003] 专利98103685.6公开了一种利用音标评估学习者发音好坏的方法。该方法根据专家知识指定一些常见的发音错误模式,通过将说话人的发音与标准模式对比而得到得分,可以获得说话人发音是否准确的信息,从而对说话人的发音质量进行评估。该方法的缺陷是,错误模式需要预先设定,如果发音人的错误不在预先设定的错误模式之中,则很可能检测不出发音错误。
[0004] 专利02160031.7公开了一种自动发音矫正的方法。该方法从发音、音高、音强、长短四个方面衡量说话人发音水平。该方法的缺陷是需要人工标注每句话的发音音标,需要花费大量的人力劳动。该方法采用音标建立模型,并通过模型概率进行发音质量评分,需要对每个语种建立相应的音标模型,因此它不利于进行多语言的扩展,更难以支持在一句话中混入多语言的情况。
[0005] 专利200510107681.2公开了一种利用音素识别器评估语音的方法。由于该方法需要预先对各个音素进行建模,因而同样存在着无法支持多语言发音评估的问题。
[0006] 同理,专利200510114848.8,专利200710145859.1,专利200810102076.X,专利200810107118.9,专利200810168514.2,专利200810141036.6,专利20081022675.2,专利
200810240811.3的本质均是采用标准发音模型与被评测语音对比获得得分,从而评估被测语音的发音水平,其不同点在于计算得分的算法上的差异。这种类型的基于标准发音模型的方法,均难以进行多语言扩展,对未知语言的未知发音无法进行准确评估。然而,在日常生活中,人们口语中汉语与英语混用的情况越来越普遍,有时候甚至一句话里面混入两种以上不同的语言。这就使得传统的基于特定语言的标准模型的发音评估方法渐渐变得无所适从。
[0007] 所有基于音标的方法,均无法描述语言的连读现象。在进行音标标注时,连读和不连读的音标的标注相同,因此它无法评估一些词组(例如“a lot of”)是否被准确连读。
[0008] 所有基于音标的方法,均无法准确评判词内鼻音的准确归属问题。例如:“any”的发音是/a-ny/、还是/an-y/、还是/an-ny/。
[0009] 综上所述,需要一种新的发音评估方式,特别是在语言学习中的发音评估方式,以简单的方式更准确有效地评估发音质量。
具体实施方式
[0049] 以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
[0050] 本发明提供一种用于发音评估的方法,包括以下步骤:
[0051] 接收单语种或多语种的实测声音信号;
[0052] 根据所述实测声音信号,生成实测音频帧信号;
[0053] 将所述实测音频帧信号与标准音频帧信号比较,对所述实测声音信号评估质量。
[0054] 能够想到的是,标准音频帧信号可以从数据库中预先存储信息中获得;也可以实时地获得,例如,基于教师的发音形成标准音频帧信号,而基于学生的发音形成与其比较的实测音频帧信号。
[0055] 通过本发明提供的用于发音评估的方法和系统,利用实测声音信号与标准声音信号的音频帧的声学比较,以简单的方式准确有效地评估实测声音信号的发音质量,例如,实测声音信号是否准确(准确度达到预定值),而且,由于这种声学评估方式与文本无关,因而可容易地应用于对单语种和多语种(即,多语种混杂)的实测声音信号的评估,例如,对中英文混杂的实测声音信号的评估。
[0056] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0057] 从所述标准音频帧信号中提取标准音频特征信息;和
[0058] 从所述实测音频帧信号中提取实测音频特征信息;
[0059] 其中,所述比较包括:将所述实测音频特征信息与所述标准音频特征信息比较。
[0060] 在本发明的各实施例中,优选地,可利用各种音频特征信息用于所述比较,例如,所述标准音频特征信息和实测音频特征信息可为以下频谱特征信息中的至少一种(即,可利用以下类型的单个音频特征信息或者多个音频特征信息的组合:
[0061] 梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient),[0062] 听感线性预测系数(PLP,Perceptual Linear Prediction),
[0063] 线谱频率参数(LSF,Line Spectral Frequency),
[0064] 线性预测系数(LPC,Linear Predictive Coefficient),
[0065] 线性预测倒谱系数(LPCC,Linear Prediction Cepstral Coefficient),[0066] 时序模板(TRAP,TempoRAl Patterns)。
[0067] 更优选地,可采用PLP或TRAP作为音频特征信息用于所述比较。
[0068] 优选地,在本发明的各实施例中,所述比较包括:利用动态时间规整(DTW,Dynamic time warping)算法使所述实测音频帧信号与所述标准音频帧信号对齐(其中的帧块一一对应)而进行比较。
[0069] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0070] 在所述实测音频帧信号中形成A个实测帧块,每个实测帧块中包含一个或多个实测音频帧;
[0071] 在所述标准音频帧信号中形成B个标准帧块,每个标准帧块中包含一个或多个标准音频帧;
[0072] 其中,所述A和B为大于1的整数,所述比较包括:通过比较所述实测帧块与所述标准帧块的相似度,获得所述实测声音信号与所述标准声音信号的相似度;
[0073] 其中,如果A≠B,则确定所述实测声音信号的质量不合格,或利用DTW算法将A个所述实测帧块强制划分成B个实测帧块之后进行所述比较;
[0074] 优选地,如果A≥2B或B≥2A,则确定所述实测声音信号的质量不合格。
[0075] 也就是说,如果A=B,则可直接进行所述比较;否则,可直接确定所述实测声音信号的质量不合格,或者可替代地也可以利用DTW算法将A个实测帧块强制划分成B个实测帧块之后进行所述比较以确定所述实测声音信号的质量是否合格。优选地,在一个实施例中,如果A≥2B或B≥2A,则可认为所述实测声音信号与所述标准声音信号的差别过大或不相同,即,相似度过低或不相似,因而可直接确定所述实测声音信号的质量不合格。
[0076] 为了实现在此所述的强制划分,首先必须形成B个标准帧块,在知晓B值的情况下,进行所述强制划分而得到B个实测帧块。其方法是:利用DTW算法将实测帧特征与标准帧特征对齐以获得二者之间的帧和帧的对应关系,然后可再通过B个标准帧块的边界确定B个实测帧块的边界。
[0077] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0078] 获得所述实测音频帧信号的能量随时间变化曲线,并在其中的能量低谷处将所述实测音频帧信号分开,以形成所述A个实测帧块;和/或
[0079] 获得所述标准音频帧信号的能量随时间变化曲线,并在其中的能量低谷处将所述标准音频帧信号分开,以形成所述B个标准帧块。
[0080] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0081] 通过所述实测音频帧信号的所述实测帧块中的多个实测音频帧的梅尔频率倒谱系数(MFCC)、听感线性预测系数(PLP)、线谱频率参数(LSF)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、时序模板(TRAP)中的至少一种,构成实测音频帧特征序列;
[0082] 通过所述标准音频帧信号的所述标准帧块中的多个标准音频帧的梅尔频率倒谱系数(MFCC)、听感线性预测系数(PLP)、线谱频率参数(LSF)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、时序模板(TRAP)中的至少一种,构成标准音频帧特征序列;
[0083] 其中,所述比较包括:通过DTW算法将所述实测音频帧特征序列与所述标准音频帧特征序列对齐,对于在所述实测音频帧特征序列与所述标准音频帧特征序列中的相应的实测音频帧特征和标准音频帧特征进行相似度比较;
[0084] 优选地,所述相似度比较通过相关系数、支持向量机(SVM)、多层感知机(MLP)中的至少一种方式进行。在需要时,也可利用高斯混合模型(GMM)进行相似度比较。
[0085] 通过DTW算法,将所述实测音频帧特征序列与所述标准音频帧特征序列对齐,从而使得原先可能难以比较的两个不等长的序列中的元素拥有一一对应关系。将拥有一一对应关系的每组特征对(即,相应的实测音频帧特征和标准音频帧特征)送入相似度比较器进行相似度比较。
[0086] 在一个实施例中,相似度比较器可以用相关系数实现,采用相关系数比较实测音频帧信号和标准音频帧信号的相似度,即:
[0087]
[0088] 若f(X,Y)≥threshold则认为X和Y相同或具有充分相似度,否则认为X和Y不同或不相似。
[0089] 在一个实施例中,为了比较实测音频帧信号和标准音频帧信号的相似度,可采用以下分类器中的至少一种,以最终获得声音信号质量得分:
[0090] 支持向量机(SVM,support vector machine),
[0091] 多层感知机(MLP,multi layer perceptron),
[0092] 高斯混合模型(GMM,Gaussian Mixture Model)。
[0093] 在一个实施例中,采用SVM,即,f(X,Y)=SVM([X;Y])∈[-1,+1],其中,[X;Y]表示把两个列向量X和Y拼接成一个列向量送入SVM分类器。若f(X,Y)≥0,则认为X和Y相同或具有充分相似度,否则认为X和Y不同或不相似。
[0094] 在优选实施例中,采用MLP,即,f(X,Y)=MLP([X;Y])∈[0,1],其中,[X;Y]表示把两个列向量X和Y拼接成一个列向量送入MLP分类器。若f(X,Y)≥threshold,则认为X和Y相同或具有充分相似度,否则认为X和Y不同或不相似。
[0095] 在另一实施例中,采用GMM,即, 其中,GMMX表示由X估计得到的GMM模型,GMMX(Y)表示Y在X的概率模型中的概率得分,GMMY表示由Y估计得到的GMM模型,GMMY(X)表示X在Y的概率模型中的概率得分。若f(X,Y)≥threshold则认为X和Y相同或具有充分相似度,否则认为X和Y不同或不相似。
[0096] 优选地,在本发明的各实施例中,所述评估质量包括:
[0097] 当所述实测音频帧信号中的实测音频特征信息与所述标准音频帧信号中的标准音频特征信息的相似度小于预定门限时,确定所述实测声音信号不准确;否则,确定所述实测声音信号准确。
[0098] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0099] 利用各个所述实测帧块中质量合格的实测帧块的数量占所述实测帧块的总数的比例,获得所述实测声音信号的质量得分;或
[0100] 利用所述实测音频帧信号中所有实测帧块的质量平均得分,获得所述实测声音信号的质量得分。
[0101] 这样,可利用实测音频帧块中所含有的准确(或不准确的)帧占总帧数量的比例获得每个帧块以及实测声音信号的质量得分。也可以利用各个实测音频帧块的质量平均得分作为实测声音信号的质量得分。
[0102] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0103] 记录和/或输出在所述实测声音信号中被确定为不准确的部分;和/或[0104] 针对在所述实测声音信号中被确定为不准确的部分,相应输出在所述标准声音信号中的对应部分。
[0105] 在一个实施例中,根据在所述实测声音信号中被确定为不准确的部分,可获得发音不准确的位置(例如发音不准确的帧块位置),并可将其记录下来。
[0106] 在一个实施例中,针对在所述实测声音信号中被确定为不准确的部分,可相应输出在所述标准声音信号中的对应部分,从而可根据需要对特定的音节、单词、或词组进行语音比对,以及时纠正错误发音,例如可用于语言教学,这在着重纠正个人语音错误的情况下特别有用。
[0107] 优选地,在本发明的各实施例中,所述的方法进一步包括:
[0108] 根据在所述实测声音信号中被确定为不准确的部分的比例,确定所述实测声音信号的质量得分。
[0109] 在一个实施例中,通过计算发音不准确的音节个数或单词个数或词组个数所占的比例,获得声音信号质量得分。
[0110] 在一个实施例中,在基于所述实测音频帧信号而形成的A个实测帧块中,通过计算A个实测帧块中准确/不准确的块数计算质量得分。
[0111] 在一个实施例中,先按帧转成音频特征,再以DTW比较对齐,从而获得实测音帧与标准音帧之间的对应关系,将每一组对应的音频帧信号(一帧标准音和对应的一帧实测音合并在一起)送入神经网络中进行对比获得输出结果,或者直接计算相关系数而获得相似度。
[0112] 图1是根据本发明的一个实施例的用于发音评估的方法的示意性流程图。
[0113] 在步骤101-103,将获取的实测音频帧信号分帧而形成A个帧块(其中每个帧块中可包括多个帧),并可从中提取实测音频特征信息(例如MFCC)。
[0114] 在步骤104-106,将获取的标准音频帧信号分帧而形成B个帧块(其中每个帧块中可包括多个帧),并可从中提取标准音频特征信息(例如MFCC)。
[0115] 其中,所述A和B为大于1的整数,如果A=B(在图1所示实施例中),则继续进行后续步骤,否则认为实测声音信号与标准声音信号不同或不相似而认为发音质量不合格,当然也可利用前述的强制划分方式形成B个实测帧块(强制使得新的A=B)以与B个标准帧块进行DTW对齐比较。而且,步骤101-103与步骤104-106可同时进行,也可不同时进行;不过,在采用前述强制划分方式时,步骤104-106必须先于步骤101-103执行。
[0116] 以下将通过比较实测帧块与标准帧块的相似度,获得实测声音信号与标准声音信号的相似度。
[0117] 在步骤107,使实测音频帧与标准音频帧对齐。
[0118] 在步骤108,使实测音频帧信号的实测帧块与标准音频帧信号的标准帧块对齐。
[0119] 在上述对齐状态下,可获得实测声音信号与标准声音信号的帧块相似度,由此获得实测帧块的得分。
[0120] 在步骤109,确定实测音频帧信号的实测帧块的得分。
[0121] 在步骤110,确定实测声音信号的质量得分。
[0122] 图2是根据本发明的一个实施例的用于发音评估的方法的示意性流程图。
[0123] 在步骤201,将标准声音信号转换成16k、16位(BIT)的脉冲编码调制(PCM)格式的标准音频帧信号。当然,在其它实施例中,相应的标准音频帧信号可以是已预先完成的(例如存储在数据库中供调用),则不必执行该转换步骤。
[0124] 在步骤202,标准声音信号可被分成25毫秒(ms)的音频帧(窗),相邻窗之间的距离可为10毫秒(ms)。当然,在其它实施例中,也可以采取不同的窗(例如为20ms)和/或相邻窗之间的距离(例如为5ms)。声音信号是连续的“波形信号”,可以按照帧长20毫秒、帧移10毫秒将波形信号分帧处理获得所述“音频帧信号”,则100毫秒的语音将变成9帧音频帧信号,1000毫秒的语音将变成99帧音频帧信号。将语音按照能量低谷划分,又可以划分为若干个“帧块”,比如一句话5秒钟,可被分为499帧,但是里面只有5个音节,于是被分割为5个帧块。
[0125] 在步骤203,每个音频帧的波形信号被高频提升后转换成快速傅立叶变换(FFT)谱,将FFT谱按照梅尔(MEL)而等距离地分成24个子带并分别提取子带能量(当然也可分为其它数量的子带,例如36个),将子带能量单位转换为分贝,再作离散余弦变换(DCT),获得MEL频率倒谱系数(MFCC)特征。在另一实施例中,也可采取其它方式提取声学特征(例如MFCC);而在又一实施例中,也可提取不同于MFCC的其它声学特征作为比较参数。
[0126] 在步骤204-206,实测声音信号的处理方法与标准声音信号在201-203的处理方法相似,最后获得实测声音信号的MFCC特征。
[0127] 其中,步骤201-203与步骤204-206可同时进行,也可不同时进行。
[0128] 在步骤207,利用动态时间归整(DTW)算法将实测音频帧和标准音频帧对齐,获得实测音频帧每一帧与标准音频帧每一帧的对应关系。
[0129] 在步骤208,提取实测声音信号的能量曲线,在能量的低谷处把实测声音信号音分割成若干段(语音学上称为音节)。
[0130] 在步骤209,将实测声音信号的帧块内若干帧的MFCC拼接成实数序列,将其对应的标准声音信号的MFCC也拼成实数序列,求两个序列的相关系数和/或神经网络评分输出。
[0131] 在步骤210,当相关系数低于预定门限时,认为实测声音信号发音不准确,转到步骤211;否则,认为实测声音信号发音准确,转到步骤212。
[0132] 在步骤213,统计在步骤212中被认为发音准确的实测帧块的数量,计算发音准确的帧块在实测帧块总量中所占的比例。
[0133] 在步骤214,根据发音准确的帧块在实测帧块总量中所占的比例,将发音准确比例转化为分数,并可反馈给使用者。在一个实施例中,大于90%为满分;小于50%为零分;在50%-90%之间的按照线性插值求分数。
[0134] 本发明还提供一种用于发音评估的系统,包括:
[0135] 声音接收装置,用于接收单语种或多语种的实测声音信号;
[0136] 音频帧生成装置,用于根据所述实测声音信号生成实测音频帧信号;
[0137] 评估装置,用于将所述实测音频帧信号与标准音频帧信号比较,和对所述实测声音信号评估质量。
[0138] 通过本发明的实施例的技术方案,克服现有发音评估方法的缺陷,从声学上评估实测声音信号与标准声音信号的相似度以确定发音质量。它形式简洁,操作简单,可以实现语种无关的发音质量评估,因此具有更好的通用性和易用性。
[0139] 本发明提供的各种实施例可根据需要以任意方式相互组合,通过这种组合得到的技术方案,也在本发明的范围内。
[0140] 显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。