技术领域
[0001] 本发明涉及英语教学辅助系统技术领域,尤其涉及一种英语发音教学系统。
相关背景技术
[0002] 现有的英语发音教学系统或教学装置,一般针对指定的英语文本,只能生成相应的英文的语音段,用来让用户去模仿学习,但是,所生成的语音段没有考虑英语文本所想要表达语气,全是以固定的语气朗读英语文本,不能为用户提供与英语文本相匹配的语音段,不能让用户更好的模仿学习。另外,现有的系统生成的语音与用户的语音之间的声音相差较大,用户不能很好根据与自身音色相近的语音段学习。
具体实施方式
[0059] 为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
[0060] 为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
[0061] 参见图1,本实施例提供一种英语发音教学系统,包括:
[0062] 语音采集模块,用于获取用户针对指定英语文本所发出的原始语音段;
[0063] 语音处理模块,用于针对所述原始语音段进行处理,获取该原始语音段的语音特征;
[0064] 所述语音特征包括:基频、音色、语速、音强、音调、停顿;
[0065] 本实施例中,所述语音处理模块,包括:
[0066] 基频和音调获取单元,用于采用预先获取的基频估计算法对所述原始语音段进行第一预处理,获取该原始语音段的基频和音调;在本实施例的实际应用中,基频和音调获取单元,采用预先获取的基频估计算法对所述原始语音段进行第一预处理处理,获取该原始语音段的基频和音调,具体包括:基频和音调获取单元,采用基频估计算法对所述原始语音段进行处理,得到该原始语音段的基频的周期T0,并基于该原始语音段的基频的周期T0,采用公式(1)获取该原始语音段的基频;
[0067] 所述公式(1)为:F0=1/T0;
[0068] 基于该原始语音段的基频,采用公式(2)获取该原始语音段的音调;其中,所述公式(2)为:原始语音段的音调=69+12·log2(F0/440)。
[0069] 音色获取单元,用于采用声谱分析方法针对所述原始语音段进行第二预处理,获取该原始语音段的音色;
[0070] 语速获取单元,用于基于所述原始语音段,获取该原始语音段的语速;本实施例中,基于原始语音段获取该语音段的语速,可采用多种方式,举例说明,可采用短时能量和短时过零率分析方式,通过对原始语音段进行分帧,并计算每帧的短时能量和短时过零率,可以得到原始语音段的波动情况。较高的语速可能表现为能量波动更大、过零率变化更频繁的特征。或者,采用基音周期分析方式,基音周期是声音的基本周期,可以通过自相关函数或其他分析方法来估计。较高的语速可能导致基音周期的减小。或者,采用短时傅里叶变换(STFT)和频率分析方式,具体为通过对原始语音段进行短时傅里叶变换,然后分析频谱中的频率成分。语速较快的语音可能具有更高的频率成分。或者,采用语音分帧和时域分析方式,具体为将原始语音段分成小的时间窗口,称为帧。通过计算相邻帧之间的变化,可以获得语音的时域特征,从而得到语速的信息。在一种具体实施方式中,该原始语音段的语音特征中的语速=原始语音段的帧数/原始语音段的时长。
[0071] 音强获取单元,用于基于所述原始语音段,获取该原始语音段的音强;
[0072] 停顿获取单元,用于基于所述原始语音段,获取该原始语音段的停顿。
[0073] 语音播报模块,用于针对所述指定英语文本和该原始语音段的语音特征,获取标准语音段并进行播放该标准语音段。
[0074] 参见图2,具体的,所述语音播报模块包括:
[0075] 语气类型识别单元,用于基于所述指定英语文本,确定该指定英语文本所对应的语气类型;
[0076] 语气类型识别单元,基于所述指定英语文本,确定该指定英语文本所对应的语气类型,具体包括:语气类型识别单元将所述指定英语文本输入至预先获取的语气识别模型中,所述语气识别模型得出与该英语文本相应的语气类型;
[0077] 所述语气类型包括:陈述语气、疑问语气、感叹语气、命令语气、条件语气、虚拟语气、意向语气;
[0078] 其中,任一语气类型均对应有预先设定的情感强度值。
[0079] 语音生成单元,用于基于所述指定英语文本,生成与该指定英语文本相应的初始语音段;
[0080] 所述初始语音段中的语音特征均为预先设定的;
[0081] 语音调整单元,用于基于原始语音段的语音特征和所述语气类型,对所述初始语音段进行调整,得到调整后的初始语音段,并将其作为标准语音段;本实施例中,为每种语气类型关联预先设定的情感强度值,提供更多情感信息。
[0082] 语音播放单元,对所述标准语音段进行播放。
[0083] 其中,本实施例中的语音调整单元,基于原始语音段的语音特征和所述语气类型,对所述初始语音段进行调整,得到调整后的初始语音段,并将其作为标准语音段,具体包括:基于该指定英语文本所对应的语气类型,确定与该语气类型所对应的预先设定的第一部分语音特征;所述第一部分语音特征包括:语速、音强、停顿;将所述初始语音段中的语速、音强、停顿换成与该语气类型所对应的第一部分语音特征,以及将该所述初始语音段中的基频、音调换成目标基频、目标音调,将该所述初始语音段中的音色换成原始语音段的音色,得到调整后的初始语音段,并将其作为标准语音段。本实施例中这些调整步骤有助于使合成语音更加符合不同语气类型的语音特征,增强了语音的逼真度和表现力,提高了系统的语音合成质量。本实施例中,通过调整语速、音强和停顿等语音特征,使得生成的语音更符合所述语气类型,提高语音合成的自然度。
[0084] 在原始语音段处理中,语音段的帧数通常指将语音段分成若干个固定长度的时间段,每个时间段称为一帧(Frame),并对每帧进行处理。这样做的目的是将连续的语音段转换为离散的数据,方便进行分析和处理。语音段通常是以每秒钟采样多少个点的方式进行采集和表示的,例如,CD音质的采样率为44.1kHz,也就是每秒钟采样44100个点。在实际应用中,通常会将连续的语音段划分成固定长度的时间段,并称之为帧。每帧的长度一般为10‑30毫秒不等,具体长度取决于应用场景和算法需求。划分出每帧之后,接下来就可以将每帧的语音信号进行分析和处理。常见的语音信号处理技术包括短时傅里叶变换(Short‑time Fourier transform,STFT)、线性预测编码(Linear Predictive Coding,LPC)等。这些技术可以从每帧语音信号中提取出语音的频域、时域等特征,然后用于语音识别、语音合成、语音增强等应用中。因此,语音段的帧数指的是一个语音段被分成多少个固定长度的时间段,每个时间段称为一帧,对这些帧进行语音信号处理。
[0085] 其中,所述目标基频是通过公式(3)所得到的;
[0086] 所述公式(3)为:
[0087] 目标基频=初始语音段中的基频+预先设定的调整因子。本实施例中提供了目标基频的计算公式,通过调整因子,以获得更符合语气类型的音调。
[0088] 目标音调=69+12·log2(F1/440);F1为目标基频。
[0089] Q=w1×Normalized Speech Rate+w2×NormalizedEmotionIntensity;
[0090] Q为预先设定的调整因子;w1为第一权重值;w2为第二权重值;
[0091] Normalized Speech Rate=
[0092] (Speech Rate‑MinSpeechRate)/(Max Speech Rate‑MinSpeechRate);
[0093] Speech Rate是原始语音段的语音特征中的语速;MinSpeechRate是预先设定的语速的最小值;Max Speech Rate是预先设定的语速的最大值;其中,MinSpeechRate≤Speech Rate≤Max Speech Rate;
[0094] NormalizedEmotionIntensity=
[0095] (Emotion Intensity‑Min Emotion Intensity)/(Max Emotion Intensity‑Mi n Emotion Intensity);
[0096] Emotion Intensity是该英语文本相应的语气类型所对应的情感强度值;Min Emotion Intensity是预先设定的情感强度的最小值;Max Emotion Intensity是预先设定的情感强度的最大值;
[0097] Min Emotion Intensity≤Emotion Intensity≤Max Emotion Intensity。
[0098] 本实施例中通过预先设定的调整因子和动态计算的方式,实现了根据语气类型的特征进行动态调整,提升语音的表现力和适应性。另外,本实施例将语气类型与预先设定的情感强度值关联,使语音合成更富有情感。最终得到的标准语音段也更有情感。
[0099] 本发明的一种英语发音教学系统,由于采用语音处理模块,用于针对所述原始语音段进行处理,获取该原始语音段的语音特征;所述语音特征包括:基频、音色、语速、音强、音调、停顿;语音播报模块,用于针对所述指定英语文本和该原始语音段的语音特征,获取标准语音段并进行播放该标准语音段,相对于现有技术而言,其可以根据用户的发音差异和语气要求生成个性化、逼真的标准语音段,提高发音教学的个性化适应性,以及采用基频、音色、语速、音强等多维度的语音特征进行处理,有助于合成语音更贴近真实人类语音,提升合成语音的真实感。另外,本实施例还引入语气类型识别模型和相应的调整步骤,使系统能够适应不同的语气类型,包括陈述、疑问、感叹等,提供更全面的语音发音训练。而且,本实施例通过关联语气类型与情感强度值,系统可以在语音中表达更多的情感信息,增加了语音合成的表达力和情感层次。最后,本实施例中的预先设定的语音特征和调整因子可根据需求进行灵活调整,使得系统更具可定制性,适用于不同教学场景和个体差异。通过提供更自然、贴近真实的标准语音段,有助于提高用户的学习兴趣,增加对发音准确性的关注,从而提升英语发音教学的效果。
[0100] 在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0101] 在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连;可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0102] 在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”,可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”,可以是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”,可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度低于第二特征。
[0103] 在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0104] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。