技术领域
[0001] 本发明涉及交互式系统技术领域,尤其涉及一种外语口语交互式系统和方法。
相关背景技术
[0002] 传统背景下的外语口语交互式系统依赖教师的指导和反馈,限制学生自主学习能力,传统系统往往难以提供个性化的口语指导。传统系统中的口语评估和反馈通常是需要人工评判后,进行反馈,无法快速纠正口语错误。因此,目前亟需一种更灵活、个性化和效果更好的外语口语学习系统。
具体实施方式
[0019] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0020] 本技术方案提供了本技术方案提供了一种外语口语交互式系统和方法。
[0021] 本技术方案方案一种外语口语交互式系统,包括:基于预设的语音识别技术,采集口语音频,并将所述口语音频转化为文本形式;
基于预设的语音合成技术,将文本形式转化为标准音频输出;
实时处理输入的口语音频,生成反馈信息和指导信息;
通过所述反馈信息和指导信息,选择特定的学习任务或学习主题进行口语练习。
[0022] 本技术方案的工作原理和有益效果在于:本技术方案提供了一种外语口语交互式系统和方法,语音识别技术使用预设的语音识别技术,分析和转换学生的口语音频为文本形式。这使得系统能够理解学生的口语表达并进行后续处理。语音合成技术利用预设的语音合成技术,将文本形式的指导信息和反馈信息转化为标准音频输出。实时处理口语音频实时处理学生输入的口语音频,通过语音识别技术将其转化为文本,然后进行语义和语法分析。系统根据学生的口语表达,生成相应的反馈信息和指导信息。根据反馈信息和指导信息,系统选择特定的学习任务或学习主题,以提供针对性的口语练习。这可以帮助学生集中练习特定的语言技能或话题,并提高口语表达能力。根据学生的口语表达,提供个性化的反馈和指导。学生可以根据系统的指导调整口语表达,纠正错误,并提高语音、语法和流利度等方面的能力。能够实时处理学生的口语音频,快速生成反馈信息。学生可以在练习过程中立即获得针对性的反馈,提供了更灵活的学习体验,使学生能够自主学习和练习口语。根据学生水平和需求提供不同的学习任务和学习主题。
[0023] 作为本技术方案的一种实施例,所述语音识别模块,包括:采集单元,用于通过预设的麦克风或录音设备进行录音,将口语音频输入转换为电子音频信号;
预处理单元,用于将所述电子音频信号进行预处理;其中,
所述预处理至少包括去除噪音、回声抑制和音量归一化;
声学特征提取单元,用于对预处理后电子音频信号提取声学特征,并通过所述声学特征,确定电子音频信号的频谱和时域特征;其中,
所述声学特征至少包括短时能量、梅尔频率倒谱系数和线性预测编码;
声学模型匹配单元,用于将提取得到的声学特征与训练好的声学模型进行匹配,并将匹配成功的声学特征标注为候选词;其中,
所述声学模型通常是基于统计模型的隐马尔可夫模型或深度学习模型;
解码和词图生成单元,用于基于预设的语言模型和解码算法,对所述候选词进行评分和排序,生成词图;其中,
所述词图用于表示候选词可能的识别结果和候选词之间关系的结构图;
后处理和文本生成单元,用于根据生成的词图,通过后处理算法进行搜索和剪枝,选择可能性最大的文本结果;
文本单元,用于将可能性最大的文本结果输出转化为文本形式。
[0024] 本技术方案的工作原理和有益效果在于:本技术方案的预处理单元对电子音频信号进行预处理,包括去除噪音、回声抑制和音量归一化等。这些预处理步骤有助于提高语音信号的质量和可识别性。声学特征提取单元从预处理后的电子音频信号中提取声学特征,以确定音频信号的频谱和时域特征。常见的声学特征包括短时能量、梅尔频率倒谱系数和线性预测编码等。声学模型匹配单元将提取得到的声学特征与训练好的声学模型进行匹配。声学模型通常是基于统计模型的隐马尔可夫模型或深度学习模型。匹配成功的声学特征被标注为候选词,表示可能的识别结果。
解码和词图生成单元基于预设的语言模型和解码算法,对候选词进行评分和排序,生成词图。词图用于表示候选词可能的识别结果和候选词之间的关系。后处理和文本生成单元根据生成的词图,通过后处理算法进行搜索和剪枝,选择可能性最大的文本结果。最终,将可能性最大的文本结果输出转化为文本形式。语音识别模块能够实时处理口语音频,并将其转化为文本形式。这使得系统能够快速提供口语表达的识别结果,实现实时的交互和反馈。
语音识别模块能够自动地将口语音频转化为文本,减少了人工干预的需要。这提高了系统的效率和可扩展性。通过声学模型的匹配和语言模型的评分,语音识别模块能够提供相对准确的识别结果。这有助于系统正确理解学生的口语表达,并提供准确的反馈和指导。语音识别模块可以根据不同的声学模型和语言模型进行训练和调整,以适应不同语言和口音的识别需求。这提高了系统在多样化语音输入上的适应性和可靠性。
[0025] 作为本技术方案的一种实施例,所述语音合成模块,包括:文本分析单元,用于基于预设的自然语言处理技术,对输入的文本进行分析和处理,确定文本结构和文本含义;其中,
所述分析至少包括词法分析、句法分析和语义分析;
重组单元,用于基于文本结构和文本含义,识别语法错误、语义错误和发音错误,并基于所述语法错误、语义错误和发音错误,重组文本信息;
声学模型选择单元,用于根据重组后的文本信息,选择特定的声学模型;其中,所述声学模型至少包括基于规则的合成方法、基于统计的合成方法和基于深度学习的合成方法;
参数生成单元,用于根据选定的声学模型,将重组后的文本信息转化为相应的合成参数;其中,
所述合成参数至少包括音高、音色和时长;
波形合成单元,用于基于预设的合成算法,利用合成参数和选定的声学模型,生成音频波形;其中,
所述合成算法至少包括信号合成技术和声码器;
后处理单元,用于将生成的音频波形进行后处理;其中,
所述后处理包括音频平滑、音量调节和语调调整;
音频输出单元,用于将后处理后的音频波形转化为标准音频格式的标准音频作为输出。
[0026] 作为本技术方案的一种实施例,所述实时交互模块,包括:特征提取单元,用于将输出的标准音频和实时输入的口语音频特征提取,获取对比的声音特征;其中,
所述对比声音特征至少包括声谱图、梅尔频率倒谱系数(MFCC)和音频能量;
对齐单元,用于获取对比的声音特征序列,将提取得到的声音特征序列进行对齐,并基于预设的动态时间规整算法,使得标准音频和实时输入的口语音频按照时间对应;
相似性度量单元,用于通过预设的相似性度量方法,计算对齐后的特征序列之间的相似性度量,计算标准音频和实时输入的口语音频之间的差异;其中,所述相似性度量方法至少包括欧氏距离、余弦相似度和动态时间规整路径的长度;
阈值设置单元,用于将所述标准音频和实时输入的口语音频之间的差异与预设的相似性度量阈值进行比较,确定不同程度的评估结果。
[0027] 作为本技术方案的一种实施例,所述学习模式模块,包括:学习模式模块,用于通过所述反馈信息和指导信息,选择特定的学习任务或学习主题进行口语练习。
[0028] 对话模型单元,用于通过所述反馈信息和指导信息,建立对话模型;语法纠错单元,用于通过所述对话模型,对口语音频中的语法错误提供对应的纠正建议;
发音建议单元,用于利用语音识别和语音合成技术,分析所述口语音频中,并通过所述对话模型,提供对应的发音改进建议;
替换词汇单元,用于利用预设的替换词库,根据上下文和口语音频,通过所述对话模型,提供对应的替换词汇建议;其中,
所述替换词库至少包括同义词词典、语料库和深度学习模型。
[0029] 本技术方案提供了一种外语口语交互式方法,包括:基于预设的语音识别技术,采集口语音频,并将所述口语音频转化为文本形式;
基于预设的语音合成技术,将文本形式转化为标准音频输出;
实时处理输入的口语音频,生成反馈信息和指导信息;
通过所述反馈信息和指导信息,选择特定的学习任务或学习主题进行口语练习。
[0030] 作为本技术方案的一种实施例,所述基于预设的语音识别技术,采集口语音频,并将所述口语音频转化为文本形式,包括:通过预设的麦克风或录音设备进行录音,将口语音频输入转换为电子音频信号;
将所述电子音频信号进行预处理;其中,
所述预处理至少包括去除噪音、回声抑制和音量归一化;
对预处理后电子音频信号提取声学特征,并通过所述声学特征,确定电子音频信号的频谱和时域特征;其中,
所述声学特征至少包括短时能量、梅尔频率倒谱系数和线性预测编码;
将提取得到的声学特征与训练好的声学模型进行匹配,并将匹配成功的声学特征标注为候选词;其中,
所述声学模型通常是基于统计模型的隐马尔可夫模型或深度学习模型;
基于预设的语言模型和解码算法,对所述候选词进行评分和排序,生成词图;其中,
所述词图用于表示候选词可能的识别结果和候选词之间关系的结构图;
根据生成的词图,通过后处理算法进行搜索和剪枝,选择可能性最大的文本结果;
文本单元,用于将可能性最大的文本结果输出转化为文本形式。
[0031] 作为本技术方案的一种实施例,所述基于预设的语音合成技术,将文本形式转化为标准音频输出,包括:基于预设的自然语言处理技术,对输入的文本进行分析和处理,确定文本结构和文本含义;其中,
所述分析至少包括词法分析、句法分析和语义分析;
基于文本结构和文本含义,识别语法错误、语义错误和发音错误,并基于所述语法错误、语义错误和发音错误,重组文本信息;
根据重组后的文本信息,选择特定的声学模型;其中,
所述声学模型至少包括基于规则的合成方法、基于统计的合成方法和基于深度学习的合成方法;
根据选定的声学模型,将重组后的文本信息转化为相应的合成参数;其中,所述合成参数至少包括音高、音色和时长;
基于预设的合成算法,利用合成参数和选定的声学模型,生成音频波形;其中,所述合成算法至少包括信号合成技术和声码器;
将生成的音频波形进行后处理;其中,
所述后处理包括音频平滑、音量调节和语调调整;
将后处理后的音频波形转化为标准音频格式的标准音频作为输出。
[0032] 作为本技术方案的一种实施例,所述通过所述反馈信息和指导信息,选择特定的学习任务或学习主题进行口语练习,包括:将输出的标准音频和实时输入的口语音频进行对比,
将输出的标准音频和实时输入的口语音频特征提取,获取对比的声音特征;其中,所述对比声音特征至少包括声谱图、梅尔频率倒谱系数(MFCC)和音频能量;
获取对比的声音特征序列,将提取得到的声音特征序列进行对齐,并基于预设的动态时间规整算法,使得标准音频和实时输入的口语音频按照时间对应;
通过预设的相似性度量方法,计算对齐后的特征序列之间的相似性度量,计算标准音频和实时输入的口语音频之间的差异;其中,
所述相似性度量方法至少包括欧氏距离、余弦相似度和动态时间规整路径的长度;
将所述标准音频和实时输入的口语音频之间的差异与预设的相似性度量阈值进行比较,确定不同程度的评估结果;
按照所述评估结果,生成对应的反馈信息和指导信息。
[0033] 作为本技术方案的一种实施例,所述通过所述反馈信息和指导信息,选择特定的学习任务或学习主题进行口语练习,包括:通过所述反馈信息和指导信息,建立对话模型;
通过所述对话模型,对口语音频中的语法错误提供对应的纠正建议;
利用语音识别和语音合成技术,分析所述口语音频中,并通过所述对话模型,提供对应的发音改进建议;
利用预设的替换词库,根据上下文和口语音频,通过所述对话模型,提供对应的替换词汇建议;其中,
所述替换词库至少包括同义词词典、语料库和深度学习模型。
[0034] 本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
[0035] 本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0036] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。