技术领域
[0001] 本发明涉及口语评测技术领域,特别涉及一种基于大语言模型的多模态口语发音评测方法。
相关背景技术
[0002] 口语作为学习外语的重要一环,流利且准确的口语发音可以有效的提高信息的沟通和交流。
[0003] 传统技术中,对于口语发音的评测是基于自动语音识别系统来实现,自动语音识别系统根据口语测试者的语音数据和发音文本基于时间序列进行强制对齐来获取特征信息,并构建音素级别的打分网络,实现对口语测试者的发音评测。上述方法严重依赖于自动语音识别系统,并且基于音素级别的评测导致评测过程缓慢,获取评测结果的步骤繁琐。
[0004] 因此,提出一种基于大语言模型的多模态口语发音评测方法。
具体实施方式
[0056] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0057] 实施例1:
[0058] 本发明实施例提供了一种基于大语言模型的多模态口语发音评测方法,参考图1,包括:
[0059] 获取口语测试者的音频数据;
[0060] 通过声学编码器对音频数据进行特征编码处理,获取音频表征信息,并通过模态适应层将获取的音频表征信息映射到公共空间中;
[0061] 设置音频评估指令,通过分词器将音频评估指令分离为若干词组,并通过词嵌入模块将词组转换为高维文本特征,映射到公共空间中;
[0062] 将公共空间中的音频表征信息与高维文本特征拼接,进行多模态特征合并,构建评测序列;
[0063] 大语言模型通过对评测序列进行评估预测,获取相应的发音准确度评测结果和流利度评测结果。
[0064] 以上实施例中,将口语测试者的音频数据,通过声学编码器进行特征编码处理,获取音频表征信息,通过模态适应层映射到公共空间;并设置音频评估指令,通过分词器将音频评估指令分离为若干词组,并通过词嵌入模块将词组转换为高维文本特征,映射到公共空间中;将公共空间中的音频表征信息与高维文本特征拼接,进行多模态特征合并,构建评测序列;大语言模型通过对评测序列进行评估预测,获取相应的发音准确度评测结果和流利度评测结果。
[0065] 以上实施例中,可将特殊任务字符“Assessment”设置为音频评估指令,通过Tokenizer分词器将音频评估指令分离为若干词组,词嵌入模块可实施为Embedding层将词组转换为高维文本特征,映射到公共空间。
[0066] 以上实施例中,公共空间中的音频表征信息为语音模态特征,高维文本特征为文本模态特征,进行多模态特征合并来构建评测序列。
[0067] 以上技术的有益效果在于:通过声学编码器对音频数据进行特征编码处理,并通过模态适应层映射至公共空间,将公共空间中的音频表征信息与高维文本特征拼接,进行多模态特征合并,构建评测序列,并通过大语言模型获取相应的发音准确度评测结果和流利度评测结果,反馈给口语测试者发音的情况;与传统技术相比,上述方法无需依赖自动语音识别系统,基于声学编码器对音频数据进行特征编码,构建评测序列,通过大语言模型便可实现对音频数据发音准确度和流利度的评测,相比于传统技术中音素级别的打分网格,在简化评测过程的同时,极大地提高了对音频数据的评测效率,并且上述方法无需进行语音强制对齐,进而有效提高了评测结果的准确性。
[0068] 实施例2:
[0069] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,步骤:获取口语测试者的音频数据;包括:
[0070] 获取原始音频信号;
[0071] 通过预加重滤波器对原始音频信号中的高频部分进行预加重处理,获取预加重音频信号;通过预设采样点的时长作为分帧帧长,对预加重音频信号进行分帧处理,并采用窗函数对每个语音帧信号进行加窗处理,获取预处理音频信号;
[0072] 计算预处理音频信号中语音帧信号的短时能量值,构建预处理音频信号对应的能量值序列;
[0073]
[0074] 其中,Et为预处理音频信号中t时刻语音帧信号s(t)的短时能量值,s(t+d)为语音帧信号s(t)的帧长偏移信号,d为帧长变量,l为语音帧的帧长,ω(d)为语音帧信号的s(t)对应的窗函数;
[0075] 根据能量值序列分别设置第一判决阈值和第二判决阈值,基于能量值序列对预处理音频信号进行语音端点检测,获取音频数据;可选地,包括:
[0076] 在短时能量值低于第一判决阈值时,将短时能量值对应的语音帧信号标记为静音点;在短时能量值高于第一判决阈值,且低于第二判决阈值时,将短时能量值对应的语音帧信号标记为过渡点;在短时能量值高于第二判决阈值,则将短时能量值对应的语音帧信号标记为语音点;
[0077] 根据语音帧信号的标记信息进行分析,检测语音点和过渡点的持续时间,在持续时间小于语音最短时间时,将语音帧信号识别为噪声;在持续时间大于语音最短时间时,将语音帧信号识别为有效语音;
[0078] 将预处理音频信号中的噪声和静音点对应的语音帧信号筛除,获取音频数据。
[0079] 以上实施例中,通过预加重滤波器对原始音频信号中的高频部分进行预加重处理,获取预加重音频信号;通过预设采样点的时长作为分帧帧长,对预加重音频信号进行分帧处理,并采用窗函数对每个语音帧信号进行加窗处理,获取预处理音频信号。
[0080] 以上技术的有益效果在于:通过预加重滤波器对原始音频信号进行处理,能够有效提高信号中高频部分的分辨率,并滤除口唇辐射的影响;对预加重音频信号进行分帧处理,能够将预加重音频信号转换为平稳信号,便于后续步骤计算语音帧信号的短时能量值,由于分帧处理后相邻帧之间会存在信号间隔,通过窗函数加窗处理,有效地减少了语音帧信号的截断效应。
[0081] 以上实施例中,通过计算预处理音频信号中语音帧信号的短时能量值来构建能量值序列,并设置第一判决阈值和第二判决阈值,对预处理音频信号进行语音端点检测,获取音频数据。
[0082] 以上实施例中,根据语音帧信号的短时能量值基于第一判决阈值和第二判决阈值,进行静音点、过渡点以及语音点的检测,并在语音点和过渡点的持续时间小于语音最短时间时,将语音帧信号识别为噪声的进行筛除,在持续时间大于语音最短时间时,将语音帧信号识别为有效语音的进行保留,并将静音点对应的语音帧信号筛除。
[0083] 以上技术的有益效果:通过分析语音帧信号的短时能量值,实现了对预处理音频信号中静音信号和噪声信号的筛除,在实现对音频数据获取的同时,便于后续步骤对音频数据的特征提取和评测。
[0084] 实施例3:
[0085] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,步骤:通过声学编码器对音频数据进行特征编码处理,获取音频表征信息;并通过模态适应层将获取的音频表征信息映射到公共空间中;包括:
[0086] 构建初始声学编码器,通过自动语音识别数据集对初始声学编码器进行训练,获取声学编码器;
[0087] 通过声学编码器对音频数据的全局关联特征和隐藏特征进行分析,获取音频表征信息;
[0088] 构建初始模态适应层,通过自动语音识别数据集对初始模态适应层进行训练,获取模态适应层;
[0089] 通过模态适应层,分析音频表征信息中向量的模态特征,并通过相应的模态特征提取器将音频表征信息中的深度音频特征向量、隐藏音频特征向量和高维特征向量映射到公共空间中。
[0090] 以上实施例中,声学编码器对音频特征信息进行编码里处理,获取音频表征信息,并通过模态适应层,分析音频表征信息中向量的模态特征,将音频表征信息映射到公共空间中。
[0091] 以上实施例中,通过自动语音识别数据集对初始声学编码器和初始模态适应层进行训练,获取相应的声学编码器和模态适应层。
[0092] 以上实施例中,自动语音识别数据集可实施为1.4w小时的英文自动语音识别数据。
[0093] 以上实施例中,声学编码器可调用现有的编码器模型对音频数据进行特征编码处理。
[0094] 在一个实施例中,声学编码器可基于Whisper模型搭建,获取的音频表征信息为梅尔频谱特征信息。
[0095] 在一个实施例中,声学编码器可基于Hubert模型搭建,获取的音频表征信息为滤波器组特征信息。
[0096] 在一个实施例中,声学编码器可基于Data2vec2.0模型搭建,获取的音频表征信息为梅尔频谱特征信息。
[0097] 以上技术的有益效果在于:通过声学编码器对音频特征信息进行特征提取,实现了对音频表征信息的获取,并通过模态适应层将音频表征信息映射至公共空间,进而构建评测序列进行口语评分。
[0098] 实施例4:
[0099] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,步骤:构建初始模态适应层,通过自动语音识别数据集对初始模态适应层进行训练,获取模态适应层;包括:
[0100] 获取自动语音识别数据集中样本语音数据对应的样本表征信息;
[0101] 通过初始模态适应层对样本表征信息进行模态识别,并通过模态特征提取器进行处理,获取样本映射信息;
[0102] 通过交叉熵函数评估模态特征提取器的映射损失;
[0103]
[0104] 其中, 为模态m的模态特征提取器的映射损失函数,Lv为第v个样本表征信息Xvm对应的样本标签,softmax()为归一化指数函数,T 为模态m的模态特征提取器,V为自动语音识别数据集中样本表征信息的样本数量;
[0105] 分析样本映射信息与样本表征信息对应的标准映射信息的相似度,评估模态特征提取器的学习损失;
[0106]
[0107] 其中, 为模态m的模态特征提取器的学习损失函数,Tm(Xv)为模态特征提取器Tm对样本表征信息Xv进行处理的样本映射信息, 为样本表征信息Xv对应的标准映射信息,θ为比例因子,|| ||2为2‑范数;
[0108] 根据模态特征提取器的映射损失和学习损失,构建综合损失函数;根据自动语音识别数据集对综合损失函数进行优化,获取模态适应层。
[0109] 以上实施例中,初始模态适应层对样本表征信息进行模态识别,选取相应的模态特征提取器进行处理,获取样本映射信息;分别通过交叉熵函数和学习损失函数评估模态特征提取器的映射损失和学习损失,构建综合损失函数,来进行初始模态适应层的优化,获取模态适应层。
[0110] 以上实施例中,通过交叉熵函数来获取模态特征提取器的映射损失,即实现对模态特征提取器的特征提取性能的优化。
[0111] 以上实施例中,通过学习损失函数分析样本映射信息与样本表征信息对应的标准映射信息的相似度,优化模态特征提取器对样本语音数据的学习性能。
[0112] 以上实施例中,初始模态适应层根据样本表征信息进行训练,以降低综合损失函数,获取模态适应层。
[0113] 以上技术的有益效果在于:根据样本表征信息实现了对初始模态适应层的训练,优化了初始模态适应层的控制参数,使获取的模态适应层能够根据音频表征信息进行特征提取,映射到公共空间。
[0114] 实施例5:
[0115] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,步骤:大语言模型通过对评测序列进行评估预测,获取相应的发音准确度评测结果和流利度评测结果,包括:
[0116] 获取口语评分数据集;
[0117] 按照预设比例,将口语评分数据集划分为口语评分训练集和口语评分测试集;
[0118] 构建初始大语言模型;
[0119] 通过口语评分训练集对初始大语言模型进行训练,优化初始大语言模型的控制参数,并通过测试集对初始大语言模型的评测准确性进行分析,在满足预设评测准确度时,获取大语言模型;
[0120] 大语言模型通过读取评测序列中的高维文本特征,获取评估任务,对评测序列进行评估预测,获取发音准确度评测结果和流利度评测结果。
[0121] 以上实施例中,口语评分数据集可实施为包含5000条口语测试者的口语评分数据;其中2500条作为口语评分训练集,2500条作为口语评分测试集。
[0122] 以上实施例中,通过口语评分训练集对初始大语言模型进行训练,优化初始大语言模型的控制参数,并通过测试集对初始大语言模型的评测准确性进行分析,在满足预设评测准确度时,获取大语言模型。
[0123] 以上实施例中,大语言模型读取评测序列中的高维文本特征,对评测序列执行语音评估,将评测序列中的音频表征信息进行随机掩码,通过Transformer层进行特征预测,获取音频特征信息,并通过决策器获取相应的发音准确度评测结果和流利度评测结果。
[0124] 以上技术的有益效果在于:构建初始大语言模型,并通过口语评分训练集和口语评分测试集对模型进行训练测试,实现了对大语言模型的获取;大语言模型通过对评测序列进行处理,实现了对发音准确度评测结果和流利度评测结果的获取。
[0125] 实施例6:
[0126] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,步骤:通过口语评分训练集对初始大语言模型进行训练,优化初始大语言模型的控制参数,并通过测试集对初始大语言模型的评测准确性进行分析,在满足预设评测准确度时,获取大语言模型;包括:
[0127] 获取口语评分训练集中的口语训练样本和对应的标准评测结果;
[0128] 初始大语言模型根据口语训练样本进行随机掩码操作,将口语训练样本中未被掩码的部分输入到Transformer层,获取口语样本特征,并通过决策器获取样本评测结果;
[0129] 通过评测损失函数,分析样本评测结果与标准评测结果的误差;
[0130]
[0131] 其中,Le为评测损失函数,D为口语训练样本中的特征块数量,Dm为口语训练样本中被掩码的特征块数量,R'dk为初始大语言模型根据口语训练样本中第d个特征块和被掩码第k个特征块获取的样本评测值,sg()为停止梯度操作运算,Rdk为初始大语言模型根据口语训练样本中第d个特征块和未被掩码的第k个特征块获取的样本评测值,R为标准评测结果;
[0132] 通过调整初始大语言模型的控制参数,降低评测损失函数获取的损失值,直至完成对口语评分训练集中所有口语训练样本的训练。
[0133] 以上实施例中,初始大语言模型根据口语评分训练集中的口语训练样本进行随机掩码操作,将口语训练样本中未被掩码的部分输入到Transformer层中进行特征预测,获取口语样本特征,并通过决策器获取样本评测结果;通过评测损失函数,分析样本评测结果与标准评测结果的误差,优化初始大语言模型的控制参数,以降低评测损失函数获取的损失值,直至完成对口语评分训练集中所有口语训练样本的训练。
[0134] 以上实施例中,评测损失函数通过分析口语训练样本中每个特征块对应的样本评测值与标准评测结果的误差,来计算口语训练样本的损失值,并且通过sg()停止梯度操作运算,有效地避免了对初始模型的过度拟合,导致模型崩塌。
[0135] 以上技术的有益效果在于:通过初始大语言模型对口语训练样本的处理,获取样本评测结果,并通过评测损失函数分析与标准评测结果的误差,以优化初始大语言模型的控制参数,进而实现对初始大语言模型的训练。
[0136] 实施例7:
[0137] 本发明实施例提供一种基于大语言模型的多模态口语发音评测方法,包括:
[0138] 口语评分训练集中的口语训练样本,通过实际记录口语测试者的口语语音数据来获取;标准评测结果为人工根据口语训练样本进行评测,获取的样本发音准确度评测结果和样本流利度评测结果。
[0139] 以上实施例中,口语训练样本为口语测试者的口语语音数据,其对应的标准评测结果为通过人工标注样本发音准确度评测结果和样本流利度评测结果来获取。
[0140] 以上技术的有益效果在于:通过实际记录口语语音数据和人工标注获取的标准评测结果,实现了对口语评分训练集的构建,进而实现对初始大语言模型的训练。
[0141] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。