技术领域
[0001] 本说明书实施例涉及深度学习的技术领域,特别涉及一种语音合成模型训练、语音合成方法及任务平台。
相关背景技术
[0002] 随着语音合成(Text To Speech,简称TTS)技术的发展,覆盖了从日常生活到专业领域的多个方面,如智能客服、语音导航、有声社交、影视配音和在线教育。
[0003] 目前,大规模样本数据的引入显著提升了语音合成模型生成语音的音质和多样性,同时提高了生成的鲁棒性。然而,大规模样本数据往往需要更为复杂的数据预处理,需要预先对样本语音中的说话人进行标注,才能实现高质量的语音合成,具有对于说话人的高依赖性,这限制了数据的扩展性,降低了数据预处理的效率,增加了数据预处理的成本。因此,亟需一种高扩展性、高效率、低成本的语音合成方法。
具体实施方式
[0048] 在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0049] 在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0050] 应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0051] 此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0052] 本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(LLM,Large Language Model)、多模态预训练模型(multi‑modal pre‑training model)等。
[0053] 大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(NLP,Natural Language Processing)、计算机视觉等领域,具体可以应用于如视觉问答(VQA,Visual QuestionAnswering)、图像描述(IC,Image Caption)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
[0054] 首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0055] 语音合成(Text To Speech):一种将文本转换为语音的过程,使得机器能够生成文本内容对应的语音内容。
[0056] 单调对齐搜索(MonotonicAlignment Search,简称MAS):端到端的TTS中使用的算法,用于解决文本特征与语音特征之间的对齐问题,通过搜索确定文本和语音之间的单调(单向)对齐路径,保证了语音合成过程中文本与语音在时间上的正确匹配。
[0057] 上下文学习(In Context Learning,简称ICL):一种机器学习方法,其中模型在执行任务时能够利用上下文信息来改进其性能。
[0058] Transformer模型(自注意力模型):引入了一种称为“自注意力机制”的创新,允许模型在处理序列时并行计算,而不是像传统的循环神经网络那样逐个元素处理。自注意力机制使Transformer模型能够在给定特征的任意两个位置之间建立联系。
[0059] 扩散模型(DiffusionMode):一种生成模型,通过逐步添加噪声将数据特征转换为噪声,然后以去噪的方式,学习逆过程以从噪声中重建数据。
[0060] 扩散Transformer模型(Diffusion Transformer,简称DiT):结合了Transformer架构和扩散模型的概念,旨在生成高质量的数据。它利用Transformer的特征提取能力和扩散模型的生成能力,特别适用于较长数据的生成任务。
[0061] 掩码扩散模型(MaskedDiffusionModel):一种扩展的扩散模型,它通过掩码技术控制哪些部分的特征可以被模型访问或修改。
[0062] 在本说明书中,提供了一种语音合成模型训练方法,本说明书同时涉及一种语音合成方法,一种基于语音合成模型的信息处理方法,一种任务平台,一种语音合成模型训练装置,一种语音合成装置,一种基于语音合成模型的信息处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品,在下面的实施例中逐一进行详细说明。
[0063] 参见图1,图1示出了本说明书一个实施例提供的一种语音合成模型训练方法的流程图,包括如下具体步骤:
[0064] 步骤102:获取样本文本和样本语音。
[0065] 示例性地,样本文本为在训练过程中输入语音模型的自然语言的样本文本,样本文本具有明确的语义特征,例如,一段主播的播报文本。
[0066] 样本语音为在训练过程中输入语音模型的自然语言的样本语音,样本语音具有明确的语义特征和音色音调,样本语音在训练过程中用于学习说话人的音色音调特征。例如,一段主播的播报语音,用于训练语音模型学习该主播的音色音调。可选地,选择大规模的样6
本语音,例如,10个小时的样本语音。随着数据规模的增加,以往语音合成模型中的一些重要模块(如音高预测、音量预测和音素时长预测模块)在本说明书实施例中可以省略,提升了生成语音的音质和多样性,还使得模型能够自动学习音高预测、音量预测等特征,从而简化了模型结构。
[0067] 需要说明的是,样本文本和样本语音是对应地文本语音数据对。
[0068] 例如,从样本数据库中收集106个小时的样本语音Sample_Audio和样本文本Sample_Text,样本语音和样本文本一一对应构成文本语言数据对,样本语音包括5种不同语言。
[0069] 获取样本文本和样本语音,为后续处理提供了数据支持。
[0070] 步骤104:提取样本语音的样本语音特征,并从样本语音特征中,抽取参考语音特征。
[0071] 示例性地,样本语音特征为在训练过程中从样本语音中提取得到的量化编码特征,表征了样本语音的音色音调等语音特质。样本语音特征包括但不限于:梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCCs)、线性预测编码(LinearPredictive Coding,简称LPC)、基频(Fundamental Frequency,简称F0)和共振峰(Formants)。
[0072] 参考语音特征为在训练过程中从样本语音特征中抽取得到的部分语音特征,参考语音特征表征了样本语音中说话人的音色音调。由于同一段样本语音中音色音调的变化较小或者具有一定的规律,参考语音特征从样本语音特征中直接抽取,可以无需人为标注说话人信息,从而降低了对说话人的依赖性,在训练过程中赋予了模型的音色音调克隆能力,进而降低了数据预处理成本,提升了数据预处理效率。
[0073] 提取样本语音特征,一种可选的方式为:对样本语音进行音频编码,提取得到样本语音特征。
[0074] 从样本语音特征中,抽取参考语音特征,一种可选的方式为:从样本语音特征中,随机抽取参考语音特征。
[0075] 例如,将样本语音输入音频编码器,对样本语音进行音频编码,提取得到样本语音特征Feature_Sample_Audio:{Z1,Z2,Z3,Z4…Zn},并从样本语音特征中,随机抽取参考语音特征Feature_Ref_Audio:{Z2,Z3}。
[0076] 从样本语音自身的语音特征中抽取得到的参考语音特征,保证了后续生成的预测语音特征相比于样本语音特征音色音调的变化不大。
[0077] 步骤106:利用语音模型,对样本语音特征进行加噪,并基于样本文本和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征。
[0078] 示例性地,语音模型为一种语音生成模型,包括加噪和去噪两个阶段,在加噪阶段对样本语音特征进行加噪处理,获得加噪后的样本语音特征,在去噪阶段,在样本文本和参考语音特征的引导下,对加噪后的样本语音特征进行去噪,生成预测语音特征,预测语音特征包含有样本文本的语义特征和参考语音特征所表征的音色音调。语音模型包括但不限于:扩散模型、扩散Transformer模型、Transformer模型和生成对抗模型。
[0079] 加噪后的样本语音特征为在训练过程中对样本语音特征添加噪声得到的变形语音特征。加噪后的样本语音特征模拟了真实世界中的不确定性,增强模型的鲁棒性和生成能力。在语音模型中,通过向样本语音特征添加噪声,可以训练模型从噪声中恢复出清晰的语音,这一过程称为去噪。这种方式提升了生成的目标语音的语音质量。加噪可以为随机加噪,例如,为样本语音特征添加随机高斯噪声,或者为样本语音特征加噪后得到标准高斯噪声,也可以为定向加噪,例如,添加具体场景中噪声的音频特征,在此不作限定。
[0080] 预测语音特征为在训练过程中语音模型输出的自然语言的预测语音特征,预测语音特征是语音模型基于参考语音特征所表征的音色音调,对输入的样本文本进行语音合成的特征结果。例如,语音模型基于参考语音特征所表征的音色音调,对输入的一段产品介绍文本进行语音合成,生成的语音特征即为预测语音特征。
[0081] 利用语音模型,对样本语音特征进行加噪,一种可选的方式为:利用语音模型,对样本语音特征添加随机噪声,例如,随机高斯噪声或者随机白噪声,另一种可选的方式为:利用语音模型,对样本语音特征添加定向噪声,例如,具体场景中噪声的音频特征,在此不作限定。
[0082] 例如,从开源模型库中获取扩散Transformer模型(DiT模型),为扩散Transformer模型添加音频编码器和音频解码器。利用扩散Transformer模型,对样本语音特征进行加噪,使得加噪后的样本语音特征Feature_Noise_Audio:{Z1’,Z2’,Z3’,Z4’…Zn’}接近标准高斯噪声,并基于样本文本和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征Feature_Predict_Audio。
[0083] 利用语音模型,基于样本文本和参考语音特征对加噪后的样本语音特征进行去噪来生成预测语音特征,就无需标注样本语音的说话人,减少了对于说话人的依赖性,赋予了训练得到的语音合成模型的音色音调克隆能力,进而提升了样本数据的扩展性。
[0084] 步骤108:基于样本语音特征和预测语音特征,对语音模型进行训练,得到语音合成模型。
[0085] 示例性地,语音合成模型为训练得到的、具有语音合成功能的语音生成模型。语音合成模型在一种语音特征所表征的音色音调的引导下,对文本数据进行语音合成,生成对应音色音调的语音数据。语音合成模型包括但不限于:扩散模型、扩散Transformer模型、Transformer模型和生成对抗模型。
[0086] 基于样本语音特征和预测语音特征,对语音模型进行训练,得到语音合成模型,一种可选的方式为:基于样本语音特征和预测语音特征,计算训练损失值,基于训练损失值,对语音模型进行训练,得到语音合成模型。
[0087] 例如,基于样本语音特征Feature_Sample_Audio和预测语音特征Feature_Predict_Audio,计算训练损失值Loss,基于训练损失值,对扩散Transformer模型进行训练,得到语音合成模型。
[0088] 本说明书实施例中,由于参考语音特征是从样本语音自身的语音特征中提取得到的,保证了音色音调的变化不大,在此基础上,利用语音模型,基于样本文本和参考语音特征对加噪后的样本语音特征进行去噪来生成预测语音特征,就无需标注样本语音的说话人,减少了对于说话人的依赖性,赋予了训练得到的语音合成模型的音色音调克隆能力,进而提升了样本数据的扩展性。并且由于无需标注样本语音的说话人,减少了对于说话人的依赖性,提升了模型训练过程中数据预处理的效率,降低了模型训练过程中数据预处理的成本。
[0089] 在本说明书一种可选实施例中,步骤108包括如下具体步骤:
[0090] 基于去除参考语音特征后的样本语音特征和去除参考语音特征后的预测语音特征,确定第一掩码损失值,其中,第一掩码损失值表征去除参考语音特征后的预测语音特征与去除参考语音特征后的样本语音特征两者之间的差异情况。
[0091] 基于第一掩码损失值,对语音模型进行训练,得到语音合成模型。
[0092] 在本说明书实施例中,为了防止信息泄露,在计算第一掩码损失值时不考虑其中的参考语音表征部分,而只计算其他部分的损失值,这一掩码损失值设计使得在数据标注阶段,我们无需标注说话人信息,同时能够实现音色音调克隆效果。
[0093] 示例性地,去除参考语音特征后的样本语音特征为在训练过程中从样本语音特征中去除代表音色音调的参考语音特征之后的剩余特征。去除参考语音特征后的样本语音特征主要包含了语义信息和其他非音色音调的语音特质,如节奏、强度等,但不包含说话人的独特音色和音调。
[0094] 去除参考语音特征后的预测语音特征为在训练过程中从预测语音特征中去除代表音色音调的参考语音特征之后的剩余特征。去除参考语音特征后的预测语音特征主要包含了语义信息和其他非音色音调的语音特质,如节奏、强度等,但不包含说话人的独特音色和音调。
[0095] 第一掩码损失值为在训练过程中去除参考语音特征后的预测语音特征与去除参考语音特征后的样本语音特征两者之间的差异情况的度量指标。第一掩码损失值用于衡量预先训练过程中当前语音模型预测每一步去噪声的能力,使得模型优化自身,以更准确地捕捉并克隆特定音色音调特征,同时降低对特定说话人的依赖性,提升模型的泛化能力。第一掩码损失值是通过对样本语音特征中提取到的参考语音特征进行去除后,比较剩余部分与模型预测的同样去除参考语音特征的语音特征之间的差距来计算的。第一掩码损失值包括但不限于:噪声损失、样本特征损失、音频编解码器码表损失、时长预测损失。
[0096] 基于第一掩码损失值,对语音模型进行训练,得到语音合成模型,一种可选的方式为:基于第一掩码损失值,调整语音模型的模型参数,在达到预设训练结束条件的情况下,得到语音合成模型。其中,语音模型的模型参数为构成语音模型的数学表达式中可调整的变量,它们决定了模型的性能。在训练过程中,这些参数通过反向传播算法不断更新,以最小化第一掩码损失值。语音模型的模型参数包括但不限于:权重矩阵、偏置项、以及各种层(如卷积层、全连接层)中的参数。预设训练结束条件为预先设定的用于判断是否结束预先训练的条件,当满足这些准则时,训练过程将自动停止。这些条件可能是基于训练轮数、第一掩码损失值的稳定程度、验证集上的性能指标等。预设训练结束条件是为了防止模型过度训练,导致在未见过的数据上泛化能力下降。预设训练结束条件包括但不限于:预设训练轮数、第一掩码损失值在一定轮数内不再显著下降(即模型收敛)或在验证集上的性能达到预定阈值。
[0097] 进一步地,基于第一掩码损失值,调整语音模型的模型参数,一种可选的方式:基于第一掩码损失值,通过梯度更新法,调整语音模型的模型参数。
[0098] 例如,去除样本语音特征Feature_Sample_Audio:{Z1,Z2,Z3,Z4…Zn}中的参考语音特征{Z2,Z3},获得样本语音的去除语音特征Feature_Trimming_Sample_Audio:{Z1,Z4…Zn},并去除预测语音特征的语音特征Feature_Predict_Audio:{P1,P2,P3,P4…Pn}中的参考语音特征{P2,P3},获得预测语音特征的去除语音特征Feature_Trimming_Predict_Audio:{P1,P4…Pn}。基于样本语音的去除语音特征和预测语音特征的去除语音特征,计算第一掩码损失值Loss,基于第一掩码损失值,通过梯度更新法,调整语音模型的模型参数,第一掩码损失值在一定轮数内不再显著下降的情况下,得到语音合成模型。
[0099] 本说明书实施例中,由于去除了样本语音特征和预测语音特征中的参考语音特征,有效防止信息泄露,提升泛化能力,实现高效、高质量的音色音调克隆,同时简化数据预处理,提升了训练过程中数据预处理的效率。
[0100] 在本说明书一种可选实施例中,步骤106中基于样本文本和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征,包括如下具体步骤:
[0101] 提取样本文本的样本文本特征。
[0102] 对齐样本文本特征和加噪后的样本语音特征的特征长度,其中,特征长度为量化编码特征的序列长度。
[0103] 基于对齐后的样本文本特征和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征。
[0104] 示例性地,样本文本的样本文本特征为在预先训练过程中从样本文本中提取得到的量化编码特征,表征了样本文本的语义。样本文本的样本文本特征包括但不限于:词嵌入特征(Word Embedding)和深度语义特征(Semantic Feature)。
[0105] 样本文本特征和样本语音特征是不同模态的量化编码特征,但是语音合成要求文本和语音在时间上对齐,这要求样本文本特征和样本语音特征在特征长度上进行对齐。
[0106] 特征长度为量化编码特征的序列长度,在处理序列数据时,比如文本或语音信号,特征长度与数据的时间维度紧密相关,代表了序列中元素的数量。这一概念在自然语言处理的语音合成中尤为重要,因为它们直接关联到如何有效地表示和处理变长的序列数据。例如,样本文本特征的特征长度为1080,样本语音特征的特征长度为2160,需要对样本语音特征进行压缩一半。
[0107] 对齐样本文本特征和加噪后的样本语音特征的特征长度,一种可选的方式为:通过单调对齐搜索,对齐样本文本特征和加噪后的样本语音特征的特征长度,具体地,假设样本文本特征的每个元素都与样本语音特征的第一个元素对齐,设置一个对齐矩阵,其中行代表样本文本特征,列代表样本语音特征,采用递增的方式寻找目标对齐路径,判断是否应该前进到下一个语音特征元素或者停留在当前语音特征元素上,同时考虑模型预测的对齐概率,采用能量函数来评估不同对齐路径的优劣,其中,能量函数通常是基于模型预测的对齐概率和潜在的先验知识(比如文本和音频的长度比),最小化能量函数,找到最低能量的对齐路径,在所有样本文本特征都被分配了一个语音特征对齐时,单调对齐搜索过程结束。
[0108] 例如,将样本语音输入音频编码器,对样本语音进行音频编码,提取得到样本语音特征Feature_Sample_Audio:{Z1,Z2,Z3,Z4…Zn},利用扩散Transformer模型,对样本语音特征进行加噪,使得加噪后的样本语音特征Feature_Noise_Audio:{Z1’,Z2’,Z3’,Z4’…Zn’}接近标准高斯噪声。将样本文本Sample_Text输入语音模型,提取样本文本的样本文本特征Feature_Sample_Text:{T1,T2,T3,T4…Tm},通过单调对齐搜索,对齐样本文本特征和加噪后的样本语音特征的特征长度,基于对齐后的样本文本特征Feature_Sample_Text:{T1,T2,T3,T4…Tn}和参考语音特征Feature_Ref_Audio:{Z2,Z3},对加噪后的样本语音特征进行去噪,生成预测语音特征Feature_Predict_Audio。
[0109] 本说明书实施例中,通过对齐样本文本特征和加噪后的样本语音特征的特征长度,优化了语音合成过程中文本和语音之间的对应关系,进一步简化了数据预处理,提高了语音合成的鲁棒性和生成质量。
[0110] 在本说明书一种可选实施例中,在步骤106中基于样本文本和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征之前,还包括如下具体步骤:
[0111] 对参考语音特征进行注意力加权处理,获得加权后固定长度的参考语音特征。
[0112] 示例性地,注意力加权处理为在自然语言处理领域中用于强化某些特征的处理。通过计算参考语音特征中各个特征的注意力权重,模型可以更加关注那些对输出贡献更大的特征,以更好地捕捉说话人的音色音调特征。
[0113] 加权后固定长度的参考语音特征为经过注意力加权处理之后、每个特征都分配相应权重的参考语音特征。这些权重反映了特征点对于语音合成输出的重要程度,使得模型在生成语音时能够更加聚焦于关键的音色和音调特征,并引入随机性以去除不必要的信息,并固定特征长度。
[0114] 一个示例,在语音模型中设置有一个注意力机制层,并限定注意力机制层输出的特征长度,保证特征长度固定。
[0115] 例如,对参考语音特征Feature_Ref_Audio:{Z2,Z3}进行注意力加权处理,获得加权后固定长度的参考语音特征Attention_Feature_Ref_Audio:{Attention_Z2,Attention_Z3}。
[0116] 本说明书实施例中,通过注意力加权优化参考特征,提升语音合成的音质表现,增强了模型对关键音色音调的捕捉能力,且维持了固定长度的特征表达,提高了训练的有效性。
[0117] 在本说明书一种可选实施例中,步骤104包括如下具体步骤:
[0118] 对样本语音进行离散语音编码,获得样本语音的离散样本语音特征。
[0119] 从样本语音的离散样本语音特征中,随机抽取参考语音特征。
[0120] 示例性地,离散语音编码为将连续的语音波形转换成离散量化编码序列的处理,如梅尔频率倒谱系数、共振峰和基频等。这一编码过程往往涉及特征提取、量化以及编码步骤。
[0121] 样本语音的离散样本语音特征为在预先训练过程中经过离散语音编码从样本语音中提取得到的量化编码特征,离散语音表征了样本语音的音色音调等语音特质,但以更易于处理和分析的格式呈现。
[0122] 例如,对样本语音Sample_Audio进行离散语音编码,获得样本语音的离散样本语音特征Feature_Sample_Audio:{Z1,Z2,Z3,Z4…Zn},从样本语音的离散样本语音特征中,随机抽取参考语音特征Feature_Ref_Audio:{Z2,Z3}。
[0123] 在本说明书一种可选实施例中,语音合成模型为适应于不同语音合成场景的通用语音合成模型;在步骤108之后,还包括如下具体步骤:
[0124] 获取目标场景的微调文本、微调语音,以及随机生成的可学习语音特征。
[0125] 利用语音合成模型,对微调语音的微调语音特征进行加噪,并基于微调文本和可学习语音特征,对加噪后的微调语音特征进行去噪,生成还原语音特征。
[0126] 基于微调语音特征和还原语音特征,确定微调损失值。
[0127] 基于微调损失值,对语音合成模型进行微调,得到适用于目标场景的语音合成模型。
[0128] 由于大规模数据集进行预先训练,存在质量和韵律问题,可以使用目标场景的微调数据进行微调,来进一步提升语音合成模型的性能,进而提升语音合成的质量。
[0129] 示例性地,目标场景的微调文本为在微调过程中输入语音合成模型的自然语言的微调文本,微调文本具有明确的语义特征。目标场景的微调文本用于指导模型学习目标场景下说话人语言风格的文本输入。微调文本通常具有清晰的语义结构,能够表达特定场景下的意图、情感或信息。微调文本帮助模型理解并模仿特定的发音方式、语调和节奏,从而生成更加自然和贴近目标说话人或场景的语音。
[0130] 目标场景的微调语音为微调过程中输入语音合成模型的自然语言的微调语音,微调语音具有明确的语义特征和音色音调,微调语音在微调过程中用于学习说话人的音色音调特征。目标场景的微调语音是用于指导模型学习目标场景下说话人语音特征的语音输入,这些语音样本包含了目标说话人的声音特征,如音色、音调、语速等。从而生成语音时能够保持一致性和个性化的风格。可选地,选择大规模的微调语音,例如,60个小时的微调语音。
[0131] 还原语音特征为微调过程中语音合成模型输出的自然语言的预测语音特征,还原语音特征是语音合成模型基于参考语音特征所表征的音色音调,对输入的微调文本进行语音合成的结果。
[0132] 微调语音的微调语音特征为在微调过程中从微调语音中提取得到的量化编码特征,表征了微调语音的音色音调等语音特质。微调语音的微调语音特征包括但不限于:梅尔频率倒谱系数、线性预测编码、基频和共振峰。
[0133] 可学习语音特征为在微调过程中随机生成的部分语音特征,可学习语音特征用于学习微调语音中说话人的音色音调。与预先训练过程不同,由于微调数据往往只涉及单一说话人,不再抽取参考语音特征,而是采用可学习语音特征进行训练。
[0134] 加噪后的微调语音特征为在微调过程中对微调语音特征添加噪声得到的变形语音特征。
[0135] 微调损失值为在微调过程中用于评估模型生成的还原语音特征与微调语音特征两者之间的差异情况的度量指标。微调损失值用于衡量微调过程中当前语音合成模型预测每一步去噪声的能力,使得模型优化自身,以更准确地捕捉并克隆特定音色音调特征,同时降低对特定说话人的依赖性,提升模型的适应于目标场景的语音合成能力。
[0136] 利用语音合成模型,对微调语音的微调语音特征进行加噪,一种可选的方式为:利用语音合成模型,对微调语音的微调语音特征添加随机噪声,例如,随机高斯噪声或者随机白噪声,另一种可选的方式为:利用语音合成模型,对微调语音的微调语音特征添加定向噪声,例如,具体场景中噪声的音频特征,在此不作限定。
[0137] 例如,从会议场景的数据库中收集60个小时的会议场景下的单说话人微调语音Finetune_Audio和微调文本Finetune_Text,微调语音和微调文本一一对应构成文本语言数据对。随机生成可学习语音特征{Zi,Zj}。将微调语音输入音频编码器,对微调语音进行音频编码,提取得到微调语音的微调语音特征Feature_Finetune_Audio:{Z1,Z2,Z3,Z4…Zn},利用语音合成模型,对微调语音的微调语音特征进行加噪,使得加噪后的微调语音的微调语音特征Feature_Noise_Audio:{Z1’,Z2’,Z3’,Z4’…Zn’}接近标准高斯噪声,并基于微调文本和可学习语音特征,对加噪后的微调语音特征进行去噪,生成还原语音特征Feature_Predict_Audio,基于微调语音特征和还原语音特征,确定微调损失值Loss,基于微调损失值,对语音合成模型进行微调,得到适用于会议场景的语音合成模型。
[0138] 本说明书实施例中,在大规模数据预先训练后,通过在少量目标场景的微调数据上的微调,实现更细致的韵律建模能力,进一步提高了语音合成模型的性能,进而提升语音合成的质量。
[0139] 在本说明书一种可选实施例中,基于微调损失值,对语音合成模型进行微调,得到微调完成的语音合成模型,包括如下具体步骤:
[0140] 基于微调损失值,调整语音合成模型的模型参数,在达到预设微调结束条件的情况下,得到微调完成的语音合成模型。
[0141] 与预先训练过程不同,由于微调数据往往只涉及单一说话人,不再抽取参考语音特征,而是采用可学习语音特征进行训练。
[0142] 语音合成模型的模型参数为构成语音合成模型的数学表达式中可调整的变量,它们决定了模型的性能。在微调过程中,这些参数通过反向传播算法不断更新,以最小化微调损失值。语音合成模型的模型参数包括但不限于:权重矩阵、偏置项、以及各种层(如卷积层、全连接层)中的参数。
[0143] 预设微调结束条件为预先设定的用于判断是否结束微调的条件,当满足这些准则时,微调过程将自动停止。这些条件可能是基于微调轮数、微调损失值的稳定程度、验证集上的性能指标等。预设微调结束条件是为了防止模型过度微调,导致在未见过的数据上泛化能力下降。预设微调结束条件包括但不限于:预设微调轮数、微调损失值在一定轮数内不再显著下降(即模型收敛)或在验证集上的性能达到预定阈值。
[0144] 基于微调损失值,调整语音合成模型的模型参数,一种可选的方式:基于微调损失值,通过梯度更新法,调整语音合成模型的模型参数。
[0145] 例如,基于微调损失值,通过梯度更新法,调整语音合成模型的模型参数,在达到预设微调轮次的情况下,得到微调完成的语音合成模型。
[0146] 本说明书实施例中,通过完整的语音特征完成损失计算,进而完成模型微调,更进一步提高了语音合成模型的性能,进而提升语音合成的质量。
[0147] 在本说明书一种可选实施例中,样本文本为多语种的样本文本,样本语音为多语种的样本语音。
[0148] 示例性地,多语种的样本文本包括中文的样本文本和英文的样本文本,多语种的样本语音包括中文的样本语音和英文的样本语音。
[0149] 多语种样本数据提升了语音合成模型在不同自然语言上的建模能力,不再受各自语言发音规则的严格限制,为跨语言和多语种应用提供了新的可能性,提升了语言合成在多语言的适应能力。
[0150] 为了更好地说明上述的预先训练过程、参考特征抽取和微调过程,给出图2至图4进行详细说明:
[0151] 参见图2,图2示出了本说明书一个实施例提供的一种语音合成模型训练方法中模型预训练的示意图:
[0152] 利用音频编码器,对样本语音进行语音编码,获得样本语音特征{Z1,Z2,Z3,Z4,……,Zn}。
[0153] 利用扩散模型,基于样本文本和参考语音特征{Z2,Z3},对加噪后的样本语音特征进行去噪。
[0154] 利用音频解码器进行音频解码,获得预测语音。
[0155] 参见图3,图3示出了本说明书一个实施例提供的一种语音合成模型训练方法中参考语音特征抽取的示意图:
[0156] 利用音频编码器,对样本语音进行语音编码,获得样本语音的样本语音特征{Z1,Z2,Z3,Z4,……,Zn}。
[0157] 从样本语音的样本语音特征中,随机抽取得到参考语音特征{Z2,Z3}。
[0158] 参见图4,图4示出了本说明书一个实施例提供的一种语音合成模型训练方法中模型微调的示意图:
[0159] 利用音频编码器,对单个说话人的微调语音进行语音编码,获得微调语音的微调语音特征{Z1,Z2,Z3,Z4,……,Zn}。
[0160] 利用扩散模型,基于微调文本和可学习语音特征,对加噪后的微调语音特征进行去噪。
[0161] 利用音频解码器进行音频解码,获得单个说话人的还原语音。
[0162] 参见图5,图5示出了本说明书一个实施例提供的一种语音合成方法的流程图,包括如下具体步骤:
[0163] 步骤502:获取目标文本和目标语音特征。
[0164] 示例性地,本说明书实施例应用于具有语音合成功能的应用、网站、小程序或者任务平台,包括但不限于:电商平台、导航应用、社交应用、影视制作应用和在线教育平台。本说明书实施例还可以应用在部署有语音合成模型的任务平台上,提供应用程序编程接口(Application Programming Interface,简称API),使得应用开发方完成语音合成模型的调用。
[0165] 目标文本为进行语音合成的自然语言的输入文本,目标文本具有明确的语义特征,例如,产品介绍文本,导航台词文本,社交消息文本,影视台词文本和课程教案文本。
[0166] 目标语音特征为进行语音合成的自然语言的引导特征,目标语音特征决定了生成的目标语音的音色音调。目标语音特征可以为对语音合成模型预训练过程中从样本语音特征中抽取得到的,例如,从某个说话人的样本语言的语音特征中抽取,也可以为直接输入获得,例如,从用户直接输入的语音中提取得到,还可以为通过参数调整获得,例如,通过调整音色音调参数获得。
[0167] 获取目标文本,一种可选的方式为:接收终端设备上传的目标文本,又一种可选的方式为:获取文本识别模型输出的图像中目标文本,另一种可选的方式为:从数据库中,获取目标文本,在此不作限定。
[0168] 例如,在某个模型任务平台上,某个影视制作应用通过API调用该模型任务平台上预先训练语音合成模型。在该影视制作应用的客户端,用户上传影视台词文本“在这宁静的夜晚,我感受到了平和,仿佛整个宇宙都在倾听我的心声”作为目标文本,选择A人物,从语音特征数据库中获取该A人物的语音特征作为目标语音特征。
[0169] 获取目标文本和目标语音特征,为后续语音合成提供了输入文本和引导特征。
[0170] 步骤504:利用语音合成模型,基于目标文本和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音,其中,语音合成模型根据上述语音合成模型训练方法训练所得到的。
[0171] 示例性地,语音合成模型为预先训练得到的、具有语音合成功能的语音生成模型。语音合成模型的输入为目标文本和目标语音特征,输出为目标文本对应的目标语音。语音合成模型在目标语音特征所表征的音色音调的引导下,对目标文本进行语音生成。语音合成模型包括但不限于:扩散模型、扩散Transformer模型、Transformer模型和生成对抗模型。
[0172] 目标文本对应的目标语音为进行语音合成得到的自然语言的输出语音,目标语音具有目标文本的语音特征和目标语音特征的音色音调。例如,产品介绍语音,导航台词语音,社交消息语音,影视台词语音和课程教案语音。
[0173] 利用语音合成模型,基于目标文本和目标语音特征,生成目标文本对应的目标语音,一种可选的方式为:利用语音合成模型,基于目标文本和目标语音特征对随机噪声特征进行去噪,生成目标文本对应的目标语音,其中,随机噪声特征为随机生成的噪声特征,作为语音合成模型进行语音合成的“种子”,包括但不限于:随机高斯噪声和随机白噪声。
[0174] 例如,将目标文本“在这宁静的夜晚,我感受到了平和,仿佛整个宇宙都在倾听我的心声”和A人物的语音特征输入语音合成模型,利用语音合成模型,基于目标文本和目标语音特征对随机高斯噪声特征进行去噪,生成目标文本对应的目标语音。
[0175] 本说明书实施例与图1说明书实施例出于同一发明构思,步骤502和步骤504中未详细描述的内容参见上述模型训练的内容,在此不再赘述。
[0176] 本说明书实施例中,利用语音合成模型训练方法训练获得的高质量语音合成模型,来生成目标语音,有语音合成模型训练方法提升了模型训练过程中数据预处理的效率,降低了模型训练过程中数据预处理的成本,所以提升了语音合成的效率和生成质量,降低了语音合成的成本。
[0177] 在本说明书一种可选实施例中,步骤504中基于目标文本和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音,包括如下具体步骤:
[0178] 提取目标文本的目标文本特征。
[0179] 对齐目标文本特征和随机噪声特征的特征长度,其中,特征长度为量化编码特征的序列长度。
[0180] 基于对齐后的目标文本特征和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音。
[0181] 示例性地,目标文本的目标文本特征为在语音合成过程中从目标文本中提取得到的量化编码特征,表征了目标文本的语义。目标文本的目标文本特征包括但不限于:词嵌入特征(Word Embedding)和深度语义特征(Semantic Feature)。
[0182] 目标文本特征和随机噪声特征是不同模态的量化编码特征,但是语音合成要求文本和语音在时间上对齐,这要求目标文本特征和随机噪声特征在特征长度上进行对齐。
[0183] 特征长度为特征长度为量化编码特征的序列长度,在处理序列数据时,比如文本或语音信号,特征长度与数据的时间维度紧密相关,代表了序列中元素的数量。
[0184] 对齐目标文本特征和随机噪声特征的特征长度,一种可选的方式为:通过单调对齐搜索,对齐目标文本特征和随机噪声特征的特征长度,具体参见上述图1实施例,在此不再赘述。
[0185] 本说明书实施例中,通过对齐目标文本特征和随机噪声特征的特征长度,优化了语音合成过程中文本和语音之间的对应关系,提高了语音合成的鲁棒性和生成质量。
[0186] 在本说明书一种可选实施例中,在步骤504中基于目标文本和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音之前,还包括如下具体步骤:
[0187] 对目标语音特征进行注意力加权处理,获得加权后固定长度的目标语音特征。
[0188] 注意力加权处理为在自然语言处理领域中用于强化某些特征的处理。通过计算目标语音特征中各个特征的注意力权重,模型可以更加关注那些对输出贡献更大的特征,以更好地捕捉说话人的音色音调特征。
[0189] 示例性地,加权后固定长度的目标语音特征为经过注意力加权处理之后、每个特征都分配相应权重的目标语音特征。这些权重反映了特征点对于语音合成输出的重要程度,使得模型在生成语音时能够更加聚焦于关键的音色和音调特征,并引入随机性以去除不必要的信息,并固定特征长度。
[0190] 一个示例,在语音模型中设置有一个注意力机制层,并限定注意力机制层输出的特征长度,保证特征长度固定。
[0191] 本说明书实施例中,通过注意力加权优化参考特征,提升语音合成的音质表现,增强了模型对关键音色音调的捕捉能力,且维持了固定长度的特征表达,提高了语音合成的和生成质量。
[0192] 参见图6,图6示出了本说明书一个实施例提供的一种基于语音合成模型的信息处理方法的流程图,该方法应用于任务平台,包括如下具体步骤:
[0193] 步骤602:接收终端设备发送的模型请求,其中,模型请求包括请求信息,请求信息包括目标场景的场景标识、目标场景的场景文本和场景语音、以及模型规格参数中至少一项。
[0194] 示例性地,任务平台为提供模型服务的在线平台,允许开发者、企业或个人用户通过API调用、Web界面或其他交互方式提交任务、获取资源或实现特定功能。在本说明书实施例中,任务平台为能够提供深度学习模型的云服务平台,允许外部应用(如电商平台、导航应用、社交应用、影视制作应用和在线教育平台等)接入并使用。任务平台通过管理模型的训练、更新、优化、负载均衡、调度和推理,确保高效、准确地响应来自终端设备的请求。
[0195] 终端设备为请求获取语音合成模型的终端设备。
[0196] 模型请求为由终端设备向任务平台发送的,旨在获取或使用特定模型服务的请求。它包括目标场景的场景标识、目标场景的场景文本和场景语音,以及模型规格参数中至少一项请求信息。
[0197] 请求信息为模型请求中包含的具体数据信息,用以指导任务平台如何选择或定制模型,它包括目标场景的场景标识、目标场景的场景文本和场景语音,以及模型规格参数中至少一项。
[0198] 目标场景为语音合成模型将被应用的具体环境或情境,它描述了模型服务的目的和预期效果。
[0199] 目标场景的场景标识为用于识别的目标场景的标识信息。用于协助用户快速定位到与特定场景相关的模型,例如,“会议场景”、“语音生成”。
[0200] 目标场景的场景文本为在目标场景下用于训练模型适应于目标场景的训练文本输入。
[0201] 目标场景的场景语音为在目标场景下用于训练模型适应于目标场景的训练语音输入。
[0202] 模型规格参数为定义模型架构、性能或配置的属性规格参数,如模型型号、模型类型、模型尺寸等。模型规格参数用于确定适应于用户需求的模型。
[0203] 例如,用户在终端设备的任务平台客户端上,点选目标场景的场景标识为“视频生成”,点选需要的模型尺寸为:32GB,上传目标场景的场景文本和场景语音,终端设备生成模型请求并发送给任务平台。任务平台接收终端设备发送给任务平台的模型请求,其中,模型请求包括目标场景的场景标识、目标场景的场景文本和场景语音、以及模型规格参数。
[0204] 接收终端设备发送的模型请求,为后续获取语音合成模型提供了参考信息。
[0205] 步骤604:基于请求信息,获取语音合成模型,其中,语音合成模型根据语音合成模型训练方法训练所得到的。
[0206] 示例性地,基于请求信息,获取语音合成模型,一种可选的方式为:基于请求信息,从模型库中查找对应的语音合成模型,另一种可选的方式为:基于请求信息,训练获得语音合成模型,再一种可选的方式为:基于请求信息,构建语音合成模型,在此不作限定。
[0207] 例如,基于目标场景的场景标识,从模型库中查找预先经过训练的语音合成模型,基于模型尺寸,筛选获得对应尺寸的语音合成模型,基于目标场景的场景文本和场景语音,对对应尺寸的语音合成模型进行训练,获得适用于用户需求的语音合成模型。
[0208] 语音合成模型根据语音合成模型训练方法训练所得到的,本说明书实施例与图1说明书实施例出于同一发明构思,具体方式参见上述模型训练的内容,在此不再赘述。
[0209] 本说明书实施例中,适应于用户需求获取语音合成模型,实现了个性化的模型服务,为用户提供了一个高效、灵活且易用的模型服务方法,提升了用户体验。
[0210] 在本说明书一种可选实施例中,请求信息包括目标场景的场景标识;对应地,步骤604包括如下具体步骤:
[0211] 基于目标场景的场景标识,从模型库中查找适应于目标场景的语音合成模型,其中,模型库存储有多个适应于不同语音合成场景的语音合成模型,任一语音合成模型为根据语音合成模型训练方法训练所得到的。
[0212] 示例性地,模型库为存储和管理各种预训练深度学习模型的数据库,多个适应于不同语音合成场景的语音合成模型覆盖了不同的应用场景和需求,模型库允许用户根据自己的需求选择合适的模型,或者通过API调用直接使用模型进行预测和分析。
[0213] 多个适应于不同语音合成场景的语音合成模型为模型库中存储的多种专门设计用于不同语音合成场景的模型,每种模型都针对特定的应用环境进行了优化,任一语音合成模型为根据语音合成模型训练方法训练所得到的。
[0214] 例如,基于目标场景的场景标识“视频生成”,从模型库中查找适应于视频生成场景的语音合成模型。
[0215] 本说明书实施例中,基于具体的场景需求,通过场景标识精确地找到适应于该场景的语音合成模型,使得最终的语音输出更加自然、贴合场景,从而提高了用户体验和语音合成质量。
[0216] 在本说明书一种可选实施例中,请求信息包括目标场景的场景文本和场景语音,语音合成模型为适应于目标场景的语音合成模型;对应地,步骤604包括如下具体步骤:
[0217] 基于目标场景的场景文本和场景语音,对通用语音合成模型进行训练,获得语音合成模型,其中,通用语音合成模型为根据语音合成模型训练方法训练所得到的、适应于不同语音合成场景的语音合成模型。
[0218] 示例性地,通用语音合成模型是一种基础语音合成模型,被训练成能适应于不同语音合成场景的语音合成模型,但未针对任何特定场景进行优化。
[0219] 例如,基于视频生成场景的场景文本和场景语音,对通用语音合成模型进行训练,获得适应于视频生成场景的语音合成模型。
[0220] 本说明书实施例中,基于具体的场景需求,通过场景数据进一步训练通用语音合成模型,获得适应于该场景的语音合成模型,使得最终的语音输出更加自然、贴合场景,从而提高了用户体验和语音合成质量。
[0221] 在本说明书一种可选实施例中,请求信息包括模型规格参数;对应地,步骤604包括如下具体步骤:
[0222] 基于模型规格参数,从模型库中查找对应的语音合成模型,其中,模型库中存储有根据语音合成模型训练方法训练所得到的、多个不同模型规格参数的语音合成模型。
[0223] 例如,基于模型尺寸:32GB,从模型库中查找对应尺寸的语音合成模型。
[0224] 本说明书实施例中,基于具体的模型规格需求,通过模型规格参数精确地找到对应的语音合成模型,保证了语音合成模型的高效稳定运行,提升了用户体验。
[0225] 在本说明书一种可选实施例中,在步骤604之后,还包括如下具体步骤:
[0226] 部署语音合成模型,并基于语音合成模型,构建语音合成接口,以使终端设备调度语音合成模型执行语音合成任务。
[0227] 语音合成接口为终端设备调度语音合成模型的交互编程接口,通常通过API的形式提供。通过语音合成接口,用户可以输入目标文本,接收目标文本对应的目标语音,并有效控制模型的输出,如语速、音调等。
[0228] 部署语音合成模型,一种可选的方式为:在任务平台的分布式系统上部署语音合成模型。
[0229] 例如,在任务平台的分布式系统上部署语音合成模型,并基于语音合成模型,构建语音合成接口提供了终端设备,以使终端设备调度语音合成模型执行视频生成场景的语音合成任务。
[0230] 本说明书实施例中,实现终端高效调用,优化语音合成任务处理,提升语音合成的生成质量与响应速度。
[0231] 下述结合附图7,以本说明书提供的语音合成方法在视频配音合成场景的应用为例,对语音合成方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种应用于视频配音合成场景下的语音合成方法的处理过程流程图,包括如下具体步骤:
[0232] 步骤702:从样本数据库中,获取样本文本和样本语音。
[0233] 步骤704:利用音频编码器,对样本语音进行离散语音编码,获得样本语音的离散样本语音特征,并从样本语音的离散样本语音特征中,随机抽取参考语音特征。
[0234] 步骤706:利用注意力机制层,对参考语音特征进行注意力加权处理,获得加权后固定长度的参考语音特征。
[0235] 步骤708:利用扩散模型,对样本语音特征进行加噪。
[0236] 步骤710:利用文本编码器,提取样本文本的样本文本特征,并对齐样本文本特征和加噪后的样本语音特征的特征长度。
[0237] 步骤712:利用扩散模型,基于对齐后的样本文本特征和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征。
[0238] 步骤714:去除样本语音特征中的参考语音特征,获得样本语音的去除语音特征,并去除预测语音特征的语音特征中的参考语音特征,获得预测语音特征的去除语音特征,基于样本语音的去除语音特征和预测语音特征的去除语音特征,计算第一掩码损失值,基于第一掩码损失值,调整模型参数,在达到预设训练结束条件的情况下,得到语音合成模型。
[0239] 步骤702至步骤714为模型的预训练过程。
[0240] 步骤716:从视频配音数据库中,获取微调台词文本、微调角色语音和随机生成的可学习语音特征,利用语音合成模型,对微调角色语音的语音特征进行加噪,并基于微调台词文本和可学习语音特征,对加噪后的微调角色语音的语音特征进行去噪,生成还原角色语音特征,基于微调角色语音特征和还原角色语音特征,计算微调损失值,基于微调损失值,调整语音合成模型的模型参数,在达到预设微调结束条件的情况下,得到微调完成的语音合成模型。
[0241] 步骤716为模型的微调过程,步骤718至步骤722为模型推理过程。
[0242] 步骤718:接收终端设备发送的目标台词文本和目标角色的角色标识,并基于角色标识,从角色语音特征模板中获取目标角色的语音特征。
[0243] 步骤720:利用语音合成模型,基于目标台词文本和目标角色的语音特征对随机噪声特征进行去噪,生成目标台词文本对应的目标角色语音。
[0244] 步骤722:基于目标角色语音,生成视频配音文件,并将视频配音文件反馈至终端设备。
[0245] 本说明书实施例中,无需标注样本语音的说话人,减少了对于说话人的依赖性,利用该掩码扩散方式训练得到的语音合成模型完成语音合成,赋予了训练得到的语音合成模型的音色音调克隆能力,提升了样本数据的扩展性,提升了数据预处理的效率,降低了数据预处理的成本,结合模型微调,获得了适应于视频配音合成场景的语音合成模型,提升了视频配音合成的质量和效率。
[0246] 与上述方法实施例相对应,本说明书还提供了任务平台实施例,图8示出了本说明书一个实施例提供的一种任务平台的结构示意图。如图8所示,该任务平台800包括请求接口802和响应单元804。
[0247] 请求接口802,用于接收终端设备发送的模型请求,其中,模型请求包括请求信息,请求信息包括目标场景的场景标识、目标场景的场景文本和场景语音、以及模型规格参数中至少一项。
[0248] 响应单元804,用于基于请求信息,获取语音合成模型,其中,语音合成模型根据上述语音合成模型训练方法训练所得到的。
[0249] 可选地,请求信息包括目标场景的场景标识;响应单元804,具体用于基于目标场景的场景标识,从模型库中查找适应于目标场景的语音合成模型,其中,模型库存储有多个适应于不同语音合成场景的语音合成模型,任一语音合成模型为根据语音合成模型训练方法训练所得到的。
[0250] 可选地,请求信息包括目标场景的场景文本和场景语音,语音合成模型为适应于目标场景的语音合成模型;响应单元804,具体用于基于目标场景的场景文本和场景语音,对通用语音合成模型进行训练,获得语音合成模型,其中,通用语音合成模型为根据语音合成模型训练方法训练所得到的、适应于不同语音合成场景的语音合成模型。
[0251] 可选地,请求信息包括模型规格参数;响应单元804,具体用于基于模型规格参数,从模型库中查找对应的语音合成模型,其中,模型库中存储有根据语音合成模型训练方法训练所得到的、多个不同模型规格参数的语音合成模型。
[0252] 可选地,任务平台还包括语音合成接口,语音合成接口基于语音合成模型构建得到的;语音合成接口,用于供终端设备调度执行语音合成任务。
[0253] 本说明书实施例中,任务平台适应于用户需求获取语音合成模型,实现了个性化的模型服务,为用户提供了一个高效、灵活且易用的模型服务平台,提升了用户体验。
[0254] 上述为本实施例的一种任务平台的示意性方案。需要说明的是,该任务平台的技术方案与上述的基于语音合成模型的信息处理方法的技术方案属于同一构思,任务平台的技术方案未详细描述的细节内容,均可以参见上述基于语音合成模型的信息处理方法的技术方案的描述。
[0255] 与上述方法实施例相对应,本说明书还提供了语音合成模型训练装置实施例,图9出了本说明书一个实施例提供的一种语音合成模型训练装置的结构示意图。如图9所示,该装置包括:
[0256] 第一获取模块902,被配置为获取样本文本和样本语音。
[0257] 抽取模块904,被配置为提取样本语音的样本语音特征,并从样本语音特征中,抽取参考语音特征。
[0258] 第一生成模块906,被配置为利用语音模型,对样本语音特征进行加噪,并基于样本文本和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征。
[0259] 训练模块908,被配置为基于样本语音特征和预测语音特征,对语音模型进行训练,得到语音合成模型。
[0260] 可选地,训练模块908被进一步配置为:
[0261] 基于去除参考语音特征后的样本语音特征和去除参考语音特征后的预测语音特征,确定第一掩码损失值,其中,第一掩码损失值表征去除参考语音特征后的预测语音特征与去除参考语音特征后的样本语音特征两者之间的差异情况;基于第一掩码损失值,对语音模型进行训练,得到语音合成模型。
[0262] 可选地,第一生成模块906被进一步配置为:
[0263] 提取样本文本的样本文本特征;对齐样本文本特征和加噪后的样本语音特征的特征长度,其中,特征长度为量化编码特征的序列长度;基于对齐后的样本文本特征和参考语音特征,对加噪后的样本语音特征进行去噪,生成预测语音特征。
[0264] 可选地,该装置还包括:
[0265] 第一注意力模块,被配置为对参考语音特征进行注意力加权处理,获得加权后固定长度的参考语音特征。
[0266] 可选地,抽取模块904被进一步配置为:
[0267] 对样本语音进行离散语音编码,获得样本语音的离散样本语音特征;从样本语音的离散样本语音特征中,随机抽取参考语音特征。
[0268] 可选地,语音合成模型为适应于不同语音合成场景的通用语音合成模型;该装置还包括:
[0269] 微调模块,被配置为获取目标场景的微调文本、微调语音,以及随机生成的可学习语音特征;利用语音合成模型,对微调语音的微调语音特征进行加噪,并基于微调文本和可学习语音特征,对加噪后的微调语音特征进行去噪,生成还原语音特征;基于微调语音特征和还原语音特征,确定微调损失值;基于微调损失值,对语音合成模型进行微调,得到适用于目标场景的语音合成模型。
[0270] 可选地,样本文本为多语种的样本文本,样本语音为多语种的样本语音。
[0271] 本说明书实施例中,由于参考语音特征是从样本语音自身的语音特征中提取得到的,保证了音色音调的变化不大,在此基础上,利用语音模型、基于样本文本和参考语音特征对加噪后的样本语音特征进行去噪来生成预测语音特征,就无需标注样本语音的说话人,减少了对于说话人的依赖性,赋予了训练得到的语音合成模型的音色音调克隆能力,进而提升了样本数据的扩展性。并且由于无需标注样本语音的说话人,减少了对于说话人的依赖性,提升了模型训练过程中数据预处理的效率,降低了模型训练过程中数据预处理的成本。
[0272] 上述为本实施例的一种语音合成模型训练装置的示意性方案。需要说明的是,该语音合成模型训练装置的技术方案与上述的语音合成模型训练方法的技术方案属于同一构思,语音合成模型训练装置的技术方案未详细描述的细节内容,均可以参见上述语音合成模型训练方法的技术方案的描述。
[0273] 与上述方法实施例相对应,本说明书还提供了语音合成装置实施例,图10示出了本说明书一个实施例提供的一种语音合成装置的结构示意图。如图10所示,该装置包括:
[0274] 第二获取模块1002,被配置为获取目标文本和目标语音特征;
[0275] 第二生成模块1004,被配置为利用语音合成模型,基于目标文本和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音,其中,语音合成模型根据上述语音合成模型训练方法训练所得到的。
[0276] 可选地,请求信息包括目标场景的场景标识;
[0277] 第二生成模块1004,被进一步配置为提取目标文本的目标文本特征;对齐目标文本特征和随机噪声特征的特征长度,其中,特征长度为量化编码特征的序列长度;基于对齐后的目标文本特征和目标语音特征,对随机噪声特征进行去噪,生成目标文本对应的目标语音。
[0278] 可选地,该装置还包括:
[0279] 第二注意力模块,被配置为对目标语音特征进行注意力加权处理,获得加权后固定长度的目标语音特征。
[0280] 本说明书实施例中,利用语音合成模型训练方法训练获得的高质量语音合成模型,来生成目标语音,通过语音合成模型训练方法提升了模型训练过程中数据预处理的效率,降低了模型训练过程中数据预处理的成本,所以提升了语音合成的效率和生成质量,降低了语音合成的成本。
[0281] 上述为本实施例的一种语音合成装置的示意性方案。需要说明的是,该语音合成装置的技术方案与上述的语音合成方法的技术方案属于同一构思,语音合成装置的技术方案未详细描述的细节内容,均可以参见上述语音合成方法的技术方案的描述。
[0282] 与上述方法实施例相对应,本说明书还提供了基于语音合成模型的信息处理装置实施例,图11示出了本说明书一个实施例提供的一种基于语音合成模型的信息处理装置的结构示意图。如图11所示,该装置应用于任务平台,包括:
[0283] 接收模块1102,被配置为接收终端设备发送的模型请求,其中,模型请求包括请求信息,请求信息包括目标场景的场景标识、目标场景的场景文本和场景语音,以及模型规格参数中至少一项;
[0284] 模型获取模块1104,被配置为基于请求信息,获取语音合成模型,其中,语音合成模型根据上述语音合成模型训练方法训练所得到的。
[0285] 可选地,请求信息包括目标场景的场景标识;模型获取模块1104,被进一步配置为:
[0286] 基于目标场景的场景标识,从模型库中查找适应于目标场景的语音合成模型,其中,模型库存储有多个适应于不同语音合成场景的语音合成模型,任一语音合成模型为根据语音合成模型训练方法训练所得到的。
[0287] 可选地,请求信息包括目标场景的场景文本和场景语音,语音合成模型为适应于目标场景的语音合成模型;模型获取模块1104,被进一步配置为:
[0288] 基于目标场景的场景文本和场景语音,对通用语音合成模型进行训练,获得语音合成模型,其中,通用语音合成模型为根据语音合成模型训练方法训练所得到的、适应于不同语音合成场景的语音合成模型。
[0289] 可选地,请求信息包括模型规格参数;模型获取模块1104,被进一步配置为:
[0290] 基于模型规格参数,从模型库中查找对应的语音合成模型,其中,模型库中存储有根据语音合成模型训练方法训练所得到的、多个不同模型规格参数的语音合成模型。
[0291] 可选地,该装置还包括:
[0292] 模型部署模块,被配置为部署语音合成模型,并基于语音合成模型,构建语音合成接口,以使终端设备调度语音合成模型执行语音合成任务。
[0293] 本说明书实施例中,适应于用户需求获取语音合成模型,实现了个性化的模型服务,为用户提供了一个高效、灵活且易用的模型服务方法,提升了用户体验。
[0294] 上述为本实施例的一种基于语音合成模型的信息处理装置的示意性方案。需要说明的是,该基于语音合成模型的信息处理装置的技术方案与上述的基于语音合成模型的信息处理方法的技术方案属于同一构思,基于语音合成模型的信息处理装置的技术方案未详细描述的细节内容,均可以参见上述基于语音合成模型的信息处理方法的技术方案的描述。
[0295] 图12示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线
1230相连接,数据库1250用于保存数据。
[0296] 计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(Public Switched Telephone Network,简称PSTN)、局域网(LocalAreaNetwork,简称LAN)、广域网(WideAreaNetwork,简称WAN)、个域网(PersonalAreaNetwork,简称PAN)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(Network Interface Controller,简称NIC))中的一个或多个,诸如IEEE802.11无线局域网(Wireless Local Area Network,简称WLAN)无线接口、全球微波互联接入(Worldwide Interoperability for MicrowaveAccess,简称Wi‑MAX)接口、以太网接口、通用串行总线(Universal Serial Bus,简称USB)接口、蜂窝网络接口、蓝牙接口、近场通信(Near Field Communication,简称NFC)。
[0297] 在本说明书的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0298] 计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(Personal Computer,简称PC)的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。
[0299] 其中,处理器1220用于执行如下计算机程序/指令,该计算机程序/指令被处理器执行时实现上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的步骤。
[0300] 上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的语音合成模型训练方法、语音合成方法和基于语音合成模型的信息处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的技术方案的描述。
[0301] 本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的步骤。
[0302] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语音合成模型训练方法、语音合成方法和基于语音合成模型的信息处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的技术方案的描述。
[0303] 本说明书一实施例还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的步骤。
[0304] 上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是,该计算机程序产品的技术方案与上述的语音合成模型训练方法、语音合成方法和基于语音合成模型的信息处理方法的技术方案属于同一构思,计算机程序产品的技术方案未详细描述的细节内容,均可以参见上述语音合成模型训练方法、语音合成方法或者基于语音合成模型的信息处理方法的技术方案的描述。
[0305] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0306] 所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read‑Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
[0307] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0308] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0309] 以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。