语音端点检测方法、装置、存储介质及电子设备

语音端点检测方法、装置、存储介质及电子设备实质审查发明

技术领域

[0001] 本申请涉及语音处理技术领域，具体涉及一种语音端点检测方法、装置、存储介质及电子设备。

具体实施方式

[0029] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0030] 申请概述

[0031] 随着语音信号处理技术的快速发展，语音处理流程前端的语音端点检测也更加必不可少。其中，语音端点检测是指在连续的声音信号中找出语音的起始点和终点，也称为语音活动性检测。

[0032] 随着应用场景和客户需求的不断升级，多模态语音端点检测得到了广泛关注，即，结合音频信号和视频信号，获取语音的起始时间和终止时间。相比于只使用音频信号进行语音端点检测，多模态语音端点检测可以有效提高检测精度，实现低信噪比和复杂噪声环境下的语音端点检测。但是，在实际应用中，音频信号或视频信号可能受损，例如视频传输过程中出现丢帧的情况，此时语音端点检测的准确性会大幅下降。

[0033] 针对上述问题，系统通常会对每一帧视频信号进行检测。在遇到视频信号受损时，系统通常会进行单音频的语音端点检测。若视频信号正常，则进行多模态数据的语音端点检测。如此，便需要多次重复切换语音端点检测模块，对检测系统的性能要求较高。

[0034] 有鉴于此，本申请实施例提供了一种语音端点检测模块，首先获取目标对象的音频帧和视频帧，进而确定音频特征和视频特征，通过两种模态的特征数据，确定目标时段内的语音端点，提高了语音端点的检测精度，降低了复杂环境噪声的影响。另外，根据音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征，最后根据目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点，实现了即使某一单模态特征数据出现异常受损，也能通过音频特征和视频特征中的强模态特征，确定目标时段内的语音端点，进一步保证了语音端点检测在异常情况下的正常运行、以及语音端点的检测精度。

[0035] 示例性场景

[0036] 本申请实施例提出的语音端点检测方法可由电子设备执行，该电子设备可以是终端，比如智能手机、平板电脑、笔记本电脑等。或者，该电子设备可以是服务器，比如独立的物理服务器、终端服务器或云端服务器。

[0037] 图1所示为本申请实施例提供的语音端点检测方法的一场景示意图。在本申请实施例中，电子设备包括终端11和服务器12，终端11和服务器12之间通信连接。

[0038] 具体地，本场景为视频会议场景，需要将目标与会者的语音记录转换成文字记录。此时，终端11获取与会者在视频会议场景中讲话的视频和音频，将其拆分成多个音频帧和多个视频帧，并将多个音频帧和多个视频帧上传至服务器12。示例性地，服务器12中部署有特征提取网络模型和强模态特征判断网络模型。服务器12根据与会者的多个音频帧和多个视频帧，利用特征提取网络模型，得到多个音频帧各自的音频特征和多个视频帧各自的视频特征。进一步地，服务器12利用强模态特征判断网络模型从多个音频特征和多个视频特征中确定目标时段内的多个时间节点的强模态特征，进而确定目标时段内的语音端点。在获取到目标时段内的语音端点后，可实时向用户展示在各个语音端点内，目标与会者的语音对应的文字记录，以便用户清楚的知晓在各个时间节点的文字记录内容。

[0039] 示例性方法

[0040] 图2所示为本申请一示例性实施例提供的语音端点检测方法的流程示意图。如图2所示，本申请实施例提供的语音端点检测方法包括如下步骤。

[0041] 步骤S210，获取目标对象对应的音频帧和视频帧。音频帧和视频帧处于同一目标时段。

[0042] 目标对象可以是人、也可以是其他具有说话功能的智能机器人，本申请实施例对目标对象的类型不作限定。音频帧和视频帧是处于同一目标时段，示例性地，目标时段为10月11日上午8点至上午8点半。音频帧和视频帧的数量可以是多个，也可是单个。多个音频帧在时序上可以是连续的，也可以间隔规定的帧数。同样地，多个视频帧在时序上可以是连续的，也可以间隔规定的帧数。示例性地，为了减少计算量，同时为了保证检测的准确性，多个音频帧中的每相邻两个音频帧在时序上可间隔一帧音频，多个视频帧中的每相邻两个视频帧在时序上可间隔一帧视频。

[0043] 步骤S220，分别对音频帧和视频帧进行特征提取，得到音频特征和视频特征。

[0044] 具体地，对音频帧进行预加重处理和短时傅里叶变换，获取能量谱，并在能量谱上应用Mel滤波器组，以获取FBank特征。进一步地，在FBank特征的基础上，利用音频特征提取网络获取音频帧的音频特征。示例性地，音频特征提取网络由一层长短期记忆网络和一层Time‑Conv网络组成，其中长短期记忆网络便于长序列的处理，可以保留重要信息，Time‑Conv网络用于对音频数据进行时间维度的建模。

[0045] 进一步地，若目标对象是人，则视频帧是关于唇形区域的视频帧，以避免鼻子、眼睛等其他脸部信息的干扰。将视频帧送入唇形特征提取网络。唇形特征提取网络主要由MobileNet、Time‑Conv和门控循环神经网络(Gated Recurrent Neural Network，GRU)构成。MobileNet在图像任务中表现优异，且模型结构小、计算效率较高，GRU是一种递归神经网络(Recurrent Neural Network，RNN)，可以有效解决短期记忆问题。

[0046] 步骤S230，基于音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征。

[0047] 具体地，时间节点的强模态特征是指时间节点对应的音频特征和视频特征中、能够更强表征目标对象是否处于语音状态的特征。每个时间节点可对应一个音频帧和一个视频帧，也可以对应两个音频帧和两个视频帧，本领域技术人员在确定语音端点检测精度的前提下，可自行确定每个时间节点对应的音频帧和视频帧的个数。

[0048] 示例性地，目标时段共包含50个时间节点，每个时间节点对应一个音频特征和一个视频特征。将属于同一时间节点中的、能够更强表征目标对象是否处于语音状态的特征确定为强模态特征。

[0049] 步骤S240，基于目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点。

[0050] 沿用步骤S230中的示例，50个时间节点各自对应一个强模态特征，可以根据50个时间节点各自的强模态特征，确定每个时间节点目标对象是否处于语音状态。示例性地，目标对象在第1个时间节点至第30个时间节点处于语音状态，标记为1；第31个时间节点至第38个时间节点处于非语音状态，标记为0；第39个时间节点至第50个时间节点处于语音状态，标记为1；则可认为，第1个时间节点、第30个时间节点、第39个时间节点均为目标时段内的语音端点。其中，第1个时间节点和第39个时间节点为起始语音端点，第39个语音端点为终止语音端点。

[0051] 在另一实施方式中，也可以对目标时段内的多个时间节点各自的强模态特征进行处理，根据处理结果进一步确定目标时段内的语音端点。

[0052] 在本申请实施例中，首先获取目标对象的音频帧和视频帧，进而确定音频特征和视频特征，通过两种模态的特征数据，确定目标时段内的语音端点，提高了语音端点的检测精度，降低了复杂环境噪声的影响。另外，根据音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征，最后根据目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点，实现了即使某一单模态特征数据出现异常受损，也能通过音频特征和视频特征中的强模态特征，确定目标时段内的语音端点，进一步保证了语音端点检测在异常情况下的正常运行、以及语音端点的检测精度。

[0053] 图3所示为本申请一示例性实施例提供的确定目标时段内的语音端点的流程示意图。在图2所示实施例的基础上延伸出图3所示实施例。下面着重叙述图3所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

[0054] 如图3所示，在本申请实施例中，基于目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点，包括如下步骤。

[0055] 步骤S310，基于多个时间节点各自的强模态特征，从音频特征和视频特征中确定多个时间节点各自的第一弱模态特征。

[0056] 时间节点的第一弱模态特征是指相较于时间节点的强模态特征，能够更弱表征目标对象是否处于语音状态的特征。对于每个时间节点，若该时间节点的强模态特征是该时间节点的音频帧对应的音频特征，则弱模态特征是该时间节点的视频帧对应的视频特征。

[0057] 沿用前述示例，目标时段包含50个时间节点。第1个时间节点的强模态特征是第1个时间节点的音频帧对应的音频特征，则该时间节点的弱模态特征即为第1个时间节点的视频帧对应的视频特征。

[0058] 步骤S320，针对多个时间节点中的每个时间节点，利用时间节点的强模态特征修正时间节点的第一弱模态特征，得到时间节点的第二弱模态特征。

[0059] 示例性地，对于每个时间节点，利用强模态特征，加强第一弱模态特征中、同样能够准确表征目标对象在该时间节点是否处于语音状态的特征，减弱第一弱模态特征中、不能准确表征目标对象在该时间节点是否处于语音状态的特征，进而得到该时间节点的第二弱模态特征。

[0060] 步骤S330，基于多个时间节点各自的强模态特征和第二弱模态特征，确定目标时段内的语音端点。

[0061] 示例性地，可以将每个时间节点的强模态特征和第二弱模态特征进行融合，以确定目标时段内的语音端点。亦可以根据实际情况，选择每个时间节点对应的强模态特征或第二弱模态特征，确定目标时段内的语音端点。

[0062] 在本申请实施例中，利用强模态特征去修正第一弱模态特征，得到第二弱模态特征，并利用强模态特征和第二弱模态特征，确定目标时段内的语音端点。即，本申请实施例加强了第一弱模态特征中的某些能够表征目标对象是否处于语音状态的特征，进一步提高了语音端点检测的准确性。

[0063] 图4所示为跨模态编码器的网络结构示意图。示例性地，对于目标时段内的每个时间节点，利用跨模态编码器，使用强模态特征修正第一弱模态特征，得到第二弱模态特征。

[0064] 具体地，如图4所示，跨模态编码器包括四层卷积层(Convolutional Neural Network，CNN)和一个全连接层(Fully Connected Layer，FC)。每个CNN层都拼接有BatchNorm层和修正线性单元(Rectified Linear Unit，ReLU)激活函数。其中，BatchNorm层会使参数搜索问题变得容易，使神经网络对超参数的选择更加稳定，同时也会使网络，甚至是深层网络的训练更加容易。

[0065] 在修正过程中，要拉进强模态特征和第二弱模态特征之间的距离，以保证特征对齐，二者位于共隐空间，即：

[0066]

[0067] 其中，Vstrong表示强模态特征，表示第二弱模态特征，Lcross表示二者之间的欧式距离。在跨模态编码器的训练过程中，要最小化Lcross。

[0068] 图5所示为本申请另一示例性实施例提供的确定目标时段内的语音端点的流程示意图。在图3所示实施例的基础上延伸出图5所示实施例。下面着重叙述图5所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

[0069] 如图5所示，在本申请实施例中，基于多个时间节点各自的强模态特征和第二弱模态特征，确定目标时段内的语音端点，包括如下步骤。

[0070] 步骤S510，对多个时间节点各自的强模态特征进行特征质量检测，得到目标时段的强模态特征的质量值。

[0071] 步骤S520，对多个时间节点各自的第二弱模态特征进行特征质量检测，得到目标时段的第二弱模态特征的质量值。

[0072] 特征质量检测用于评价特征对于表征的指标的好坏。例如，对于强模态特征，其能准确、完整地表征目标对象是否处于语音状态，则强模态特征对应的质量值就高。同样地，对于第二弱模态特征，若其也能准确、完整地表征目标对象是否处于语音状态，则第二弱模态特征对应的质量值也高。强模态特征的质量值和第二弱模态特征的质量值之间的大小关系没有必然联系，强模态特征的质量值可能大于、小于或等于第二弱模态特征的质量值。

[0073] 示例性地，可以将多个时间节点各自的强模态特征输入预先训练好的质量评测模块，获取整个目标时段的强模态特征对应的质量值、以及整个目标时段的第二弱模态特征对应的质量值。

[0074] 步骤S530，基于强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点。

[0075] 在本申请实施例中，对强模态特征和第二弱模态特征进行特征质量检测，以便根据强模态特征的质量值和第二弱模态特征的质量值，评价强模态特征和第二弱模态特征的好坏，进而可准确评判和选择合适的特征，以检测目标时段内的语音端点。

[0076] 图6所示为本申请又一示例性实施例提供的确定目标时段内的语音端点的流程示意图。在图5所示实施例的基础上延伸出图6所示实施例。下面着重叙述图6所示实施例与图5所示实施例的不同之处，相同之处不再赘述。

[0077] 如图6所示，在本申请实施例中，基于强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点，包括如下步骤。

[0078] 步骤S610，判断强模态特征的质量值和第二弱模态特征的质量值与预设质量阈值的大小关系。

[0079] 示例性地，预设质量阈值为0.8。

[0080] 示例性地，在实际应用过程中，若步骤S610的判断结果是强模态特征的质量值小于预设质量阈值时，则执行步骤S620；若步骤S620的判断结果是第二弱模态特征的质量值小于预设质量阈值，则执行步骤S630；若强模态特征的质量值和第二弱模态特征的质量值均大于或等于预设质量阈值，则执行步骤S640和步骤S650。

[0081] 步骤S620，基于多个时间节点各自的第二弱模态特征和强模态特征，确定目标时段内的语音端点。

[0082] 具体地，根据第二弱模态特征和强模态特征的质量值，确定第二弱模态特征和强模态特征的融合权重。确定第二弱模态特征的分类结果和强模态特征的分类结果，根据第二弱模态特征对应的融合权重和分类结果、强模态特征对应的融合权重和分类结果，确定目标时段内的语音端点。

[0083] 示例性地，针对第二弱模态特征，每个时间节点对应一个第二弱模态特征，基于每个时间节点的第二弱模态特征，确定每个时间节点的第二弱模态特征的分类结果，其中，分类结果为在该时间节点、目标对象处于语音状态和非语音状态的概率。非语音状态的概率可通过1‑语音状态的概率得到，也可利用质量评测模块自动输出每个时间节点的第二弱模态特征对应的语音状态的概率和非语音状态的概率。

[0084] 示例性地，表1所示为多个时间节点各自的第二弱模态特征的分类结果，分类结果的单位为(％)，目标时段包含45个时间节点。

[0085] 表1 45个时间节点各自对应的第二弱模态特征的分类结果

[0086]时间节点 1 2 3 4 5 6 7 8 9
分类结果 78 86 93 85 79 84 86 87 85
时间节点 10 11 12 13 14 15 16 17 18
分类结果 90 97 86 84 51 41 43 49 21
时间节点 19 20 21 22 23 24 25 26 27
分类结果 84 86 94 91 93 86 84 83 84
时间节点 28 29 30 31 32 33 34 35 36
分类结果 89 94 96 92 97 90 94 90 96
时间节点 37 38 39 40 41 42 43 44 45
分类结果 91 87 86 23 29 41 31 19 21

[0087] 示例性地，针对某一时间节点，第二弱模态特征的融合权重为30％、分类结果为语音状态的概率56％，强模态特征的融合权重为70％、语音状态的概率为84％，则该时间节点对应的语音状态的概率为56％*30％+84％*70％＝92.4％，可认为该时间节点处于语音状态。针对每个时间节点对应的分类结果，确定目标时间段内的语音端点。

[0088] 步骤S630，基于多个时间节点各自的强模态特征，确定目标时段内的语音端点。

[0089] 与步骤S620中的示例相同，每个时间节点对应一个强模态特征。基于每个时间节点对应的强模态特征，确定每个时间节点的强模态特征的分类结果。进一步地，根据每个时间节点的强模态特征的分类结果，确定，目标时段内的语音端点。

[0090] 步骤S640，针对多个时间节点中的每个时间节点，对时间节点的强模态特征和第二弱模态特征进行融合，得到时间节点的融合特征。

[0091] 具体地，针对多个时间节点中的每个时间节点，利用音频特征和视频特征的互补性，对强模态特征和第二弱模态特征进行融合处理，获取更完整的多模态特征，也即融合特征。

[0092] 示例性地，可以将每个时间节点的强模态特征和第二弱模态特征进行简单拼接，得到该时间节点的融合特征，也可以使用更为复杂的特征融合方案。例如，先使用该时间节点的强模态特征对第二弱模态特征进行过滤，以便筛除一些对确定目标对象是否处于语音状态无关的特征。进而，将过滤后的第二弱模态特征与强模态特征进行拼接，得到该时间节点的融合特征。

[0093] 示例性地，对于某时间节点，该时间节点的强模态特征是T*160，第二弱模态特征是T*160，则拼接后得到的融合特征是T*320。

[0094] 步骤S650，基于多个时间节点各自的融合特征、强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点。

[0095] 示例性地，可以参考强模态特征的质量值和第二弱模态特征的质量值，基于多个时间节点各自的融合特征、强模态特征和第二弱模态特征，确定目标时段内的语音端点。

[0096] 在本申请实施例中，根据强模态特征的质量值和第二弱模态特征的质量值，分情况确定目标时段内的语音端点。具体地，当强模态特征的质量值或第二弱模态特征的质量值小于预设质量阈值时，二者对应的融合特征的可信度降低，故，此时利用单模态的特征确定目标时段内的语音端点。当强模态特征和第二弱模态特征的质量值均大于预设质量阈值时，认为强模态特征和第二弱模态特征对应的融合特征的可信度较高，此时可通过融合特征确定目标时段内的语音端点。即，本申请实施例覆盖了各种异常情况，以保证语音端点检测的正常进行，并进一步提高了语音端点检测的精度。

[0097] 图7所示为本申请再一示例性实施例提供的确定目标时段内的语音端点的流程示意图。在图6所示实施例的基础上延伸出图7所示实施例。下面着重叙述图7所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

[0098] 如图7所示，在本申请实施例中，基于多个时间节点各自的融合特征、强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点，包括如下步骤。

[0099] 步骤S710，基于强模态特征的质量值和第二弱模态特征的质量值，确定强模态特征的融合权重和第二弱模态特征的融合权重。

[0100] 示例性地，强模态特征的质量值为0.8，第二弱模态特征的质量值为0.7，则可根据具体的质量值，合理赋予强模态特征的融合权重值、以及第二弱模态特征的融合权重值。例如，强模态特征的融合权重值为30％，第二弱模态特征的融合权重值为20％，以便使得质量值大的特征的融合权重值大，提高语音端点的检测精度。

[0101] 步骤S720，针对多个时间节点中的每个时间节点，确定时间节点的强模态特征、第二弱模态特征和融合特征各自对应的分类结果。分类结果为在时间节点、目标对象分别处于语音状态和非语音状态的概率。

[0102] 示例性地，沿用前述示例，确定每个时间节点的强模态特征的分类结果、第二弱模态特征的分类结果以及融合特征的分类结果。

[0103] 步骤S730，基于时间节点的强模态特征对应的分类结果和强模态特征的融合权重、时间节点的第二弱模态特征对应的分类结果和第二弱模态特征的融合权重、以及时间节点的融合特征对应的分类结果，确定时间节点对应的最终分类结果。

[0104] 示例性地，可根据该时间节点的强模态特征的融合权重和第二弱模态特征的融合权重，确定该时间节点的融合特征的融合权重，例如，针对同一时间节点，融合特征的融合权重＝1‑强模态特征的融合权重‑第二弱模态特征的融合权重。此外，也可以利用分类结果融合模块，基于第二弱模态特征的质量值、强模态特征的质量值，综合输出并确定第二弱模态特征的融合权重、强模态特征的融合权重和融合特征的融合权重。

[0105] 示例性地，对于该时间节点，若融合特征的语音概率为x，强模态特征的语音概率为y，第二弱模态特征的语音概率为z，融合特征的融合权重为a，强模态特征的融合权重为b，第二弱模态特征的融合权重为c，则该时间节点对应的最终的分类结果为x*a+y*b+z*c。

[0106] 示例性地，沿用步骤S710中的示例，若该时间节点的融合特征的融合权重为50％。假设该时间节点的融合特征的语音概率为92％，强模态特征的语音概率为81％，第二弱模态特征的语音概率为75％，则该时间节点的最终的分类结果为92％×50％+81％×30％+
75％×20％＝1.015，即，处于语音状态的概率为1.015，此时，可认为在该时间节点，目标对象确实处于语音状态。

[0107] 步骤S740，基于多个时间节点各自对应的最终分类结果，确定目标时段内的语音端点。

[0108] 具体地，对每个时间节点的最终分类结果进行规整。规整时考虑在某一段时间节点的分类结果。即，在某个时间节点范围内，存在一定比例的处于语音状态的分类结果，才认为是一段语音的开始；存在一定比例的处于非语音状态的分类结果，才认为是一段语音的结束。

[0109] 示例性地，若在某时间节点，目标对象处于语音状态，则将该时间节点标记为1，若目标对象处于非语音状态，则将该时间节点标记为0。若连续的40个时间节点中存在35个1序列，则认为此段时间内，目标对象处于语音状态，以便把一些偶片的0排除。基于认定的处于语音状态的时间段，可进一步确定目标对象的语音端点。非语音状态的确定方法与语音状态的确定方法相同。

[0110] 同样地，在本申请实施例中，利用强模态特征对应的分类结果、第二弱模态特征对应的分类结果、融合特征对应的分类结果，联合确定目标时段内的语音端点，大大增加了语音端点检测的准确度。

[0111] 图8所示为本申请一示例性实施例提供的质量评测模块的结构示意图。如图8所示，质量评测模块由四个CNN层、两个池化层(Max Pooling)、三个FC层构成。其中，每个CNN层包含BatchNorm和ReLU激活函数，每个FC层添加了一定比例的dropput。在整个网络中采用ReLU激活函数，可以增大网络稀疏性，提升模型的泛化能力。

[0112] 在质量评测模块的网络结构中，CNN层、池化层和激活函数等操作是为了将原始特征映射到隐层特征空间，FC层将特征映射到质量评测结果空间，最后的激活函数将输出结果进行归一化处理。质量评测模块的输出为每个音频特征或视频特征的质量值。

[0113] 图9所示为本申请一示例性实施例提供的确定多个时间节点各自的强模态特征的流程示意图。在图2所示实施例的基础上延伸出图9所示实施例。下面着重叙述图9所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

[0114] 如图9所示，在本申请实施例中，基于音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征，包括如下步骤。

[0115] 步骤S910，对音频特征进行特征质量检测，得到音频特征的质量值。

[0116] 步骤S920，对视频特征进行特征质量检测，得到视频特征的质量值。

[0117] 步骤S930，将同一时间节点对应的音频特征和视频特征中的、质量值较大的特征确定为时间节点的强模态特征，从而得到目标时段内的多个时间节点各自的强模态特征。

[0118] 示例性地，可以利用图8所示的质量评测模块，确定音频帧的音频特征的质量值、以及视频帧的视频特征的质量值，以便准确、快速地得到多个时间节点各自的强模态特征。

[0119] 图10所示为本申请一示例性实施例提供的获取最终分类结果的流程示意图。如图10所示，首先，将多个音频帧输入音频编码器，得到多个音频帧各自的音频特征；将多个视频帧输入视频编码器，得到多个视频帧各自的视频特征。将多个音频特征和多个视频特征输入质量评测模块，得到多个音频特征和多个视频特征各自对应的质量值。将各自对应的质量值，以及音频特征和视频特征输入判断模块，确定每个时间节点对应的强模态特征和第一弱模态特征。再将第一弱模态特征和强模态特征输入跨模态编码器，利用强模态特征对第一弱模态特征进行修正，得到第二弱模态特征。

[0120] 进一步地，将第二弱模态特征输入质量评测模块，得到第二弱模态特征的质量值；将强模态特征输入质量评测模块，得到强模态特征的质量值。若第二弱模态特征的质量值小于预设质量阈值，则基于强模态特征的分类结果确定目标时段内的语音端点；若强模态特征的质量值小于预设质量阈值，则基于第二弱模态特征的分类结果确定目标时段内的语音端点。若强模态特征的质量值和第二弱模态特征的质量值均大于或等于预设质量阈值，则基于强模态特征和第二弱模态特征，获取融合特征，再基于强模态特征的分类结果、第二弱模态特征的分类结果和融合特征的分类结果，联合确定目标时段内的语音端点。

[0121] 此外，在音频编码器、视频编码器、判断模块、跨模态编码器、质量评测模块、结果融合模块的联合训练阶段，首先获取正常的音频和视频数据，并结合音频数据和视频数据进行标注。标注过程中，对于某一时间节点的视频帧和音频帧，只有当目标对象在音频和视频中均有相应的表现时，才将视频帧和音频帧标注为1，其余情况均标注为0。

[0122] 为了保证语音端点的检测精度，可对音频数据和视频数据进行损伤处理，具体可分为以下情况。

[0123] (1)仅视频数据损伤。保持音频数据的完好，从视频数据中挑选部分视频帧进行损伤处理，示例性地，损伤处理包括图像压缩、图像加噪、图像丢弃等。

[0124] (2)仅音频数据损伤。保持视频数据的完好，从音频数据中截取部分时间节点的音频帧进行损伤处理。示例性地，损伤处理包括：改变音频帧信号中某频率成分的能量、改变频谱的主能量谱峰位置、数据丢弃(即信号全部置为0)等。

[0125] (3)音视频数据均损伤。即，同时对音频帧和视频帧进行损伤处理，但需要注意，二者的损伤处理时间段不能重合。

[0126] 进一步地，在音频编码器、视频编码器、判断模块、跨模态编码器、质量评测模块、结果融合模块的联合训练阶段，先获取最终的结果融合，然后根据获取的标注信息计算误差。根据误差对结果融合模块的网络参数进行调整，直至结果融合模块的判断结果与标注信息基本一致。示例性地，上述结果融合模块在训练阶段的损失函数为交叉熵损失函数：

[0127]

[0128] 其中，yi表示样本i的标注信息，处于语音状态时，yi＝1，处于非语音状态时，yi＝0；pi表示样本i预测为语音状态的概率；N为总样本数；L为损失函数。

[0129] 上文结合图2至图10，详细描述了本申请的语音端点检测方法实施例，下面结合图11，详细描述本申请的语音端点检测装置实施例。应理解，语音端点检测方法实施例的描述与语音端点检测装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

[0130] 图11所示为本申请一示例性实施例提供的语音端点检测装置的结构示意图。如图11所示，本申请实施例提供的语音端点检测装置110包括：

[0131] 获取模块1110，用于获取目标对象对应的音频帧和视频帧，音频帧和视频帧处于同一目标时段；

[0132] 第一确定模块1120，用于分别对音频帧和视频帧进行特征提取，得到音频特征和视频特征；

[0133] 第二确定模块1130，用于基于音频特征和视频特征，确定目标时段内的多个时间节点各自的强模态特征，时间节点的强模态特征是指时间节点对应的音频特征和视频特征中，能够更强表征目标对象是否处于语音状态的特征；

[0134] 第三确定模块1140，用于基于目标时段内的多个时间节点各自的强模态特征，确定目标时段内的语音端点。

[0135] 在本申请一实施例中，第三确定模块1140还用于，基于多个时间节点各自的强模态特征，从音频特征和视频特征中确定多个时间节点各自的第一弱模态特征，时间节点的第一弱模态特征是指相较于时间节点的强模态特征，能够更弱表征目标对象是否处于语音状态的特征；针对多个时间节点中的每个时间节点，利用时间节点的强模态特征修正时间节点的第一弱模态特征，得到时间节点的第二弱模态特征；基于多个时间节点各自的强模态特征和第二弱模态特征，确定目标时段内的语音端点。

[0136] 在本申请一实施例中，第三确定模块1140还用于，对多个时间节点各自的强模态特征进行特征质量检测，得到目标时段的强模态特征的质量值；对多个时间节点各自的第二弱模态特征进行特征质量检测，得到目标时段的第二弱模态特征的质量值；基于强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点。

[0137] 在本申请一实施例中，第三确定模块1140还用于，若强模态特征的质量值小于预设质量阈值，则基于多个时间节点各自的第二弱模态特征和强模态特征，确定目标时段内的语音端点；若第二弱模态特征的质量值小于预设质量阈值，则基于多个时间节点各自的强模态特征，确定目标时段内的语音端点。

[0138] 在本申请一实施例中，第三确定模块1140还用于，若强模态特征的质量值和第二弱模态特征的质量值均大于或等于预设质量阈值，则针对多个时间节点中的每个时间节点，对时间节点的强模态特征和第二弱模态特征进行融合，得到时间节点的融合特征；基于多个时间节点各自的融合特征、强模态特征的质量值和第二弱模态特征的质量值，确定目标时段内的语音端点。

[0139] 在本申请一实施例中，第三确定模块1140还用于，基于强模态特征的质量值和第二弱模态特征的质量值，确定强模态特征的融合权重和第二弱模态特征的融合权重；针对多个时间节点中的每个时间节点，确定时间节点的强模态特征、第二弱模态特征和融合特征各自对应的分类结果；基于时间节点的强模态特征对应的分类结果和强模态特征的融合权重、时间节点的第二弱模态特征对应的分类结果和第二弱模态特征的融合权重、以及时间节点的融合特征对应的分类结果，确定时间节点对应的最终分类结果；基于多个时间节点各自对应的最终分类结果，确定目标时段内的语音端点。

[0140] 在本申请一实施例中，第二确定模块1130还用于，对音频特征进行特征质量检测，得到音频特征的质量值；对视频特征进行特征质量检测，得到视频特征的质量值；将同一时间节点对应的音频特征和视频特征中的、质量值较大的特征确定为时间节点的强模态特征，从而得到目标时段内的多个时间节点各自的强模态特征。

[0141] 下面，参考图12来描述根据本申请实施例的电子设备。图12所示为本申请一示例性实施例提供的电子设备的结构示意图。

[0142] 如图12所示，电子设备120包括一个或多个处理器1201和存储器1202。

[0143] 处理器1201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备120中的其他组件以执行期望的功能。

[0144] 存储器1202可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音端点检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如包括音频帧和视频帧、音频特征、视频特征、强模态特征、语音端点等各种内容。

[0145] 在一个示例中，电子设备120还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

[0146] 该输入装置1203可以包括例如键盘、鼠标等等。

[0147] 该输出装置1204可以向外部输出各种信息，包括音频帧和视频帧、音频特征、视频特征、强模态特征、语音端点等。该输出装置1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

[0148] 当然，为了简化，图12中仅示出了该电子设备120中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备120还可以包括任何其他适当的组件。

[0149] 除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的语音端点检测方法中的步骤。

[0150] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

[0151] 此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的语音端点检测方法中的步骤。

[0152] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

[0153] 以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

[0154] 本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

[0155] 还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

[0156] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

[0157] 为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

查看完整全部详细技术资料

当前第1页第1页第2页第3页