技术领域
[0001] 本发明属于政务服务技术领域,具体为一种基于唇部动作的政务场景多模态语音交互方法。
相关背景技术
[0002] 政务“数字人”以一体机的形式出现在公众面前,保税区政务办将企业和群众办理的高频事项统一集成到政务“数字人”,实现了“数字人”与政务服务事项的咨询、受理、办理等应用场景无缝融合,促进政务服务由传统政务服务大厅模式向规范、高效、稳定的数字智能化方向转变,并且创新政务服务“数字人”全程导办、帮办等模式,为企业和群众提供“一对一”沉浸式咨询导办服务。
[0003] 现有的政务场景的自助办理语音交互的过程中,在复杂噪音环境下,尤其是当噪音为周围人声的情况下,识别效果通常较差,识别结果的准确性不高。
具体实施方式
[0049] 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 本发明提供一种技术方案:一种基于唇部动作的政务场景多模态语音交互方法,交互方法包括:
[0052] S1:通过双目摄像头采集人脸信息,自动唤醒设备,数字人进行语音提示让用户进行交互;
[0053] S2:利用窄波束算法对阵列麦音频信号进行增强和定位,进行定向接收,屏蔽其他方向的声音;
[0054] S3:使用高灵敏度麦克风实时采集用户的语音输入,利用语音处理算法提取语音特征;
[0055] S4:利用高清摄像设备捕获用户的唇部动作视频,应用计算机视觉技术,实时分析唇部的形态变化和口型轮廓;
[0056] S5:将语音特征和唇部运动特征进行综合分析,形成综合的用户交互信息,利用深度学习算法进行多模态信息融合;
[0057] S6:基于多模态信息进行语音和唇部动作进行协同分析与识别;
[0058] S7:基于采集到的音频信号,传输到NLP大模型,从海量数据和知识中进行客户的需求匹配;
[0059] S8:建立高精度的数字人模型,利用NLP大模型对用户的问题进行理解和分析,通过数字人播报给出回答。
[0060] 其中,S1的步骤为:
[0061] 使用双目摄像头采集人脸信息,触发设备自动唤醒功能,将主屏的数字人、背屏的事项列表和触控屏的操作界面进行唤醒,启动触控屏上的操作界面,用户可以进行交互,显示用户可以进行的操作选项,数字人通过语音功能对用户进行语音提升交互,用户进行交互,提示用户可以通过触控屏与语音指令执行特定操作。
[0062] 进一步地,S2的步骤为:安排10—20个麦克风按照矩形的几何形状,布置在阵列中,阵列中的每个麦克风在位置上保持3厘米的间距,麦克风同时采集环境中的声音信号,对采集到的音频信号进行预处理;
[0063] 应用窄波束形成算法,来合成和处理各个麦克风的信号,计算每个麦克风信号的时延和权重,合成的波束在特定方向上增强目标信号,抑制其他方向上的信号;
[0064] 波束形成权重向量:
[0065] 其中w是权重向量,a|θ|是指向角为θ)时的方向性向量,而|·|表示向量的欧几里得范数;
[0066] 输出经过波束形成处理后的音频信号,在输出中反映出主波束和副波束的特性;
[0067] 使用波束形成输出来实现对特定方向上声音的定向接收。
[0068] 进一步地,S3的步骤为:使用高灵敏度麦克风捕捉用户的连续语音信号,消除背景噪声和其他非语言声音干扰,增强高频部分,补偿在录音过程中丢失的高频成分,将连续的音频流分割成25ms‑40ms一帧的时间帧,对每一帧数据应用窗函数以减少频谱泄露效应,对每帧数据进行快速傅里叶变换以转换到频率域分析其频谱特性;
[0069] 对于特定的声学参数,使用倒谱法进行提取基音周期,提取步骤为:
[0070] 傅里叶变换:首先对原始时域信号x(t)进行快速傅里叶变换FF得到其频域表示X(f):
[0071] [X(f)=Fx(t)]
[0072] 计算幅值的对数:然后取X(f)得幅度并计算其自然对数:
[0073]
[0074] 其中T0,tf,k,f/0是相关参数或常量;
[0075] 最后,将上述结果进行逆快速傅里叶变换回到时域空间,并得到“倒谱”:
[0076]
[0077] 将处理好的数据进行编码,发送给下一个接收系统与存储设备。
[0078] 进一步地,S4的步骤为:
[0079] 使用高清摄像机捕捉用户面部的视频,对视频进行去噪、增强对比度的操作来改善图像质量,通过特征点确定人脸的方向和位置,并将图像标准化到统一的大小和方向,在嘴唇区域内识别重要的面部特征点,包括嘴角与唇峰,使用阈值化分割技术将嘴唇从背景中分离出来;
[0080] 阈值化分割技术公式为:
[0081] [I0(x,y)={0ifI(x,y)
[0082] 其中,I(x,y)是原始图像在(x,y)的强度,而T是预设的全局亮度或颜色的界限;
[0083] 对提取的唇部区域进一步处理以消除噪声,在连续帧之间跟踪关键点的变化,以理解说话时嘴唇的运动模式。
[0084] 进一步地,S5的步骤为:将语音特征和唇部运动特征进行综合分析,形成综合的用户交互信息,提取声音的特征,识别并追踪嘴唇的运动,提取关键点位置和口型变化的特征;
[0085] 使用卷积神经网络与递归神经网络来分别学习和编码音频及视觉模态的特征表示;
[0086] 早期融合,在输入阶段就合并两种模态,晚期融合,在决策阶段结合两个独立模型的结果。
[0087] 进一步地,S6的步骤为:
[0088] 同时收集用户的音频信号和视频信号对音频数据进行预处理从音频中提取声学特征,从视频中提取视觉特征,包括嘴唇的运动轨迹和形状变化;
[0089] 使用时间戳确保音频和视频数据在时间上的一致性,在视频中识别并追踪嘴唇的关键点;
[0090] 使用神经网络结构训练模型学习从原始音频输入到目标输出之间的映射关系;
[0091] 建立一个完整的系统流程,能够直接接收原始的音视频输入并产生最终的识别结果或用户交互指令。
[0092] 进一步地,S7的步骤为:
[0093] 根据解析出的意图和关键信息,在数据库或知识库中搜索相关的服务与产品选项,在对话过程中保持对用户历史交互内容的记忆;
[0094] 训练深度学习模型以优化语义理解能力,并不断调整参数以适应不同领域和用例的需求变化;
[0095] 根据分析结果为用户生成个性化的服务或产品推荐列表,并按相关性排序展示给用户选择;
[0096] 用户对推荐的服务或产品的反馈被用于进一步训练和优化系统的性能。
[0097] 进一步地,S8的步骤为:
[0098] 使用NLP技术分析文本内容,提取关键信息,构建包含大量信息的知识库,根据从用户输入中解析出的意图和关键字,在知识库中搜索最相关的信息与答案,设计数字人的面部表情与肢体动作的非语言行为,实现一个系统来管理用户与数字人之间的交互流程,包括问题的回答和反馈循环,结合NLP大模型的分析结果生成回答脚本。
[0099] 进一步地,验证所有组件协同工作的效果,将完成测试的系统部署到生产环境,并持续监控其性能表现及时响应问题。
[0100] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0101] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。