首页 / 一种AI智能外呼系统的对话管理方法及系统

一种AI智能外呼系统的对话管理方法及系统公开 发明

技术领域

[0001] 本发明涉及智能外呼技术领域,具体为一种AI智能外呼系统的对话管理方法及系统。

相关背景技术

[0002] 随着人工智能技术的快速发展,AI智能外呼系统已经成为企业与客户进行高效沟通的重要工具,传统的外呼系统主要依赖于人工操作,存在效率低下、成本高昂等问题,而AI智能外呼系统则能够利用自然语言处理、语音识别、机器学习等先进技术,实现自动化的呼叫、对话及数据管理,大大提高了企业的客户服务效率和营销效果。
[0003] 在申请公布号为CN111104502A的中国发明申请中,公开了一种外呼系统的对话管理方法、系统、电子设备和存储介质,所述对话管理方法包括:获取语义信息;根据所述语义信息更新当前的对话状态;将所述对话状态输入到预存的状态机中进行状态跳转;所述外呼系统根据所述状态机跳转后的状态进行输出问答,同时也使用强化学习提升对话系统泛化性能。
[0004] 在申请公布号为CN115048500A的中国发明申请中,公开了一种基于机器学习的外呼对话管理智能选择方法及系统,该方法包括:根据用户特征建立业务分类模型,利用机器学习算法预训练所述业务分类模型,生成业务分类结果;根据所述业务分类结果,选择不同的对话管理模块,送入AI外呼装置;利用所述AI外呼装置,根据所选择的对话管理模块执行不同的外呼对话策略,运行相应的外呼任务。
[0005] 结合以上发明申请,现有技术存在以下不足:
[0006] 1、现有技术往往只停留在对单一阶数的差异系数进行简单的计算和比较,缺乏更深入的分析和处理,这导致智能外呼系统无法准确地反映语音信号的特征变化,也无法有效地适应不同用户的语音特点和习惯,尤其是在处理复杂或多样化的语音输入时,智能外呼系统可能会出现识别错误或理解偏差;
[0007] 2、智能外呼系统可能只关注语音信号的某些方面,如信噪比或清晰度,而忽略了其他重要因素,如语音的流畅性、自然度或情感表达等,难以准确判断语音信号的质量是否满足要求,当遇到低质量的语音信号时,智能外呼系统可能无法及时做出正确的响应,导致误解或无法识别的问题发生。

具体实施方式

[0055] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0056] 请参阅图1‑图2,本发明提供一种AI智能外呼系统的对话管理方法,包括以下步骤:
[0057] 步骤一:对语音信号进行采样,将若干个样本的语音信号经过快速傅里叶变换得到语音信号的频谱,使用高斯函数近似滤波器的频率响应,将快速傅里叶变换结果与滤波器的频率响应进行点乘操作,并求和以得到每个滤波器的能量;
[0058] 所述步骤一包括以下内容:
[0059] 步骤101:通过AI智能外呼系统与用户进行语音交互,获取对话过程中的语音数据;
[0060] 步骤102:设置采样频率,根据设定的采样频率,对获取到的语音信号进行采样,将连续的语音信号离散化,将其转换成一系列离散的样本值;
[0061] 需要说明的是,在智能外呼系统中,采样率的设定并没有一个固定的标准值,因为它取决于多种因素,包括所需的音质、存储空间、处理速度以及系统的整体性能等,一般来说,较高的采样率可以提供更好的音质,但同时也会占用更多的存储空间和计算资源,因此,在选择采样率时,需要根据实际需求和系统性能进行权衡,对于一般的智能外呼系统,常用的采样率包括16kHz、32kHz和44.1kHz等,这些采样率可以在保证通话质量的同时,也保持相对合理的存储和处理需求;
[0062] 步骤103:对采样得到的若干个样本的语音信号进行快速傅里叶变换,将时域中的语音信号转换到频域中,得到语音信号的频谱,计算公式如下:
[0063]
[0064] 其中,X[k]表示快速傅里叶变换结果,k表示频率索引,k=1,2…,N,N为正整数,x2
[n]是时域中的第n个样本,n=1,2…,N,N为正整数,j是虚数单位,且j=‑1;
[0065] 步骤104:使用高斯函数近似Gammatone滤波器的频率响应,计算公式如下:
[0066]
[0067] 其中,Hm[k]表示滤波器的频率响应,f[k]表示频率数组中的第k个频率点,fc是滤波器的中心频率,σ是高斯函数的标准差,σ与带宽的关系为:
[0068]
[0069] 其中,bw表示带宽;
[0070] 需要说明的是,Gammatone滤波器是一种在听觉建模和语音信号处理中广泛使用的滤波器,它模拟了人耳基底膜上对不同频率声音的响应特性,Gammatone滤波器的主要特点是其脉冲响应形状,它结合了Gamma分布和正弦波的特性,从而能够很好地模拟人耳对声音的感知;
[0071] 步骤105:将快速傅里叶变换结果与Gammatone滤波器的频率响应进行点乘操作,并求和以得到每个滤波器的能量,计算公式如下:
[0072]
[0073] 其中,Em表示第m个Gammatone滤波器的能量,X[k]表示快速傅里叶变换结果,Hm[k表示Gammatone滤波器的频率响应,k表示频率索引,k=1,2…,N,N为正整数。
[0074] 需要说明的是,将FFT的结果(即频谱)与Gammatone滤波器的频率响应进行点乘操作,意味着将每个频率分量上的幅度值与对应频率处的滤波器响应值相乘,这样,可以得到每个频率分量上经过滤波器加权后的幅度值。
[0075] 使用时,结合步骤101至步骤105的内容:
[0076] 通过对语音信号进行采样和快速傅里叶变换,可以得到语音信号的频谱,有助于更好地理解和分析语音信号的特性,进一步使用高斯函数近似Gammatone滤波器的频率响应,可以更精确地模拟人耳对声音的感知特性,从而提取出更为关键和有效的语音特征,用于后续的语音识别、语音合成等任务,提高系统的性能和准确性。
[0077] 步骤二:对若干个滤波器的能量进行对数变换,通过计算相邻滤波器能量对数之间的差值获得一阶差异系数,通过计算相邻一阶差异系数之间的差值获得二阶差异系数,进行递归计算获得多阶差异系数;
[0078] 所述步骤二包括以下内容:
[0079] 步骤201:对若干个滤波器的能量进行对数变换,通过计算相邻滤波器能量对数之间的差值获得一阶差异系数,通过计算相邻一阶差异系数之间的差值获得二阶差异系数,计算公式如下:
[0080]
[0081] 其中,ΔlogEm表示一阶差异系数,Δ2logEm表示二阶差异系数,Em表示第m个Gammatone滤波器的能量;
[0082] 步骤202:进行递归计算获得多阶差异系数,计算公式如下:
[0083] Δp logEm=Δp‑1logEm+1‑Δp‑1logEm
[0084] 其中,ΔplogEm表示多阶差异系数,p表示阶数。
[0085] 需要说明的是,得到每个滤波器的能量后,为了进一步简化特征表示和提高鲁棒性,需要对这些能量值取对数,音频信号的能量值可能跨越很大的范围,直接使用这些原始值可能导致某些算法或模型对较大的能量值过于敏感,而对较小的能量值不敏感,通过对能量值取对数,可以压缩这个动态范围,使得不同大小的能量值在数值上更加接近,从而提高算法的稳定性;人耳对声音的感知并不是线性的,而是对数的,因此,对能量值取对数可以使得特征表示更加符合人耳的听觉特性,从而提高语音或音频处理系统的性能;在某些情况下,取对数后的能量值可能更接近正态分布,这有助于简化后续的统计分析和模型训练。
[0086] 使用时,结合步骤201至步骤202:
[0087] 通过对滤波器能量进行对数变换和差异系数的计算,可以有效地消除数据中的非平稳性,使数据更加稳定,这对于AI智能外呼系统的对话管理尤为重要,因为稳定的数据有助于系统更准确地识别和分析对话中的关键信息。
[0088] 步骤三:通过对每一阶的差异系数进行分析,计算获得差异系数波动指数,计算获得每阶差异系数的差异系数波动指数,选择差异系数波动指数最小值所在的阶数,作为多阶差异系数的阶数;
[0089] 所述步骤三包括以下内容:
[0090] 步骤301:通过对每一阶的差异系数进行分析,计算获得差异系数波动指数,计算公式如下:
[0091]
[0092] 其中,MDV表示差异系数波动指数,Δp logEm表示第m个p阶差异系数,m=1,2,…,M,M为正整数,μ表示m个p阶差异系数的均值;
[0093] 步骤302:计算获得每一阶差异系数的差异系数波动指数,选择差异系数波动指数最小值所在的阶数,作为多阶差异系数的阶数。
[0094] 需要说明的是,选择差异系数波动指数最小值所在的阶数作为多阶差异系数的阶数,是基于稳定性和可靠性的考虑。过低的阶数可能无法充分捕捉语音信号的复杂特性,而过高的阶数则可能引入过多的噪声和不稳定因素。因此,通过比较不同阶数的差异系数波动指数,可以找到一个平衡点,既能够充分反映语音信号的特性,又能够保持较高的稳定性和可靠性。
[0095] 使用时,结合步骤301至步骤302的内容:
[0096] 通过对每一阶的差异系数进行深入分析,并计算其差异系数波动指数,找到能够最稳定、最准确地反映语音信号特性的阶数,差异系数波动指数越小,意味着该阶数的差异系数变化范围越小,稳定性越高,因此更适合作为多阶差异系数的阶数,有助于减少AI智能外呼系统的误差和不确定性,从而提升系统的整体稳定性和可靠性。
[0097] 步骤四:对每个滤波器,计算语音峰值强度与噪声强度之间的差值,并求和计算获得清晰度指数,通过多阶差异系数计算多阶差异系数的标准差,结合清晰度指数以及信噪比,计算获得语音质量评估值,当语音质量评估值小于质量阈值时,切换人工外呼。
[0098] 所述步骤四包括以下内容:
[0099] 步骤401:对每个滤波器,测量语音峰值(即语音信号的强度)和噪声的强度,计算语音峰值强度与噪声强度之间的差值,并求和计算获得清晰度指数,计算公式如下:
[0100]
[0101] 其中,CI表示清晰度指数,Pm表示第m个滤波器的语音峰值强度,NIm表示第m个滤波器的噪声强度,m=1,2,…,M,M为正整数;
[0102] 步骤402:获取确定了阶数的多阶差异系数并计算多阶差异系数的标准差,结合清晰度指数以及信噪比,计算获得语音质量评估值,计算公式如下:
[0103]
[0104] 其中,VQ表示语音质量评估值,Δp logEm表示第m个p阶差异系数,μ表示p阶差异系数的均值,CI表示清晰度指数,SNR表示信噪比,k1、k2以及k3表示权重系数,0
[0105] 步骤403:预先设置质量阈值,当语音质量评估值小于质量阈值时,表示当前语音质量不佳,切换人工外呼。
[0106] 需要说明的是,信噪比SNR通常定义为信号功率与噪声功率的比值,计算公式如下: 其中,Psignal表示信号功率,Pnoise表示噪声功率,SNR越高,语音质量越好,反之,则越差。
[0107] 使用时,结合步骤401至步骤403:
[0108] 通过结合多阶差异系数、清晰度指数和信噪比等多个指标对语音质量进行精确评估,能够更加准确地判断何时需要切换到人工外呼,通过结合多种语音质量评估指标和自动切换机制,AI智能外呼系统的智能水平得到了提升,能够更好地应对复杂多变的语音环境,为用户提供更加智能、高效的服务。
[0109] 请参阅图3,本发明还提供了一种AI智能外呼系统的对话管理系统,包括:语音信号处理模块、多阶差异系数生成模块、差异系数选择模块以及语音质量评估模块;其中,[0110] 语音信号处理模块,对语音信号进行采样,将若干个样本的语音信号经过快速傅里叶变换得到语音信号的频谱,使用高斯函数近似滤波器的频率响应,将快速傅里叶变换结果与滤波器的频率响应进行点乘操作,并求和以得到每个滤波器的能量;
[0111] 多阶差异系数生成模块,对若干个滤波器的能量进行对数变换,通过计算相邻滤波器能量对数之间的差值获得一阶差异系数,通过计算相邻一阶差异系数之间的差值获得二阶差异系数,进行递归计算获得多阶差异系数;
[0112] 差异系数选择模块,通过对每一阶的差异系数进行分析,计算获得差异系数波动指数,计算获得每阶差异系数的差异系数波动指数,选择差异系数波动指数最小值所在的阶数,作为多阶差异系数的阶数;
[0113] 对话管理模块,对每个滤波器,计算语音峰值强度与噪声强度之间的差值,并求和计算获得清晰度指数,通过多阶差异系数计算多阶差异系数的标准差,结合清晰度指数以及信噪比,计算获得语音质量评估值,当语音质量评估值小于质量阈值时,切换人工外呼。
[0114] 在申请中,所述涉及到的若干个公式均是去量纲后取其数值计算,而所述公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的系数由本领域的技术人员根据实际情况进行设置。
[0115] 上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
[0116] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0117] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

当前第1页 第1页 第2页 第3页