技术领域
[0001] 本发明属于语音识别技术领域,具体是一种基于双字典类标签语言模型的电力调度语音识别方法。
相关背景技术
[0002] 语音识别系统由声学模型、发音字典、语言模型和解码器等核心模块组成。声学模型、发音字典从声学以及发音角度对输入单元进行建模,语言模型从语义角度对输入单元进行建模;解码器(于镭,林再腾.基于香橙派的智能语音识别系统的设计[J].电子测量技术,2019,42(19):36‑40.MENDISC,DROCPPOJ,MALEKIS,etal.ParallelizingWFSTspeechdecoders[C].IEEEInternationalConferenceOnAcoustics,SpeechandSignalProcessing,2016:5325‑5329.)是在由声学模型、发音字典以及语言模型构成的加权有限状态转换器(WFST)中寻找最优句子。电力调度语音识别系统的研究集中在声学模型、语言模型等方面。
文献(易雪蓉.电力系统下语音识别的研究与应用[D].武汉:武汉工程大学,2018.[5]鄢发齐,王春明,窦建中,等.基于隐马尔可夫模型的电力调度语音识别研究[J].武汉大学学报(工学版),2018,51(10):920‑923.)分别从汉语声调建模单元、小规模词汇量场景两个方面研究了基于高斯混合-隐马尔可夫模型(GHH‑HMM)的电力调度声学模型,没有考虑到语言模型对语音识别系统的影响。文献(杨柳青.语音人机交互及其在智能调度中的应用[D].济南:山东大学,2013.)在小规模调度指令场景下,设计了简单的语法规则,完成了电力调度语音交互系统的设计,但该研究设计的语义信息不全。文献(陈蕾,郑伟彦,余慧华,等.基于BERT的电网调度语音识别语言模型研究[J/OL].电网技术,2021:1‑8.)研究了基于双向编码器的Transformer模型(BERT)的语言模型在电力调度语音识别中的应用,在BERT模型的输入特征向量的基础上,删除了片段特征、添加了关键字特征和命名实体特征。从上述文献可看出语言模型的研究大多只考虑电力调度指令的语义信息,没有考虑字典、分词和词性标注系统等综合因素对语言模型的影响。
具体实施方式
[0015] 以下结合附图通过具体实施例详细说明本发明,但不构成对本发明的限制。
[0016] 本实施例提供一个采用本发明方法的电力调度语音识别实例。
[0017] 在本实例中,为了训练语料能够反映电力调度领域中文本多样性,将训练语料中的标点符号全部用空格取代,并将采集到的样本数据以7∶3的比例分成训练集和测试集。其中语料数据统计如表2所示。
[0018] 本实例中的语音识别系统由声学模型、发音字典、语言模型和解码器等核心模块组成。声学模型、发音字典从声学以及发音角度对输入单元进行建模,语言模型从语义角度对输入单元进行建模;解码器是在由声学模型、发音字典以及语言模型构成的加权有限状态转换器(WFST)中寻找最优句子。声学模型采用基于Kaldi上的nnet3神经网络框架训练的声学模型,将训练好的声学模型、语言模型以及相关字典构成WFST解码器后,则可用于电力调度语音识别。
[0019] 首先n-gram语言模型可以分为词级别的语言模型和类级别的语言模型。相对与词级别的语言模型,类级别的语言模型在电力调度语言中有着更大优势(因为电力调度语言的词性区分比较明显),但该语言模型在增加电力调度语音场景的适应性的同时会带来致命的缺陷‑‑语言模型的困惑度会急速下降(模型是要考虑到各种情况,所以模型的困惑度越高越能解决实际遇到的问题)。由于电力调度语言和通用语言的差异性,为了解决类级别的n-gram语言模型困惑度的降低这一问题,提出一种以双字典(通用字典和电力调度领域词字典)为基础的类标签语言模型,对n-gram语言模型加以改进,以此来提高语言模型在电力调度环境中的有效性。
[0020] 本发明方法包括:通过引入,在统计语言模型n‑gram的基础上,提出了基于双字典(通用字典、电力调度领域词字典)的类标签语言模型。为解决类标签语言模型训练中遇到的通用词汇和电力调度领域词词汇多切分歧义的问题,提出一种基于双字典的分词、词性标注的联合系统来处理类标签语言模型的训练语料,以提升基于双字典的类标签语言模型对电力调度语言的适应性。
[0021] 具体包括以下步骤:S1:将未分词的语料进行分词,使语言模型的分词要与通用字典和电力调度领域词字典的词条保持一致。
[0022] 一般语言模型的分词要与字典的词条保持一致,否则字典中不被语言模型包含的词条将成为无效符号;本申请训练工具采用 FudanNLP自然语言处理工具。
[0023] 分类标准如下:通用字典中,词类别包括:名词、动词、介词、形容词和数量词;
电力调度领域词字典,词类别包括:设备名词、地点、专业词汇、特殊符号和人名。
[0024] 。
[0025] S2:对分词后的语料分别在通用字典和电力调度领域词字典中进行分类,形成分词语料。
[0026] 首先定义 , 表示的通用字典和电力调度领域词字典中的词和词类别,并且用表示两个字典中词的数量, 表示两个字典中类别的数量,其中通用字典和领域词字典的类别种类不重复,且词与词类别的映射是多对多的关系。下式(1)描述了词 与词类别 的关系: (1)
然后可以得到由词序列 所对应的一个类标签语言模型的类别序
列,公式表达式如下所示:
(2)
其中, 表示类标签语言模型中类别序列的数量,由于一个词能够属于多个类别, 可以映射类标签语言模型的多个类别序列。假设词的概率 由词类
别所决定,则:
(3)
(4)
式(3)表示确定词序列 的下一个词为 的概率,式(4)表示确定词
序列 的下一个词类别的概率。
[0027] 定义 为词与电力调度领域词字典的权重, 时表示词属于通用字典且通用字典中词性信息适合电力调度语音场景, 表示词属于电力调度领域词字典且电力调度领域词字典中词性信息适合电力调度语音场景,则:
(5)
其中 表示词 在通用字典中的类别; 表示词 在电力调度领域词
字典中的类别。加入了词与电力调度领域词字典的权重,词与词类别的映射变为了多对一的关系,且词的概率 完全由词类别决定,则式(3)和(4)可以化简为:
(6)
(7)
以三元类标签语言模型为例,采用最大对数似然估计的方法,求解式(7)和(8)中的分。首先,看一下三元类标签语言模型的词与类别之间的关系:
(9)
其中, 可以由二元类标签语言模型通过式(8)计算得来,接着对
式(9)采用最大似然估计方法,得到训练语料的对数似然:
最大似然估计就是求一个样本集的相关概率密度函数的参数,其目标是寻找能够以较高概率产生观察数据的系统发生树。在这里可以说是估计出语音识别出来的任务,以便进行后续的相关操作。
[0028] 其中, 表示二元类标签语言模型的词序列的数量; 表示三元类标签语言模型中词类别的数量; 表示训练语料中出现连续词序列 的数量。式中的第1项不受词和类别之间的影响,对于特定的训练语料是固定的,第2项中可以用如下公式表示:
其中, 表示训练语料中出现连续类别序列
的数量;
表示训练语料中出现连续类别序列 的数量。
[0029] 步骤S2的具体优化步骤为:S21:对分词后的一段语料进行检测,当一个词的字粒度 时,标记词类别
为N名词,并拼成新词 ,判断新词 是否存在于电力调度领域字典
中。
[0030] S22:计算语料权重,若电力调度领域词字典中存在 ,则 的领域字典权重,若不存在,领域字典权重 ;领域字典权重通过以下公式计算,
其中 是词 在新词 中的位置。
[0031] S23:判别新词 所在字典中的词类别 。
[0032] S3:将形成的分词语料进行词性标注,训练分词语料的类标签标记和字典优化,从而得到分词后带类标签的语料。
[0033] CRFs模型是一种结合了最大熵模型和隐马尔可夫模型特点的无向图模型。在词性标注优化任务中,选择词性信息(词类别)作为CRFs模型的特征,“上下文”窗口的大小为5,解码过程采用向前-向后算法,以迭代的方法训练CRFs模型。
[0034] 即分词语料经过CFRs模型,若有无法识别的语料,则返回分词任务进行类标签优化,若识别出从未登录词,则返回分词任务进行字典优化;从而得到分词后带类标签的语料。
[0035] 具体过程包括:S31:选择词类别作为CRFs模型的特征,训练CRFs模型;
S32:使用训练好的CRFs模型对形成的分词语料进行词性标注;
S33:对电力调度领域词字典中不存在的领域词汇,识别未登录词和类别并添加到字典中。
[0036] CRFs模型除可提高词性标注效率的作用外,还能将字典中词的错误类标签信息 修改为优化后的类标签信息。
[0037] 未登录词识别是本联合系统针对电力调度领域词字典中不存在的领域词汇,例如调度人员的更替和新型的调度设备等新涌现的词汇的任务,可根据规则识别未登录词和类别并添加到字典中。标注未登录词的词性的规则如下:a)检测到“路”、“街”、“站”等地点特征明显的单一词汇,回溯前面的名词词汇,直至词汇标注为动词或形容词,将动词或形容词到单一词汇之间的名词整合起来,并标注为地点(PN)。
b)检测到两个动词之间的连续词性标注为名词(N)的数量>3且不含地点特征明显的词汇时将动词间的名词整合起来,并标注为设备名词(EN)。
[0038] S4:最后使用由语言模型训练工具训练带类标签的语料。训练过程中使用了Katz回退平滑技术来处理数据稀疏导致的估计不准问题。
[0039] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。