首页 / 一种稽查业务基础规则抽取方法及装置

一种稽查业务基础规则抽取方法及装置有效专利 发明

技术领域

[0001] 本发明涉及电力业务稽查技术领域,特别涉及一种稽查业务基础规则抽取方法及装置。

相关背景技术

[0002] 业务规则是指对业务定义和约束的描述,用于维持业务结构或控制和影响业务的行为。业务规则实质上也可以理解为一组条件和在此条件下的操作,是一组准确凝练的语句,用于描述、约束及控制企业的结构、运作和战略,是应用程序中的一段业务逻辑。它的理论基础是:设置一个条件集合,当满足这个条件集合时候,触发一个或者多个动作。
[0003] 在自然语言处理领域,信息抽取一直以来受到人们的关注。信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节。业务规则抽取涉及到的任务即为实体和关系抽取。实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建。
[0004] 与一般开放领域的实体关系抽取任务不同,业务规则抽取涉及特定领域知识,电力稽查领域业务规则描述的相关文本语料不存在一词多义情况,通常具有“实体‑关系‑实体”顺序排列的特定规律,实体关系在文本中较为明显,但实体描述较为复杂,专业术语多,实体间关系种类多且难以归纳整理,要求标注人员具有领域专业知识,人工标注难度大,成本高,且对抽取结果的准确率要求苛刻,目前电力稽查领域尚没有业务规则抽取相关研究。
[0005] 现有技术中,通常基于开放领域或者医疗等特定几个领域数据,缺乏对电力稽查业务领域知识的关注,无法直接移植,缺乏电力稽查领域专业基础词典,缺乏电力稽查领域实体关系抽取相关研究。只考虑字词的语义信息,无法区分字词之间的重要性差异,现实中电力稽查领域业务规则实体间关系种类繁多复杂,现有技术无法穷尽关系种类。

具体实施方式

[0089] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0090] 本发明实施例基于注意力机制的稽查业务基础规则抽取方法使用的输入数据包括:稽查领域的普通文本语料、已完成标注的训练文本语料以及待抽取规则的文本语料,输出结果为每条待抽取规则的文本对应的稽查业务基础规则三元组集合。
[0091] 本发明实施例中,信息抽取(Information Extraction)主要是从大量文字资料中自动抽取特定消息,以作为数据库访问之用的技术。实体(Entity)是有可区别性且内于其自身而独立存在的某种事物。但它不需是物理存在。尤其是抽象和法律拟制也通常被视为实体。关系(Relationship)是实体之间显式或者隐式的语义联系。Word2Vec是一群用来产生词向量的相关模型,训练完成之后可以把每个词映射到一个向量,来表示词与词之间的关系。词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。Transformer是Google的团队在
2017年提出的一种NLP经典模型。Transformer模型使用了Self‑Attention机制,不采用RNN的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。
[0092] 图1为本发明实施例中稽查业务基础规则抽取流程图。如图1所示,该稽查业务基础规则抽取流程包括以下步骤:
[0093] 步骤101、对输入数据进行文本预处理,得到输入熟语料。
[0094] 本发明实施例中,输入数据包括:稽查领域的普通文本语料、已完成标注的训练文本语料及待抽取规则的文本语料。
[0095] 本发明实施例中,构建了一套电力稽查领域专业基础词典以及针对电力稽查领域业务文本语料特点的文本清洗规则。对所有输入数据进行清洗、分词,详细步骤如下:
[0096] 去除文本中的空字符;
[0097] 替换常见句中点号及句末点号(包括,、;。)为空格;
[0098] 保留公文发文常用标点符号(包括《》【】()〔〕():‑),保留数字、字母以及字母大小写格式不变,去除其他标点符号及特殊字符;
[0099] 基于通用词典以及自主构建的稽查领域专业基础词典,使用jieba中文分词工具对输入文本进行分词,得到熟语料D,对比引用稽查领域专业基础词典前后的分词结果示例如下表1所示:
[0100] 表1引用稽查领域词典前后的分词结果对比
[0101]
[0102] 步骤102、构建电力稽查领域词向量生成模型;基于Word2vec与改进的词频‑逆文档频率TF‑IDF模型加权得到所述输入熟语料文本中每个词的词向量,得到每条文本的词向量矩阵。
[0103] 本发明实施例中,搭建了一套融合了语义信息与重要程度的电力稽查领域词向量生成模型,输入一条文本,可自动映射出其词向量矩阵。通过词向量生成模块得到每条文本的向量化表示。
[0104] 本发明实施例中,构建了一个电力稽查领域词向量生成模型,基于Word2vec与改进的TF‑IDF(term frequency‑inverse document frequency,词频‑逆文档频率)加权得到文本中每个词的词向量,从而得到每条文本的词向量矩阵。详细步骤如下:
[0105] 将分词后的语料D复制一份保存为语料D′。
[0106] 使用语料D′训练基于CBOW的Word2Vec词嵌入模型,得到具有语义信息的词嵌入表示E={e1,e2,…,eN},考虑语料D′量级不大,故设置词嵌入维度为常用的128维。
[0107] 使用已构建好的领域停用词典对语料D进行停用词过滤,去除语料中的停用词。
[0108] 使用已完成停用词过滤的语料D训练TF‑IDF模型,得到语料D中所有词的tfidf值,其计算公式如下:
[0109] tfidfi,j=tfi,j×idfi
[0110]
[0111]
[0112] 其中,tfidfi,j表示词ti对于语料D中文本dj的重要程度,tfi,j表示词ti在文本dj中出现的频率,idfi表示词ti的普遍重要性的度量,ni,j表示词ti在文本dj中的出现次数,∑knk,j表示在文本dj中所有字词的出现次数之和,|D|表示语料的文本总数,|{j:ti∈dj}|表示包含词ti的文本总数。
[0113] 对语料D′中的某一条文本dj来说,其由拥有tfidf值的非停用词和没有tfidf值的停用词组成,对该文本中的停用词初始化其tfidf值为0,使得停用词对文本的影响程度降至最低,然后对文本中所有词的tfidf值做加1处理,避免加权处理后所有停用词的词向量都变为 零向量的 情况发 生 .从 而最终 得到当前 文本d j所有 词的权 重其中wi,j=tfidfi,j+1,表示第i个词的权重,即重要程度。本步骤提出了一种改进的TFIDF值计算方式,有效降低了停用词对文本的影响程度且避免了出现零向量的情况发生。
[0114] 将文本dj输入训练得到的Word2Vec词嵌入模型,从而映射得到该文本所有词的词嵌入表示ei,i=1,2,3...n,并将得到的词嵌入表示与步骤s205得到的各词相应的权重wi,j相乘,得到该文本最终的词向量矩阵,其计算公式如下:
[0115] Vj={v1,j,v2,j,…,vn,j}
[0116] vi,j=wi,j×ei
[0117] 其中vi,j表示文本dj中第i个词的最终词向量,wi,j表示文本dj中第i个词的权重,ei表示文本dj中第i个词的Word2Vec词嵌入表示。
[0118] 对语料D′中的所有文本重复执行上述操作,从而得到每条文本对应的词向量矩阵。
[0119] 步骤103,构建基于多头自注意力机制的规则抽取模型,用已完成标注的训练文本语料的所述词向量矩阵作为输入数据,对模型不断迭代以完成模型的建立与参数调优。
[0120] 本发明实施例中,根据构建完成后的所述业务规则抽取模型,以待抽取规则的文本语料作为输入数据,输出文本语料中每条文本的每个单词的实体关系标签。
[0121] 本发明实施例中,通过业务规则抽取模块得到文本中每个单词的实体关系标签。本步骤中构建了一个基于多头自注意力机制的规则抽取模型。在模型的构建过程中,用已完成标注的训练文本语料的词向量矩阵作为输入数据,对模型不断迭代以完成模型的建立与参数调优。然后将训练完成后的模型嵌入业务规则抽取模块中,以待抽取规则的文本语料中一条文本的词向量矩阵作为输入数据,经过计算之后输出文本中每个单词的实体关系标签。
[0122] 本发明实施例中,基于多头自注意力机制的规则抽取模型的详细构建步骤如下:
[0123] 以已完成标注的训练文本语料的词向量矩阵作为输入数据,用词向量加上位置向量编码以表示序列的顺序,这里位置编码采用sin、cos的计算方式,将最终相加后的结果送入简化的Transformer模型,提取文本特征。考虑标注样本量的限制,为降低过拟合的风险,本发明搭建一个由2个编码器和2个解码器组成的简化的Transformer模型用以提取特征。
[0124] 将输出结果送入条件随机场(conditional random field,简称CRF)分类器,输出标签序列的概率得分,其计算公式如下:
[0125]
[0126] 其中W=(w1,w2,…,wn)为给定的文本,y=(y1,y2,…,yn)为预测的标签序列,M为状态转移矩阵, 表示从标签yi转移到标签yi+1的概率, 表示第i个词被标记为标签yi的概率,S(W,y)即输入文本W被预测为标签序列y的概率得分。
[0127] 在反向传播过程中使用Adam优化算法训练模型,不断更新参数,最终得到标签的预测模型,本发明采用负对数似然函数作为模型损失函数,具体如下:
[0128]
[0129] 其中 为输入文本W被预测为标签序列 的概率得分,S(W,y)为输入文本W被预测为真实标签序列y的概率得分。
[0130] 步骤104,根据训练完成后的所述规则抽取模型,以待抽取规则的文本语料中一条文本的词向量矩阵作为输入数据,输出文本中每个单词的实体关系标签。
[0131] 本发明实施例中,构建完成基于多头自注意力机制的规则抽取模型后,即形成了完整的业务规则抽取模块,输入数据通过业务规则抽取模块即可得到文本的标签序列结果,详细步骤如下:
[0132] 将待抽取规则的文本语料中的所有文本逐一获取其对应的词向量矩阵;
[0133] 以词向量矩阵作为输入数据送入训练好的基于多头自注意力机制的规则抽取模型中进行预测,输出文本中每个单词的实体关系标签,从而得到当前文本的标签序列结果。
[0134] 步骤105,根据所述实体关系标签,得到每条待抽取规则的文本对应的稽查业务基础规则三元组集合。
[0135] 本发明实施例中,输出稽查业务基础规则。考虑稽查业务规则描述文本表达方式较为统一,对应的标签序列呈现一定的规律性,故建立基于规则表达式的稽查业务规则三元组抽取模型,在步骤s312输出的标签序列中以“实体‑关系‑实体”的顺序抽取文本中的关系三元组,最终输出每条待抽取规则的文本对应的稽查业务基础规则三元组集合,生成稽查业务基本规则。
[0136] 参见图2,为基于注意力机制的稽查业务基础规则抽取方法的流程示意图。图3为基于注意力机制的稽查业务基础规则抽取方法的模型结构图。
[0137] 本发明实施例构建了一套电力稽查领域专业基础词典,并在文本清洗过程中,针对电力稽查特定领域文本语料的特点及规律,采取了保留公文发文常用标点符号(包括《》【】()〔〕():‑),保留数字、字母以及字母大小写格式不变的清洗规则。
[0138] 计算文本中词的权重时,首先计算所有非停用词的tfidf值,并初始化停用词的tfidf值为0,之后对文本中所有词的tfidf值加1得到词的权重,使用文本中所有词的权重与其Word2Vec词嵌入表示相乘,从而融合词的语义信息与重要程度。相较于直接计算文本中所有词的tfidf值然后进行加权,本方法考虑了停用词的影响,将其tfidf值即重要程度降至最低,并对所有词的tfidf值进行加1处理,避免加权处理后所有停用词的词向量都变为零向量的情况发生。
[0139] 本发明实施例搭建了一套融合了语义信息与重要程度的电力稽查领域词向量生成模型,输入一条文本,可自动映射出其词向量矩阵,为电力稽查领域首创。
[0140] 根据电力稽查业务规则描述文本的表达方式较为规范、具有很强规律性且关系不固定的特点,本发明实施例提出了一种将关系进行实体标签化的方法,有效避免了传统关系抽取方法中分类模型必须将关系种类提前拟定的限制,并构建了基于模式匹配的电力稽查业务规则三元组顺序抽取模型,实现对业务规则三元组的有效抽取。
[0141] 为了实现上述流程,本发明技术方案还提供稽查业务基础规则抽取装置,如图4所示,该稽查业务基础规则抽取装置包括:
[0142] 预处理单元21,用于对输入数据进行文本预处理,得到输入熟语料;所述输入数据包括:稽查领域的普通文本语料、已完成标注的训练文本语料及待抽取规则的文本语料;
[0143] 词向量生成单元22,用于构建电力稽查领域词向量生成模型;基于Word2vec与改进的词频‑逆文档频率TF‑IDF模型加权得到所述输入熟语料文本中每个词的词向量,得到每条文本的词向量矩阵;
[0144] 业务规则学习单元23,用于构建基于多头自注意力机制的规则抽取模型,用已完成标注的训练文本语料的所述词向量矩阵作为输入数据,对模型不断迭代以完成模型的建立与参数调优;
[0145] 实体关系抽取单元24,用于根据训练完成后的所述规则抽取模型,以待抽取规则的文本语料中一条文本的词向量矩阵作为输入数据,输出文本中每个单词的实体关系标签;
[0146] 稽查业务输出单元25,用于根据所述实体关系标签,得到每条待抽取规则的文本对应的稽查业务基础规则三元组集合。
[0147] 所述预处理单元21,具体包括:
[0148] 字符处理子单元,用于去除输入数据文本中的空字符;
[0149] 点号处理子单元,用于替换常见句中点号及句末点号为空格;
[0150] 特殊字符处理子单元,用于保留公文发文常用标点符号,保留数字、字母以及字母大小写格式不变,去除其它标点符号及特殊字符;
[0151] 分词处理子单元,用于基于通用词典以及自主构建的稽查领域专业基础词典,使用中文分词工具对输入文本进行分词,得到输入熟语料。
[0152] 所述词向量生成单元22,具体包括:
[0153] 停用词处理子单元,用于根据所述输入熟语料D复制一份保存为语料D′使用语料D′训练基于CBOW的Word2Vec词嵌入模型,得到具有语义信息的词嵌入表示E={e1,e2,...,eN};使用已构建好的领域停用词典对语料D进行停用词过滤,去除语料中的停用词;
[0154] 模型训练子单元,用于使用已完成停用词过滤的语料D训练TF‑IDF模型,得到语料D中所有词的tfidf值:
[0155] tfidfi,j=tfi,j×idfi
[0156]
[0157]
[0158] 其中,tfidfi,j表示词ti对于语料D中文本dj的重要程度;tfi,j表示词ti在文本dj中出现的频率;idfi表示词ti的普遍重要性的度量;ni,j表示词ti在文本dj中的出现次数;∑knk,j表示在文本dj中所有字词的出现次数之和;|D|表示语料的文本总数,|{j:ti∈dj}|表示包含词ti的文本总数;
[0159] 对语料D′中的某一条文本dj中的停用词初始化tfidf值为0;对文本中所有词的tfidf值做加1处理,得到当前文本dj所有词的权重 其中wi,j=tfidfi,j+1,表示第i个词的权重;
[0160] 将所述文本dj输入训练得到的所述Word2Vec词嵌入模型,映射得到所述文本所有词的词嵌入表示ei,i=1,2,3...n;将得到的词嵌入表示与所述各词相应的权重wi,j相乘,得到所述文本最终的词向量矩阵:
[0161] Vj={v1,j,v2,j,…,vn,j}
[0162] vi,j=wi,j×ei
[0163] 其中,vi,j表示文本dj中第i个词的最终词向量;wi,j表示文本dj中第i个词的权重;ei表示文本dj中第i个词的Word2Vec词嵌入表示;
[0164] 词向量矩阵处理子单元,用于对语料D′中的所有文本重复执行上述步骤,得到每条文本对应的词向量矩阵。
[0165] 所述业务规则学习单元23,具体用于:
[0166] 文本特征提取子单元,用于以已完成标注的训练文本语料的所述词向量矩阵作为输入数据,用词向量加上位置向量编码以表示序列的顺序;位置编码采用sin、cos的计算方式,将最终相加后的结果送入简化的Transformer模型,提取文本特征;
[0167] 概率预测子单元,用于将所属文本特征提取结果送入条件随机场CRF分类器,输出标签序列的概率得分:
[0168]
[0169] 其中,W=(w1,w2,…,wn)为给定的文本;y=(y1,y2,…,yn)为预测的标签序列;M为状态转移矩阵; 表示从标签yi转移到标签yi+1的概率; 表示第i个词被标记为标签yi的概率;S(W,y)即输入文本W被预测为标签序列y的概率得分;
[0170] 概率获取子单元,用于在反向传播过程中使用Adam优化算法训练模型,不断更新参数,最终得到标签的预测模型;优选的,采用负对数似然函数作为模型损失函数,具体如下:
[0171]
[0172] 其中, 为输入文本W被预测为标签序列 的概率得分;S(W,y)为输入文本W被预测为真实标签序列y的概率得分。
[0173] 综上所述,本发明的技术方案,提出了一种稽查业务基础规则抽取方案,构建一套电力稽查领域专业基础词典以及词向量生成模型,充分考虑了稽查领域的业务规则特点,以及字词间的重要性差异,通过将实体间关系转化为一种实体类别,不局限于已知的稽查业务关系,将关系作为一种实体从文本中直接提取出来。
[0174] 本发明实施例有效解决了稽查领域的业务规则抽取问题,而且充分考虑到文本语义信息以及字词间的重要性差异,通过一种将关系进行实体标签化、基于模式匹配的电力稽查业务规则三元组顺序抽取模型有效避免了传统关系抽取方法中分类模型必须将关系种类提前拟定的限制,提高了实体关系抽取的准确率。
[0175] 本发明方案构建了一套电力稽查领域专业基础词典,并在文本清洗过程中,针对电力稽查特定领域文本语料的特点及规律,采取了保留公文发文常用标点符号(包括《》【】()〔〕():‑),保留数字、字母以及字母大小写格式不变的清洗规则。计算文本中词的权重时,首先计算所有非停用词的tfidf值,并初始化停用词的tfidf值为0,之后对文本中所有词的tfidf值加1得到词的权重,使用文本中所有词的权重与其Word2Vec词嵌入表示相乘,从而融合词的语义信息与重要程度。相较于直接计算文本中所有词的tfidf值然后进行加权,本方法考虑了停用词的影响,将其tfidf值即重要程度降至最低,并对所有词的tfidf值进行加1处理,避免加权处理后所有停用词的词向量都变为零向量的情况发生。
[0176] 本发明搭建了一套融合了语义信息与重要程度的电力稽查领域词向量生成模型,输入一条文本,可自动映射出其词向量矩阵,为电力稽查领域首创。根据电力稽查业务规则描述文本的表达方式较为规范、具有很强规律性且关系不固定的特点,本发明提出了一种将关系进行实体标签化的方法,有效避免了传统关系抽取方法中分类模型必须将关系种类提前拟定的限制,并构建了基于模式匹配的电力稽查业务规则三元组顺序抽取模型,实现对业务规则三元组的有效抽取。
[0177] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0178] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0179] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0180] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0181] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页 第1页 第2页 第3页