技术领域
[0001] 本发明属于安全风险管理领域,具体涉及一种基于多视角IB的安全风险关系抽取方法。
相关背景技术
[0002] 在学术和工业领域,知识图谱的广泛应用引起了普遍关注,例如英语知识图谱、微软知识图谱、Yago等。在信息检索领域,这些知识图谱取得了良好的成果。然而,对于特定领域的知识图谱的研究相对较少。
[0003] 构建知识图谱最重要的任务是关系抽取,其目的是提取自然语言句子中所有可能的关系三元组(主语、谓语、宾语)。该任务作为构建知识图谱的上游任务,发挥着重要的作用。随着深度学习的不断发展,人们对基于深度学习的关系抽取的兴趣也逐渐增加,试图使用神经网络去自动学习语义特征。近期大量领域关系提取模型被提出且陆续的应用于生物医学关系抽取、KPI关系抽取等多个领域。
[0004] 关系抽取是自然语言处理(NLP)领域的一项基本任务,它分为四类:有监督关系抽取,半有监督关系抽取,无监督关系抽取和远程监督关系抽取。近年来,大多数研究人员专注于基于神经网络的监督关系抽取和远程监督关系抽取,这两种方法都取得了很好的效果。随着深度学习的广泛应用,基于深度学习的关系抽取已成为研究的热点。
[0005] Socher等人首先将RNN引入关系抽取任务,解决了传统方法无法高质量捕获长依赖关系的严重问题。Sun等人提出使用PCNN模型进行关系抽取,在电力通信规划文本中形成实体关系表。Zeng等人提出使用CNN进行关系抽取,并利用卷积神经网络提取输入句子的局部特征。Yan等人将的依赖分析树特征与词向量特征和词性特征相结合,取得了良好的效果,但消耗了更多的计算资源。然而,由于前面提到的模型建立在足够数量的训练数据上,它们在从稀疏领域关系抽取的表现总是差强人意。Wu等人利用图GCN来提取更加深层次的信息来提高关系抽取的效果。Zhuang等人利用知识增强对事件关系抽取并取得了好的进展。
[0006] 1999年,Tishby等人为了实现信息压缩和噪声去除,提出了基于互信息的信息瓶颈理论。信息瓶颈(Information Bottleneck,IB)方法研究了压缩和预测之间的权衡:在从输入变量X中提取相关信息,同时保留另一个随机变量Y的相关信息后,得到的表示是另一个变量Z。最近,Tishby等人分析了信息瓶颈方法与深度神经网络的关系,在计算机视觉界和自然语言处理界引起了广泛关注。在NLP社区中,信息瓶颈方法主要用于表示学习,Li等人使用变分信息瓶颈来非线性压缩BERT预训练的词嵌入。Amjad采用信息瓶颈方法来研究基于神经网络的分类的表示。但缺乏在关系提取中使用信息瓶颈理论。
[0007] 在这些所有领域关系抽取模型中,基于深度神经网络的模型在领域语义的探索和开发方面表现出了很好的性能。虽然上述基于深度神经网络的领域关系提取模型已经取得了相当大的效果,但它们仍然面临以下问题。
[0008] (1)实体语义表征不足:在之前提到的关系抽取模型中,大多都是通过预训练模型得到实体语义,这个语义可以被认为是一个初级的版本。但是在领域关系抽取中,经常会出现预训练的语料库中没有领域实体的情况,那么就会无法完全表示领域实体的特征,从而进一步的影响到了识别关系类型的性能。
[0009] (2)如何获取两个视角之间最大的相关信息:在现有技术中大多采用拼接的方法来实现语义融合。这样的做法虽然提高了性能,但是把和实体不相关的信息也融合了进去。
具体实施方式
[0054] 下面结合附图对本发明的原理和特征进行描述,所举例只用于解释本发明,并非限定本发明的使用范围。
[0055] 关系抽取是信息抽取的关键内容,是构建安全风险知识图谱的关键步骤。在大数据的背景下,为了解决传统方法的低效和不准确问题,本发明提出了一种基于多视角IB的安全风险关系抽取方法,利用该方法建立了一种新颖有效的模型(Multi‑View Information Battleneck Relation Extraction,MIBRE),该方法提供的模型可以通过从多个相应的图像中自动提取语义信息,从而可以充分利用图像视角的语义来增强领域实体的表示。为了更加充分的表述语义信息,本发明引入VggNet学习句子之间的上下文信息。之后,本发明引入了异构图神经网络,该网络在相同的图结构空间中对单词和关系节点进行建模以捕获上下文语义。为了获取两个视角之间最大的相关信息,本发明引入了信息瓶颈理论,将其制定为信息损失函数。通过增强领域实体的表示和获取两个视角之间最大的相关信息,可以保证领域关系提取结果极佳。如图1所示,该方法具体包括以下步骤:
[0056] 1)利用多视角语义融合策略融合文本节点和图片信息;
[0057] 1‑1)问题定义:给定多视角数据,并设T={x1,x2,…,x|T|}作为输入的句子(xi是一个字),|T|表示句子的长度;领域关系抽取的目的是识别实体对(xi1‑i2,xj1‑j2)的关系类型,其中xi1‑i2、xj1‑j2分别表示i1‑i2、j1‑j2两个实体的跨度,一个词由2个字组成,那么下标就是2个字的下标;关系集为 R表示关系的集合,即R∈{r1,r2,...,rn}。
[0058] 下面为一个数据集中的例子:“左侧沟排水设施未及时清淤除草,积水严重”,该任务主要是预测实体1“沟”和实体2“积水”之间的关系类型。
[0059] 1‑2)使用多视角语义融合策略进行编码,进行安全风险知识的抽取任务;
[0060] 首先将分词后的安全风险文本利用预训练语言模型BERT获得低维的词向量,具体有:
[0061] 对于输入句子T,词 表示为:
[0062]
[0063] 其中, dw是词向量的维度; dc是位置向量的维度。
[0064] 1‑3)为了增强领域实体语义信息,本发明采用融合图像视角语义信息,以补充预训练模型中不充分的表示,具体有:
[0065] 对于领域实体xi,匹配对应的图像集为m={mi1,mi2,...,min},之后使用VggNet来获得图像特征向量mi,直接将图像特征向量与对应的实体特征进行相加。
[0066] 2)为了更加充分的融合两个视角之间的信息,本发明使用深度神经网络RetNet学习文本和图片之间的信息,以利用图片之间存在的信息来补充文本中语义表示中的不足。
[0067] 3)利用异构图空间对单词节点和关系节点进行建模,以捕获具有更多任务相关特征的丰富上下文语义。
[0068] 为了更好地理解本发明的异构图,将词xi重写为词节点 将关系ri重写为关系节点 并引入消息传递机制通过以下方式更新节点表示:
[0069]
[0070] 其中,[·;·]表示将两个向量连接成新表示, 表示第i个节点的相邻点,Wa,Wq,Wk,Wv是可训练权重;oj表示关系的编码,αij表示注意力机制概率值,hi′表示更新后编码,hi表示更新前编码。
[0071] 然后使用门机制代替激活函数,保持每个维度的规模和非线性能力,具体如下所示:
[0072]
[0073] 其中,Wg是可训练权重,vi为门机制的概率, 为经过门之后的最终编码;
[0074] 把异构图的上述操作总结为:
[0075]
[0076] 同理,得到关系节点的编码为:
[0077]
[0078] 4)利用信息瓶颈的先压缩后还原的思想,将两个视角的相关信息表示为:
[0079]
[0080] 其中,∈是标准正态分布,N是训练示例的数量,KL是Kullback‑Leibler散度,L1为损失,I为互信息,β为权衡参数,Y为目标编码,Z为中间编码,H为初始编码,y、z和h为具体变量观测值,Y、Z和H表示变量的集合,p(.)表示对应的概率,q(z)是一个变分,近似分布与p(z),KL[q(z),p(z)]>=0。
[0081] 5)本发明获取到对应的实体表示以及句子的表示,利用max‑pooling机制获取相应实体的表示,并使用拼接操作讲实体信息和句子信息拼接到一起,然后通过前馈神经网络(FFN)来获取到关系分类的最终表示Or。最后,本发明将获得的高级语义输入到softmax分类器中,计算实体所属的安全风险关系的条件概率p(r|T,θ)。具体如下:
[0082]
[0083] 其中,|R|是安全风险关系类型的数量,Or是异构图神经网络的最终输出,即所有安全风险关系类型的预测结果;
[0084] 使用交叉熵来进行分类,具体如下:
[0085]
[0086] 其中,L2表示损失,n是输入句子集合的数量,θ是本发明模型需要学习的一组参数;
[0087] 则模型的总损失为:
[0088] L=L1+L2 (27)
[0089] 在模型的训练中,使用随机梯度下降算法SGD来优化目标函数。
[0090] 本发明使用深度神经网络来自动学习安全风险的语义特征。为了解决传统领域关系抽取中实体表征不足的问题,本发明引入多视角方法来增强领域实体表征。在融合两个视角语义信息的时候,本发明采用信息瓶颈的方法获取两个视角间最大的相关信息,用此来表示融合后的语义。通过异构图神经网络理解领域上下文语义,实体之间的关系可以分为不同的类别,这是实施知识驱动的安全风险识别的基础。
[0091] 模拟实验与结果分析
[0092] 本发明共有五个经典的指标来评估关系抽取模型的性能。具体来说:
[0093] 召回率:它是预测标签在统计样本的真实标签集中的比例。它的值越大,关系抽取模型的性能越好;表示为:
[0094]
[0095] 其中Ncorrect为正确提取的实体关系数,Nactual为实体提取的实体关系数。
[0096] 精确度:它是统计预测标签集中当前样本的真实标签的比例。它的值越大,关系抽取模型的性能越好;表示为:
[0097]
[0098] 其中,Ntotal为所提取的实体关系的总数。
[0099] F1:它平衡了精确度和召回率。它的值越大,关系抽取模型的性能越好;表示为:
[0100]
[0101] 其中,Recall为召回率,它是预测标签在统计样本的真实标签集中的比例。它的值越大,关系抽取模型的性能越好;Precision为精确度,它是统计预测标签集中当前样本的真实标签的比例。它的值越大,关系抽取模型的性能越好。
[0102] F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
[0103] AUC:它表示正确样本的概率大于错误样本的概率的概率。它的值越大,关系抽取模型的性能越好。
[0104] AUC‑ROC曲线则从另一个维度评估模型性能,尤其适用于二分类问题。ROC曲线描绘了不同阈值下真正例率(TPR)与假正例率(FPR)的关系,而AUC值即为ROC曲线下的面积,取值范围在0.5到1之间。AUC值越大,说明模型区分正负样本的能力越强,理想的模型应该有AUC值接近1。AUC‑ROC曲线的优点在于不受阈值变化影响,能全面反映出模型的整体性能,且特别适合处理类别不平衡的问题。
[0105] P@N是Precision@N的简称,指的是对特定的查询,考虑位置因素,检测前N条结果的准确率。例如对单次搜索的结果中前5篇,如果有4篇为相关文档,则P@5=4/5=0.8。
[0106] 本发明采用P@N、AUC和F1对本发明的模型进行评价。
[0107] 为了验证本发明的模型能够自动获取安全风险知识,本发明选择在真实数据集上进行实验。这些数据集分别是RVSR(Railway Vehicle Safety Risk)和RMSR(Railway Maintenance Safety Risk),它们源自中国铁路局的安全监管系统。两个数据集的详细信息如下所示:
[0108] RVSR:数据集主要描述了安检员记录的铁路段不安全生产状况。包括9285个句子,其中包括4236个关系实例。
[0109] RMSR:数据集主要描述了安检员记录的铁路工段不安全生产情况。包括26180个句子,其中包括10487个关系实例。
[0110] 本发明耗时了3个多月的时间来注释这些数据集,每个句子都由3名志愿者标记。共有四种安全风险关系,分别是:环境安全风险,公共工程设备的安全可靠性、人员操作安全和安全管理有效性。本发明随机选择了80%的数据作为训练数据集,20%的数据作为测试数据集。
[0111] 对比算法与实验设置:为了验证所提出的关系抽取模型的有效性,本发明的实验将与三类关系抽取模型进行比较,主要包括:
[0112] (1)LGGCN模型:它提出了一种新的知识感知框架图卷积网络来提升远距离监督关系提取的效率和准确性。
[0113] (2)TDGAT模型:该模型通过动态图注意力网络捕捉实体间的关系链接,并利用链接信息提取更精细的关系类型,有效减少了错误传播。
[0114] (3)BERT‑GMAN模型:它通过引入关键短语信息并采用分类特征感知网络,显著提升了关系提取的性能。
[0115] (4)PCNN+ATT模型:集成了自注意力机制和分段CNN来捕获丰富的上下文语义。该框架进一步提取了上下文中包含的细粒度特征。
[0116] (5)PRM‑CNN模型:该模型针对中文关系提取中的词义多义性和分词错误问题,提出了一种基于字符输入和词义反思机制的卷积神经网络模型,有效提升了中文关系提取的性能。
[0117] (6)Ensemble BiLSTM模型:这个模型提出一种新颖的集成双向长短时记忆网络(Ensemble BiLSTM)方法,结合BERT词嵌入和序列模型,有效提升了模型的准确性和效率。
[0118] (7)SPCNN模型:它针对远距离监督关系提取中的噪声问题,提出了一种新型的语义片段卷积神经网络(SPCNN),通过结合实体对之间的相似性特征,改善了关系提取性能,并设计了自适应负训练策略,有效减少了噪声标签的干扰。
[0119] (8)EMGCE模型:提出了一种基于多粒度端到端因果关系提取模型,通过不同层次的语义表示和改进的算法,有效避免了级联错误并保留了上下文信息。
[0120] 为了探索图像中增强语义的有效性,本发明从{0,1,3,5,10}中选择图像数量。本发明从{0.01,0.001,0.0001,0.00001,0.000001}中选择拉格朗日乘数的值。在学习率的选择上,本发明从{0.0001,0.0002,0.0003,0.0004,0.0005}中选择,在表1中显示最佳超参数。所有实验均在配备Intel(R)Xeon(R)Silver 4216CPU@2.10GHz、4NVIDIA Tesla V100 GPU(每个32GB)和Ubuntu 14.04操作系统的服务器上进行。
[0121] 实验结果与分析:本发明将通过在两个真实数据集上验证本发明提出模型的有效性,表2和表3中显示了两个数据集上所有模型的P@N、AUC和F1。为了更直观的看到本发明的模型的优越性,本发明在图2和图3显示了RVSR和RMSR上的精度召回曲线。
[0122] 表1超参数的设置
[0123]
[0124] 表1分析表明:本发明提出的MIBRE模型在两个真实数据集上,均明显优于对比的关系抽取模型。具体来说,于LGGCN,TDGAT的模型相比,它们通常将输入的句子表示为一个图,旨在利用图神经网络捕获更多特征的信息,并没有解决领域实体表征不足的问题,关系抽取效果不明显。相对于BERT‑GMAN模型,该模型通常强调短语来捕获和任务相关的特征,但是,并没有给对关系抽取很重要的但表征不足的实体赋予突出的权重。和PCNN+ATT,SPCNN相比,由于中文实体长度的问题,分段PCNN+ATT并不能很好的解决关系抽取在中文中的问题。最后和PRM‑CNN、Ensemble BiLSTM、EMGCE模型对比,他们均旨在提高语义信息的理解能力,本发明的模型采用了多视角的方法,融合了图像视角的语义,领域实体的表示能力显著提高,同时也提高了理解上下文语义的性能,这一观察表明本发明引入图像视角有利于关系抽取。
[0125] 相对于其他方法,本发明MIBRE模型的优势主要体现在以下两个方面:其一,通过融合多视角语义信息,极大的增强了领域实体语义,解决了领域实体语义表征不足的问题,有助于提高关系抽取模型的性能。其二,通过信息瓶颈方法获取视角间最大的相关信息,相比于之前简单地把各个视角的信息拼接在一起的方法,可以充分的利用视角内的信息,从而提高模型的关系抽取性能。
[0126] 此外,本发明更进一步的研究了不同数量图像对模型的影响。本发明从{0,1,3,5,10}中选择图像数量,其中0表示没有嵌入图像语义,其余数字表示由每个领域实体对应的图像数量。
[0127] 表2不同方法在数据集RVSR上的性能
[0128]
[0129] 表3不同方法在数据集RMSR上的性能
[0130]
[0131] 表4不同图片数量在数据集RVSR上的性能
[0132]
[0133] 表5不同图片数量在数据集RMSR上的性能
[0134]
[0135] 利用表4和表5对比分析,有以下观察结果:本发明可以发现有一张图片就可以提高领域关系抽取任务的性能,这验证了本发明的假设,即融合图像视角的语义可以增强领域实体的表示。随着本发明增加图像数量(从1到10),MIBRE模型性能最初会增加,然后会降低。在这两个数据集上,本发明发现当图像数量大于3时,MIBRE模型的性能开始下降。这表明3幅图像足以增强表示,因为融合大量图像会引入意想不到的无关特征。
[0136] 大多数现有的关系抽取模型忽略了领域实体表征不足的问题并且数据中存在较多不相关信息,针对上述问题,本发明的方法建立了一个基于多视角IB的安全风险关系抽取模型MIBRE,它通过融合多视角语义信息来达到增强领域实体语义。为了获取两个视角间最大的相关信息,使用信息瓶颈的方法构造了一个目标函数,在压缩两个视角信息的同时最大化地保留还原了相关信息。在两个真实的领域数据集上的实验表明,MIBRE识别的F1值分别达到了64.28%,74.34%,与LGGCN模型F1值分别提升了4.41%,2.98%;相较于基于注意力机制的TDGAT,F1值分别提升了1.89%,1.53%。验证了本发明提出的算法在安全风险识别上的有效性。该模型使用多视角语义来增强实体语义,并且通过信息瓶颈理论获取两个视角间最大的相关信息,使得模型的性能显著提高。
[0137] 显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。