首页 / 一种实现基于局部推理与全局推理的机器人问答推理方法

一种实现基于局部推理与全局推理的机器人问答推理方法实质审查 发明

技术领域

[0001] 本发明涉及人工智能自然语言处理领域,特别是一种实现基于局部推理与全局推理的机器人问答推理方法。

相关背景技术

[0002] 在人工智能自然语言处理中,给定一个自然语言问题,知识库问答模型需要从知识库中找出问题的答案,这涉及到问题与知识库两种知识来源。现有知识库问答方法有基于语义解析的方法,能挖掘问题的语义信息;有基于搜索排序的方法,能挖掘知识库中的结构信息,但是这些模型或偏向问题理解,或偏向知识挖掘,在如何关联问题与知识库中语义信息实现答案推理方面依然面临不少挑战,导致对问题与知识库间的语义关联信息捕获不足,造成答案推理不准确。
[0003] 近年来,随着越来越多大型知识库的出现,如Freebase、WIKIDATA1等,作为能从知识库中获取知识的应用之一,知识库问答任务获得了大量关注。现有基于搜索排序(IR) 的方法根据实体链接技术识别问题主实体,依据主实体来确定知识库中的候选答案范围,通过问题中包含的语义信息直接对候选答案进行排序。早期的IR方法将问题与候选答案投影到公共子空间,直接计算两者之间的语义相关性来衡量候选答案为问题答案的概率,忽视了问题与候选答案间的语义关联信息。近年来,IR方法开始关注问题与候选答案间的互注意力,根据问题语义来为候选答案特征分配不同权重,使语义相关性高的特征注意力权重大,语义相关性低的特征权重小,有效提升了知识库问答模型的性能。然而,这类方法通常对每个候选答案单独推理,只考虑候选答案在知识库中的相关信息,如主实体到候选答案的关系路径、候选答案实体的邻居信息等,我们称之为局部推理,如图1的上半部分中局部推理可能会预测错误答案(虚线圆内)。局部推理方法遗失了知识库中的结构信息,模型对实体之间难以建模长程依赖,导致对问题与候选答案之间、候选答案与候选答案之间的语义关系建模不足。例如对于问题“WhenwasMichaelJordanathisbest?”,若单独对各个候选答案进行分析,每个候选答案均符合问题的语义,如对于“1997‑98NBAseason”,MochaelJordan在这个赛季得分为2357.0分,可以说他在该赛季表现最好;对于“1995‑96NBAseason”,MichaelJordan得分为2491.0分,也可以说他在该赛季表现最好。然而,将“1997‑98NBAseason” 与“1995‑96NBAseason” 的得分相比,显然后一个赛季表现更好。由于问题中包含约束“athisbest”,模型需要结合所有候选答案的“比赛得分”属性进行最高级分析,通过挖掘各个候选答案之间的语义关系来实现更精准的推理。所以急需提出一种推理方法,弥补局部推理上不足,使预测范围更精确。

具体实施方式

[0017] 下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述[0018] 本发明的结构如图2所示,本发明的模型由算法概述、推理图建模模块和答案推理模块。
[0019] 以下对算法概述、推理图建模模块和答案推理模块部分以及如何实施进行详细说明,如图2、图3所示。
[0020] 一种实现基于局部推理与全局推理的机器人问答推理方法,其特征在于:包括S1、设定一个知识库,定义知识库为一个由多个节点相互关联组成的多关系图结构;设定一个自然语言问题,并识别问题中的主实体,使知识库中所有与主实体相距在两跳内的节点构成初始候选答案集合。
[0021] 具体地,算法概述为给定一个知识库,我们将它定义为一个多关系图结构,形式化表示为 ,其中 表示节点集合,由实体和属性值组成;表示边集合,由实体间的关系组成,对应到知识库中的谓词。在知识库中,每一个实体、属性值或谓词都有一个文本标签,可以表示为由单词组成的序列,将一个实体或属性值表示为 ,将一个谓词表示为 ,其中 与 分别表示实体中第 个单词与谓词中第 个单词,与 分别表示实体与谓词的单词个数。给定一个自然语言问题 ,表示问题中单词个数,本发明的目标是找出所有能回答问题的节点,构成一个答案集合 。现有方法在挑选答案节点时,将每个候选节点的特征从知识库中抽离出来,单独计算各个候选节点与问题间的匹配程度,缺少对所有候选节点在知识库中的结构化建模,导致只能实现词语级别的语义匹配,而未将候选节点之间的关联信息纳入考虑范围,因此难以从全局上对比各个候选节点的语义特征匹配程度,从而使得模型在挑选答案节点时对语义相近的候选节点判别性不强。例如两个候选节点与问题的语义均相似,但是缺乏全局推理的现有方法容易将这两个候选节点均判别为答案节点,难以推理出正确的答案节点。因此,本发明提出FDKM‑LRGR模型实现基于局部推理与全局推理的知识库问答。
[0022] 首先利用一个主实体预 测器识别问题中的主实体,比如,问 题“WHenwasMichaelJordanathisbest?”的主实体为“MIchaelJordan”。知识库中所有与主实体相距在2跳内的节点构成候选答案集合 ,将以主实体为中心 中所有候选答案为节点的子图定义为 , 表示相邻节点间的连边。随后,FDKM‑LRG模型为每个候选答案 预测一个概率 ,表示候选答案 是问题 的正确答案的概率。图2描述了FDKM‑LRG的整体框架,模型包括推理图建模模块(ReasonGraphConstruction,RGC)和答案推理模块两个模块,答案推理模块包括全局推理(GlobaReasoning,GR)和局部推理(LocalReasoning,LR)两种模式。为了减少噪声,RGC模块首先过滤掉候选答案集合 中与问题不相关的噪声,通过减小 的规模来降低计算成本,提高模型推理效率。然后,为了解决信息不对等问题,RGC模块将问题的语义特征融入到候选答案特征中,将 中所有候选答案及其关联信息建模成图结构,从而将问题特征融合到推理图中,实现问题与知识库的特征融合,为后续推理阶段提供丰富的语义信息。为了联合评估各个候选答案与问题的匹配程度,GR模式在推理图中沿着连边传播节点语义信息,实现候选答案之间的语义信息共享,通过全局推理生成所有候选答案与问题间的匹配概率矩阵。为了提升词语级别语义匹配性能,LR模式分别抽取问题与候选答案的特征生成匹配向量,并采用互注意力机制挖掘问题与知识库间的语义关系,从而增强其匹配向量,实现更准确的语义匹配。
[0023] S2、推理图建模模块过滤候选答案集合中与问题语义无关的候选答案,将问题的语义特征融入到筛选后的候选答案特征中,将筛选后的候选答案及其关联信息建模成推理图。
[0024] 具体地,在确定问题的候选答案集合后,考虑到并不是所有候选答案都与问题语义相关,语义不相关的候选答案会增加推理负担,导致过拟合问题。因此本节提出对候选答案集合进行进一步筛选,去掉明显与问题无关的候选答案,保留与问题较为相关的候选答案。经过过滤后的候选答案集合被建模成一个图结构,使模型不仅能对每个节点语义信息建模,还能对节点与节点间的语义关联信息建模,从而提升模型的语义建模能力,为后续的答案推理作准备,具体包括:S21、推理图定义,定义一个推理图 ,其中 表示节点集合,每个节点代
表一个候选答案, 表示边集合,每条边代表在知识库中两个节点之间存在关联关系。如图2所示,红色节点表示主实体,蓝色节点表示候选答案节点,图中所有节点均来自于知识库中的实体或属性值,图中所有边表示相邻两个节点在知识库中存在的关联关系。
[0025] S22、推理图构建,给定问题 和初始候选答案集合 ,首先以主实体节点为中心引入PPR方法来计算每个候选答案与问题的语义相关性,从而从 中进一步挑选较为相关的候选答案构成更精炼的候选答案集合 。具体来说,对于 中的每条连边 ,,首先利用一个词嵌入矩阵 分别将连边和问题中的每个单词投影到 维向
量空间,其中 表示 中词典内单词数量,然后经过平均池化操作分别生成连边表示和问题表示 。通过计算连边表示与问题表示的余弦相似度来衡量连边与问题的语义相关性,作为连边权重,候选答案节点的语义相关性通过节点附近的连边权重进行加权,语义相关性高的候选答案权重更大。然后,在 上执行PPR,为候选答案 输出一个PPR得分 ,根据PPR得分将候选答案排序,选取前 个最高得分的候选答案构成筛选后的候选答案集合 ,即:

最后,以主实体为中心节点,中的候选答案为节点,候选答案在知识库中的关联关系为连边,构建图结构,即为推理图 。
[0026] S23、图结构建模,构建推理图 的邻接矩阵 ,若两个节点间存在连边,则邻接矩阵对应位置的值为1,否则为0,形式化表示为:其中,与 分别表示 中第 个节点与第 个节点。
[0027] 为了区分每种关联关系的强弱程度,我们为 构建一个权重矩阵 ,量化节点之间关联关系的强弱程度,当关联关系与问题语义相关性高时,则对应的权重大,反之则权重小。首先根据每个关联关系与问题间的语义相似度来计算关联度权重 ,形式化表示为:,
其中, 表示第 个节点与第 个节点间关联关系的语义表示, 表示第 个节点与第 个节点间关联度权重, 表示推理图中不同的关系类型个数。 表示余弦相似性函数。当第 个节点与第 个节点之间没有关系时, 。所有关联度权重构成问题与 的关联度矩阵 ,然后经过 正则与自循环更新,生成推理图的权重矩阵 。
[0028] S3、通过推理图进行答案推理,答案推理综合了全局推理与局部推理的推理结果,预测每个候选答案为正确答案的概率。
[0029] 具体地,对输入问题构建一个推理图后,知识库问答任务的目的在于经过答案推理预测每个候选答案为正确答案的概率,本发明的答案推理过程综合了全局推理与局部推理两种模式的推理结果,具体包括:S31、特征表示,包括有问题特征表示和候选答案特征表示;
问题特征表示,问题 经过词嵌入矩阵 初始化词向量为 ,
利用长短时记忆网络BiLSTM进行编码,得到问题特征表示 ,该表示融合了问题的前向与后向上下文信息。然后采用自注意力机制通过句内注意力增强问题表示,得到:

其中, ,表示BiLSTM隐藏神经元数量,Self‑Attention函数作用在输入张量的最后一个维度。
[0030] 候选答案特征表示,为了提取候选答案的语义特征,从知识库中抽取候选答案相关信息,包括实体类型 、关系路径 和实体上下文 。实体类型指候选答案的类型,关系路径由从主实体到候选答案实体会经过的所有关系组成的序列,实体上下文指候选答案实体的所有兄弟节点集合。同样地,采用词嵌入矩阵 将以上相关信息中每个单词投影到向量空间,依次生成向量 、 和 。然后经过BiLSTM编码,得到特征表示 、 和 。另外,用 表示关系路径中所有关系构成的集合,对每个关系进行表示,经过平均池化的生成平均关系表示 。然后采用键‑值记忆网络存储这些特征信息,生成候选答案的键表示如下:


其中, 表示线性映射函数,表示向量级联操作,通过扩展维度拼接相关信息的特征表示,得到候选答案的表示。同理,得到候选答案的值表示 ,其中

[0031] S32、GR全局推理,为了实现问题与知识库间语义关系的深度挖掘,本小节提出一种全局推理模式GR,模型结构如图3所示。GR在推理图中联合问题与知识库的语义信息,采用GCN使图中节点互相传递消息,达到联合评估候选答案与问题语义匹配程度的目的。
[0032] 具体地,全局推理包括有节点表示和基于图卷积网络的推理;节点表示,为了融合问题与知识库的语义信息,GR将问题特征表示、候选答案 的特征表示和节点类型通过级联操作拼接为一个语义表示,作为推理图中的对应节点 的特征表示,形式化为:

为了更突出每个候选答案的实体类型,通过联合问题语义与实体类语义实现更准确的匹配,这里直接将候选答案的实体类型表示成一个低维向量 。
[0033] 这种融合多种特征表示的方式使推理模型不仅能够挖掘问题语义信息,还能捕获知识库语义信息,通过多元知识进行联合推理,使与问题语义相似的候选答案拥有更高的匹配程度,从而提升模型的答案推理能力。
[0034] 基于图卷积网络的推理,给定问题 与对应的推理图 ,采用节点特征表示初始化中的每个节点,即: , 表示第 个节点的初始表示。为了描述推理图的关联结构,为每个推理图构建了一个权重矩阵 ,经过多层GCN使问题与知识库的特征信息在节点间传递与共享。在第 层,第 个节点表示更新过程形式化表示为:,
其中, , 表示GCN隐藏神经元数量。RELU表示激活函数, 是可学习的参
数, 是偏置项。经过 层GCN后,得到 中所有节点的特征表示 ,随后经过线性转换和残差连接生成所有节点的归一化表示 ,该过程可形式化如下:
  ,
其中, ,表示一个全连接层,表示所有节点的初始化表示。最后将归一
化表示经过多层感知机(Multi‑layer Perceptron, MLP)预测每个节点是问题的正确答案的概率,如节点 是 的正确答案的概率为 。
[0035] S33、LR局部推理,为了挖掘问题与候选答案的语义关系,本小节提出一种互注意力机制,不仅将候选答案相关信息嵌入到问题表示中,还能从候选答案中捕获与问题相关性高的特征,使得模型更关注问题与候选答案的重要部分,从而提升对问题与候选答案的语义匹配能力。具体来说,首先根据候选答案捕获问题中相关性高的部分,即计算候选答案感知的问题注意力 :,
其中, 表示注意力, 与
均为参数。表示级联操作。 表示在候选答案表示维度的最大池化操作。然后根据问题特征抽取候选答案相关信息中更重要的部分,计算问题感知的候选答案注意力:

其中, 表示在问题表示维度的最大池化操作。根据注意力权重,关注问题与候选答案中语义相关性高的特征,得到增强的问题表示 与候选答案表示 ,形式化表示为:

其中, , 。最后,通过问题与候选答案表示的内积衡量它们之间的语
义相关性,即候选答案 为问题正确答案的概率:

为了进一步增强模型对问题与候选答案中语义相关特征与语义无关特征的判别性,本发明还采用门控循环单元(GRU)和批处理正则化(Batch  Normalization, BatchNorm)增强问题特征表示,该过程可形式化如下:

其中, 。同样地,采用 进一步计算候选答案 为问题正确答案
的概率: 。从而得到了综合了全局推理与局部推理的推理结果,预测每个候选答案为正确答案的概率。
[0036] 本发明基于全局结构建模的机器人问答推理方法定义了一种推理图结构,在推理图上实现全局推理。通过探索知识库中的结构信息,在候选答案节点之间共享问题与知识库的语义信息,从而实现对各个候选答案与问题间语义匹配程度的联合评估。本发明提出的从局部推理到全局推理的融合多元知识的模型通过基于互注意力的局部推理模式推理每个候选答案与问题的语义匹配程度,通过图卷积网络对推理图进行结构化建模,联合所有候选答案之间的关联信息以实现全局答案推理,综合两种模式的推理结果,从而使语义相似的问题与候选答案之间的匹配程度更高。
[0037] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页 第1页 第2页 第3页