一种基于注意力机制的文本分类方法_专利转让申请注册交易-盲点网

一种基于注意力机制的文本分类方法有效专利发明

技术领域

[0001] 本发明属于文本处理技术领域，具体涉及一种基于注意力机制的文本分类方法。

具体实施方式

[0076] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

[0077] 本发明实施例中，针对现有文本分类的不足，提出了一种基于混合合成注意力机制的文本分类方法，该方法使用合成的自注意力矩阵而不是通过Token(分词或单词)之间的点积操作来获得注意力权重矩阵，这种合成注意力权重分为固定权重和随机初始化两种。固定权重注意力计算过程图2所示。

[0078] 固定权重注意力计算的Transformer中的注意力权重计算是在文本的样本层面计算的，也就是说注意力权重的计算矩阵是由Token和Token之间的交互产生的。在文本中这种特定交互又往往在不同的Token与Token之间变动，所以缺少了全局的语境信息。由于这种合成注意力矩阵只依赖简单的前馈层传播，所以省去了常规的Token之间耗时且占用内存的点积操作。合成注意力的关键在于移除了Transformer的Q(查询)，K(键)，V(值)概念，取而代之的是合成了一个对齐矩阵代表输入文本的词与词之间的注意力强度。固定权重注意力权重的注意力矩阵的计算方式是对于给定的输入X,使用两个权重矩阵分别为W1,W2计算得到，计算公式为：

[0079] B＝relu(XW1+b1)W2+b2

[0080] 其中，B表示关系矩阵，relu()表示RLU激活函数，W1和W2表示两个权重矩阵，b1和b2表示两个偏置项。

[0081] 得到了Token之间的关系矩阵B之后,就可以计算得到Token之间的注意力关系Y，计算公式如下；

[0082] Y＝softmax(B)G(X)

[0083] 其中，softmax()表示softmax函数，G(X)表示对X做线性变换得到G(X)。

[0084] 另一种合成注意力计算过程如图3所示。随机初始化注意力矩阵的方式是完全随机初始化一个对齐矩阵R，矩阵R也可以不随着模型的训练而做调整，和固定权重注意力权重计算的方式类似，计算公式如下。

[0085] Y＝softmax(R)G(X)

[0086] 随机初始化一个这样的对齐矩阵的好处是不再依赖任何单个Token和Token之间的交互，而是直接去学习一个基于任务特定并且跨实例有效的对齐。本发明实施例中，针对这两种合成注意力矩阵的方式，使用自适应融合策略融合文本表示最后进行文本分类。

[0087] 为了减少传统注意力机制中计算Token和Token之间的注意力联系的点积操作运算带来的消耗，本发明实施例设置的文本分类模型在使用位置编码的词嵌入表示后分别在两种注意力机制的基础上提取了全局和局部语义信息，分别是基于固定权重合成注意力机制和基于随机初始化合成注意力机制。再分别将两者的文本表示使用自适应的融合策略进一步提取关键有效信息，从而实现模型在文本分类能力上的提高。

[0088] 如图4所示，本发明实例中，采用的文本分类模型包括：词嵌入模块、特征提取网络(Bi‑GRU)、自注意力机制层和文本分类器，其中文本分类器可采用基于CNN的分类器，具体结构可采用本领域的任一惯用模型，本发明实施例不做限定。例如该文本分类器依次包括：卷积神经网络、最大池化和softmax函数层，用于输出每个文本类型的预测概率。

[0089] 本发明实施例中，采用的词嵌入实现是使用Google的开源词向量工具包Word2vec。词嵌入模块首先将文本中的词语通过某种映射使得其对应训练集中的词典ID，也就是将文本中的自然语言序列转换为计算机能理解的ID序列。词向量的初始化使用的是Skip‑gram预训练技术，在训练时也需要指定词向量维度。通常这个维度选择在64，128和300之间，考虑到词向量所选维度越大需要的成本就越高，同时词向量维度太少又可能忽略一些重要信息，本实施例中选择的词向量维度为300。选择的词向量维度也表示着对每个词语都考虑了300种特征，这个词向量在模型中也可以不随着模型的训练而做出相应的调整，本实例中，选择对词向量随着模型训练动态调整来提高最后模型的分类能力。每个词语根据其ID就可以在训练后的词向量矩阵中其向量表示，对一段文本中的每个词语都做相同处理就可以得到整个文本的二维矩阵形式，也就是文本的向量表示(Word Embedding)。

[0090] 通过词嵌入模块得到输入文本的词向量后，在本模块建立这些单词之间的联系。对于文本中序列信息的获取一般使用循环神经网络，而传统的循环神经网络存在较长期的记忆信息对当前计算影响较小。同时这种神经网络训练复杂，一些循环神经网络会面临的问题会更容易出现。改进的一种做法是使用长短期记忆网络，它通过门控遗忘不重要的信息同时记忆较长时期的重要信息，能够处理长序列存在的依赖信息。不过长短期记忆网络因为传播方向是单向的，对于上下文信息的获取比较乏力，而在文本分类任务中最终分类结果和文本上下文信息联系紧密，所以本发明实施例采用双向GRU网络(Bi‑GRU)来完成单词间联系的建立。Bi‑GRU的具体做法是用循环神经网络分别按正序和逆序的方式根据输入文本进行训练，再将两者分别训练出的结果拼接起来作为Bi‑GRU的最终结果。因为对输入文本的进行了两个方向训练，使得序列中每个单词前后两个方向的语义信息都被有效抽取出来，因此对于捕获输入文本的上下文语义信息Bi‑GRU作用通常不错，通过这种方式提炼的文本特征对后续文本分类有很大帮助。

[0091] 在自注意力机制中，Q,K，V都是由文本转换而来，通过，Q，K，V之间的点积操作获取文本中任务距离远的Token之间的注意力联系，不过这个过程可以由合成注意力对齐矩阵的方式实现。对于当前的输入X∈Rn×d，计算其对应的合成注意力矩阵，计算公式如下所示。

[0092] B＝relu(XW1+b1)W2+b2

[0093] 其中，待训练的权重矩阵分别为W1∈Rd×d,W2∈Rd×n,b1∈Rn×d,b2∈Rn×n，relu表示d×d常用的Relu非线性激活函数，R 表示实数域，上标n表示词数量，d表示每个词的向量表示的维度。

[0094] 经过计算可以得到合成注意力矩阵B∈Rn×n其展开形式如下，其中bi表示第i个单词和其他所有单词的注意力联系。

[0095] B＝[b1,b2,...,bn]

[0096] 类比于Transforme中由输入X转换得到的V，使用待训练的权重矩阵WG∈Rd×d对X做n×d线性变换得到G(X)∈R ，计算公式如下。

[0097] G(X)＝X(WG)

[0098] 通过B,G(X)即可计算固定权重合成的注意力结果E，计算公式如下。

[0099] E＝softmax(B)G(X)

[0100] 其中E∈Rn×d，其中ei表示第i个单词在文本中的表示，E展开形式如下。

[0101] E＝[e1,e2,...,en]

[0102] 最后为了在当前模块提取更多的有用信息，采用多头注意力机制也就是多个上述流程同步进行计。为了减少计算量只使用2个平行的子固定权重合成注意力机制，得到F∈Rn×(4d)，其中Ei表示第i个子固定权重合成注意力计算结果，F展开形式如下。

[0103] F＝[E1,E2]

[0104] 使用待训练权重矩阵I∈R(2d)×d与F做运算得到本模块最终输出U∈Rn×d，计算公式如下所示。

[0105] U＝FI

[0106] 本模块也使用Add&Norm结构，其中，Add是一种关注网络当前差异的残差结构，方便网络训练，计算公式如下所示。

[0107] U＝X+U

[0108] Norm结构是Layer Normalization，它将每层神经元的输入都转成一样的均值方差，方便网络快速收敛，总的Add&Norm计算方式如下。

[0109] U＝LayerNorm(X+U)

[0110] 本模块同样采用Feed Forward层(前馈层)，其计算公式下所示。

[0111] U＝relu(UW1+b1)W2+b2

[0112] 其中，W1,W2∈Rd×d,b1,b2∈Rn×d是待训练参数，这个得到的U∈Rn×d就是本模块的最终输出，也就是经过固定权重合成注意力计算后的文本表示。

[0113] 注意力对齐矩阵也可以是一个完全随机化的对齐，并不需要从输入中学习来，这n样可以更直接学到跨Token有效的基于当前任务的对齐关系。首先还是需要对输入的X∈R×d n×d d×d
做变换得到D(X)∈R ，本实施例中，采用一个待训练的权重矩阵WD∈R 对X做线性变换n×d
得到D∈R ，计算公式如下。

[0114] D(X)＝X(WD)

[0115] 对于当前的输入X∈Rn×d，随机初始化一个R∈Rn×n的对齐矩阵，直接可以计算出当n×d前注意力头的输出J∈R ，计算公式如下所示。

[0116] J＝sofmax(R)D(X)

[0117] 其中J∈Rn×d,其中ji表示第i个单词在文本中的表示，J展开形式如下。

[0118] J＝[j1,j2,...,jn]

[0119] 这个模块基于同样的考虑也使用了多头注意力机制，所以也采用了2个平行的子n×(2d)随机初始化合成注意力机制,得到K∈R ，其中Ji表示第i个子随机初始化权重合成注意力计算结果，K展开形式如下。

[0120] K＝[J1,J2]

[0121] 使用待训练权重矩阵M∈R(2d)×d与K做运算得到本模块最终输出V，计算公式如下所示。

[0122] V＝KM

[0123] V同样经过Add&Norm结构和Feed Forward层，得到的V∈Rn×d就是本模块的最终输出，计算公式如下。

[0124] V＝relu(LayerNorm(X+V)W1+b1)W2+b2

[0125] V就是经过随机初始化权重合成注意力计算后的文本表示，LayerNorm()表示过层次归一化操作。通过固定权重注意力和随机初始化注意力计算已经得到了两种不同的文本表示U和V，U重点从输入中学到了Token之间的注意力联系，V则致力于对与任务中跨Token的学习。为了对者两种优势取长补短，本发明实施设置了一种自适应的模型融合策略，为了构建表达能力更强的文本表示从这两种不同合成注意力机制得到的文本表示中分别抽取有价值的信息。计算公式如下。

[0126] z＝σ(W1tanh(W2U+W3V))

[0127] Z＝z⊙U+(1‑z)⊙V

[0128] 其中，σ是一种非线性激活函数，W1,W2,W3是需要训练的权重矩阵，U表示固定权重合成注意力的文本表示对文本表示Z的贡献，V表示随机权重合成注意力的文本表示对文本表示Z的贡献。z作为一个控制门，当基于固定权重获取的文本表示不充分时，随机初始化权重获取的文本表示可以对它进行补充。而当基于固定权重获取的文本表示充分时，则将其作为主要的文本表示。

[0129] 得到网络最后的输出Z经过卷积神经网络和最大池化后经过softmax运算得到预测的文本类别标签yi。

[0130] yi＝softmax(WC1Z+bC1)

[0131] 其中，WC1是需要训练的权重矩阵，bC1是其偏置项。因为使用softmax函数进行文本的多分类，所以使用多类别交叉熵损失函数训练模型，计算公式如下。

[0132] Loss＝‑∑i＝1ilog(yi)

[0133] 其中，li是文本对应的真实类别，yi时模型softmax输出。模型将通过不断学习，调整模型的各项参数使得损失函数不断减少，直至模型收敛从而取得很好的结果。

[0134] 另一方面，本发明还提供了一种基于协作注意力机制的文本分类方法。

[0135] 随着Transformer模型结构的不断发展，在享受Multi‑Head Attention带来的好处的同时，研究人员也逐渐发现Multi‑Head Attention增加了模型计算成本，最终限制了模型的能力。一些研究人员从量化不同注意力头的重要程度上进行了思考，更激进的研究学者则在考虑是否可以直接Multi‑Head Attention的基础上提出了迭代式注意力头剪枝的方法。通过这些研究学者的研究结果可以发现，不同的注意力头是存在一定程度上的信息冗余，不过单纯的直接分析不同注意力头的权重矩阵是远远不够的。本实施例从提取Multi‑‑Head Attention出发，使用了协作注意力的计算方式。传统的Multi‑Head Attention每个注意力头的列维度为dk，定义Dk＝Nh*dk。为了提取不同注意力头的通用信息使用混合向量表示实数域，表示使用协作注意力整合后输出的维度，使用协作注意力后整体注意力计算如下：

[0136]

[0137]

[0138] 其中，H(i)是每个注意力头捕捉到的信息，Attention()表示注意力函数，X、Y表示注意力函数的两个输入，本发明实施例中，Attention()用于计算输入的自注意力，即X＝Y，是被所有注意力头共享的权重矩阵，即分别表示对应Q，K，V的权重矩阵，Din表示输入维度，dig()表示向量对角化矩阵操作，输入Y的另一个权重矩O
阵CollabHead()表示注意力头拼接函数，Nh表示注意力头总数，W 表示拼接注意力头用到的权重矩阵，其中，是被所有注意力头共享的权重矩阵，它们捕捉了所有注
意力头的通用信息，而则使得整合注意力时各个注意力头之
间保持相互独立。这种协作注意力的方式的一个优势在于可以灵活设置，可以根据任务场景需要很方便的进行改动。如果则表示传统的Multi‑‑Head Attention
结构。协作注意力机制的另一个好处在于是被所有注意力头所共享的，每次计算只需要计算一次，从而大大减少了模型的计算量。

[0139] 为了一定程度上解决多头注意力之间的冗余信息，使用了协作注意力机制优化了整合多头注意力的方法，将被所有注意力头所共享的信息提取了出来，从而让每个注意力头专注于捕获独有的信息。本发明实施例提供的基于协作注意力机制的文本分类方法中，所采用的分类模型在词嵌入表示后使用双向长短期记忆网络得到初级文本表示，之后使用两个串联的协作注意力模块提取全局和局部语义信息。通过Highway网络缓解模型网络深的梯度回流问题，提高模型训练速度，如图6所示。即本发明实施例中，基于协作注意力机制的文本分类模型包括词嵌入和位置编码模块，混合矩阵、前馈神经网络、Highway网络和文本分类器，其中文本分类器，其中文本分类器可以与基于混合合成注意力机制的文本分类方式中的相同。

[0140] 本实施例中，具体采用的词嵌入实现是使用Google的开源词向量工具包Word2vec。词嵌入模块首先将文本中的词语通过某种映射使得其对应训练集中的词典ID，也就是将文本中的自然语言序列转换为计算机能理解的ID序列。词向量的初始化使用的是Skip‑gram预训练技术，在训练时也需要指定词向量维度。通常这个维度选择在64，128和300之间，考虑到词向量所选维度越大需要的成本就越高，同时词向量维度太少又可能忽略一些重要信息，本实施例选择的词向量维度为300。选择的词向量维度也表示着对每个词语都考虑了300种特征，这个词向量在模型中可以也可以不随着模型的训练而做出相应的调整，本实施例选择对词向量随着模型训练动态调整来提高最后模型的分类能力。每个词语根据其ID就可以在训练后的词向量矩阵中其向量表示，对一段文本中的每个词语都做相同处理就可以得到整个文本的二维矩阵形式，也就是文本的向量表示。

[0141] 因为本模型并没有使用Bi‑LSTM或Bi‑GRU结构获取词向量信息，所以对于关键的位置信息参考Transformer添加了位置编码模块(位置Embedding)，使用位置Embedding方便模型学习文本序列中绝对或相对的位置信息。

[0142] 基于协作注意力模块的文本表示由两个子模块组成，分别是协作注意力子模块和前馈神经网络子模块。两个子模块构成了一个局部整体，堆叠两次作为整个基于协作注意力模块的文本表示模块。

[0143] 作为一种可能的实现方式，本发明实例中，协作注意力的计算方式具体为：

[0144] 对于输入的文本特征表示矩阵使用一个混合均值表示各个注意力头之间的协作结算方式，M表示形式如下所示：

[0145]

[0146] 其中，是由1和0两种元素构成的向量，向量中为1的元素位置就是对应注意力头的映射矩阵在拼接后的整体矩阵中的位置。将mi对角化为对角矩阵Mi：Mi＝diag(mi)。基于协作注意力的所有注意力头共享可以分别计算每个注意力头(i) (i) (i)
的Q ,K ,V ，其具体就算为：

[0147] 有了每个注意力头的Q(i),K(i),V(i)，就可以计算其注意力分数Head(i)：

[0148]

[0149] 将注意力头挨个拼接之后就得到了多头注意力的输出结果MultiHead(H,H),具体计算公式如下所示：

[0150]

[0151] 本发明实施例中，前馈神经网络子模块，使用一个两层的全连接层做前馈传播，计算公式如下所示。

[0152] T＝relu(MultiHead(H,H)W1+b1)W2+b2

[0153] 其中W1,W2∈Rd×d,b1,b2∈Rn×d是待训练参数，这个得到的U∈Rn×d就是一个基于协作注意力模块的文本表示子模块的输出，U作为下一个基于协作注意力模块的文本表示模块的输入。

[0154] 考虑到模型网络层次较深，需要对训练中梯度回流难的问题做一定的优化。出于从LSTM中门控网络受到的启发，也使用门控机制来允许部分信息直接传到输出，剩下的则需要做一些非线性转换，这种控制信息流的方式可以帮助优化特征并提取有价值的信息，计算公式如下。

[0155] τ＝σ1(TWτ+bτ)

[0156] Z＝τ⊙σ2(TWh+bh)+(1‑τ)⊙T

[0157] 其中，σ1,σ2都为非线性激活函数，Wτ,Wh∈Rd×d为待训练的权重矩阵，bτ,bh∈Rn×d为两个偏置项，τ是整个Highway网络中的门控，决定了多少信息可以不经过非线性变换直接n×d流向输出，Z∈R 是Highway网络的输出。Highway网络在帮助深度神经网络加速收敛问题，特别是在传统网络在反向传播时收敛困难上显示除了很大的作用。

[0158] 得到网络最后的输出Z经过卷积神经网络和最大池化后经过softmax运算得到预测的文本类别标签yi。

[0159] yi＝softmax(WC1Z+bC1)

[0160] 其中，WC1是需要训练的权重矩阵，bC1是其偏置项。因为使用softmax函数进行文本的多分类，所以使用多类别交叉熵损失函数训练模型，计算公式如下。

[0161] Loss＝‑∑i＝1ilog(yi)

[0162] 其中，li是文本对应的真实类别，yi时模型softmax输出。模型将通过不断学习，调整模型的各项参数使得损失函数不断减少，直至模型收敛从而取得很好的结果。

[0163] 在基于协作注意力机制的文本分类方法中，本实施例通过位置编码模块学习文本序列中绝对或相对的位置信息，通过写作注意力处理获取用于输入文本分类器的文本表示，以有效提升文本分类性能。

[0164] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

[0165] 以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

一种基于注意力机制的文本分类方法有效专利发明

技术领域

相关背景技术

具体实施方式

[0002]在所有的互联网信息中文本作为一种方便交流、传输容易的载体，各种各样的帖子、评论和邮件不断...，盲点网为您提供一种基于注意力机制的文本分类方法专利转让信息专利转让交易数据查询就上盲点网

一种基于注意力机制的文本分类方法有效专利 发明

技术领域

相关背景技术

具体实施方式

[0002]在所有的互联网信息中文本作为一种方便交流、传输容易的载体，各种各样的帖子、评论和邮件不断...，盲点网为您提供一种基于注意力机制的文本分类方法专利转让信息专利转让交易数据查询就上盲点网

一种基于注意力机制的文本分类方法有效专利发明