技术领域
[0001] 本发明涉及BERT模型复用和BERT模型融合领域,尤其是涉及了一种基于模型特征信息增强的BERT模型融合方法。
相关背景技术
[0002] BERT模型融合是一项重要的模型融合任务,其目的在于对多个单任务上微调好的BERT模型进行融合和复用,生成一个可以在多任务表现良好的新BERT模型。
[0003] 目前的模型融合方法多是集中于图像识别领域和卷积网络,而对于自然语言处理和BERT模型融合的方法相对较少,这些方法往往并不能充分地利用原有BERT模型的特征信息,所以融合后的BERT模型并不能达到较好的表现效果。
[0004] 目前BERT模型复用方法多集中于单个BERT模型的知识蒸馏与复用,侧重于对原有模型的压缩,没有考虑对多个BERT模型之间的特征融合,更没有考虑对BERT新模型多任务处理能力的提升。
具体实施方式
[0015] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本发明的保护范围。
[0016] 本发明针对BERT模型融合任务,利用无标注数据,先对原BERT模型进行部分融合,生成中间BERT模型,对原BERT模型的特征信息进行增强,然后对原BERT模型和中间BERT模型进行融合,生成表现效果和泛化能力更好的新BERT模型。
[0017] 如图1所示,本发明的具体实施过程和工作原理如下:
[0018] 1.准备原模型,利用不同任务上的标注数据对BERT模型进行微调,得到不同任务上微调后的BERT模型,作为原模型。
[0019] 2.准备融合过程需要的无标注数据,这些无标注数据在后续融合过程中,用于对原模型特征信息的获取。
[0020] 3.使用图2模型扩增阶段的方法,对原模型进行部分融合,生成对应的表现效果较好的中间模型。模型扩增阶段的主要目的是对原有模型进行增强,主要从两个方面进行增强。一方面是增强原有模型的特征信息强度,另一方面是增强原有模型之间的关联性。为了能够增强原有模型的特征信息强度,本发明通过对模型数量的扩增,增强了原有模型的特征信息强度;为了能够提升原有模型之间的关联性,本发明针对原有模型进行部分融合,生成中间模型,通过中间模型,来提升模型之间的关联性。
[0021] 模型扩增的过程如下,对于原有的N个教师模型,进行N次注意力融合,每次融合使用其中的N‑1个模型,最终生成N个新的模型。每个新模型中的知识包含N‑1个原有模型中的知识,可以对原有的N‑1个模型之间的关联性进行增强,也增强了原有N‑1个模型的特征信息强度。如图2模型扩增阶段所示,有三个教师模型T1,T2和T3,先对其进行三次融合,对T1和T2融合生成中间模型T12,对T1和T3融合生成中间模型T13,对T2和T3融合生成中间模型T23。生成的中间模型T12对原有模型T1和T2进行了增强,主要有两方面的增强。一方面是增强了模型T1和T2之间的关联性,因为中间模型T12包含了模型T1和T2的知识,所以将中间模型加入到原有模型中,可以增加整体模型的关联性,即T12,T1与T2之间的关联性大于T1与T2之间的关联性。另一方面是增强了原有模型T1和T2的特征信息强度,因为中间模型T12包含了原有模型T1和T2的特征信息,将中间模型加入到原有模型中,可以增强整体模型的特征信息强度。另外,中间模型T13和T23也有类似的增强效果。
[0022] 4.使用图2模型融合阶段的方法,对原模型和中间模型进行融合,生成一个表现效果较好的新模型。模型融合阶段的主要目的是将上一阶段产生的中间模型和原有模型,通过注意力融合的方法,生成最终的新模型。最终的新模型除了可以获取到原有模型的特征信息,还可以获取到中间模型的增强特征信息,相比于仅仅融合原有模型,拥有更好的表现效果。
[0023] 模型融合的过程如下,对上一阶段模型扩增生成的N个中间模型和原有的N个模型,进行一次注意力融合,生成最终的学生模型S。如图2模型融合阶段所示,对原有模型T1,T2和T3,以及中间模型T12,T13和T23,进行一次注意力融合,将原有模型和中间模型进行融合,生成最终的新模型S,相比于直接融合原有模型,最终的新模型S可以获取到更多的特征信息。
[0024] 5.对新模型进行评估和测试。我们在GLUE数据集上进行了实验,结果表明,我们的特征信息增强融合方法相比于直接融合方法,在准确率上平均提升0.92个百分点,证明了我们方法的有效性。
[0025] 本技术领域的人员根据本发明所提供的文字描述、附图以及权利要求书能够很容易在不脱离权力要求书所限定的本发明的思想和范围条件下,可以做出多种变化和改动。凡是依据本发明的技术思想和实质对上述实施例进行的任何修改、等同变化,均属于本发明的权利要求所限定的保护范围之内。