首页 / 一种基于主动学习的迁移学习算法

一种基于主动学习的迁移学习算法无效专利 发明

技术领域

[0001] 本发明涉及机器学习技术领域,具体是基于主动查询的迁移学习算法。

相关背景技术

[0002] 近几年来,深度学习获得了巨大的成功,如计算机视觉、语音识别、自然语言处理等。在多个标准数据集上都取得了最优的结果。但是高准确率的背后需要的是大量的优质的标注数据,现实是数据的标注成本是极其昂贵的,这对于一些小型公司乃至一些大公司都是无法承受的。而且真正的智能技术要求着能够举一反三,这意味着学习到的模型能够在类似场景中进行迁移,而不是针对每个任务都从头进行训练。基于以上的需求,迁移学习获得了越来越多的关注。
[0003] 迁移学习技术的关键在于度量源域和目标域的相似性,常见的主要有四种。第一种是采用MMD的方法,MMD计算了在一个再生核希尔伯特空间中两个数据域经过映射后均值的差异[1][2]。第二种间接性地避免直接计算相似性,采用了基于变分自编码器的框架来优化重建误差的损失[3]。第三种是当下非常流行的基于对抗训练的迁移学习方法,这种方法在网络架构加入了对抗的模块,鉴别器来区分经过特征提取后的目标域和源域数据的特征究竟是来自哪个数据域,如果鉴别器无法很好地进行区分,就可以认为特征提取器学到了两个域不变的特征表示[4]。[4]中提出的DANN算法是一个非常典型的算法,这里我们也将其作为获得预训练模型的主要算法。
[0004] 对于主动学习,[5]做出了一个很好地总结。其主要的目的用衡量样本的信息量和代表性。其中[7]提出了一中基于分布差异进行采样的主动学习,本发明中也主要继承了一想法。[6]尝试了将主动学习和迁移学习结合,但是这种方法主要是针对非深度模型的和基于样本全中的。
[0005] 在本发明中,我们提出了一中基于主动学习的迁移学习算法,我们在发明中称之为AL-MMD。AL-MMD对样本进行了两个方面characteristics和uncertainty的衡量,并对二者进行平衡,考虑了样本学习过程重要性的变化。这种方法拓宽了传统的主动学习衡量方法,并有效的应用于迁移学习的环境背景中。
[0006] 参考文献:
[0007] [1].Gretton,A.,Borgwardt,K.M.,Rasch,M.J.,Sch olkopf,B.,Smola,A.J.:A kernel two-sample test.Journal of Machine Learning Research 13,723{773(2012).[0008] [2].Long,M.,Cao,Y.,Wang,J.,Jordan,M.I.:Learning transferable features with deep adaptation networks.In:Proceedings of the 32nd International Conference on Machine Learning,ICML 2015.
[0009] [3].Ghifary,M.,Kleijn,W.B.,Zhang,M.,Balduzzi,D.,Li,W.:Deep reconstruction-classification networks for unsupervised domain adaptation.In:Computer Vision-ECCV 2016-14th European Conference,Amsterdam,The Netherlands,October 11-14,2016.
[0010] [4].Ganin,Y.,Ustinova,E.,Ajakan,H.,Germain,P.,Larochelle,H.,Laviolette,F.,Marchand,M.,Lempitsky,V.:Domain-adversarial training of neural networks.The Journal of Machine Learning Research 17(1),2096{2030(2016)[0011] [5].Settles,B.:Active Learning.Synthesis Lectures on Artificial Intelligence and Machine Learning,Morgan&Claypool Publishers(2012).[0012] [6].Chattopadhyay,R.,Fan,W.,Davidson,I.,Panchanathan,S.,Ye,J.:Joint transfer and  batch-mode active  learning.In:Proceedings of the 30th International Conferenceon Machine Learning,ICML 2013.
[0013] [7].Chattopadhyay,R.,Wang,Z.,Fan,W.,Davidson,I.,Panchanathan,S.,Ye,J.:Batch mode active sampling based on marginal probability distribution matching.TKDD 7(3),13:1{13:25(2013).

具体实施方式

[0028] 下面结合附图,对本发明提出的一种基于主动学习的迁移学习算法进行详细说明。
[0029] 如图1所示,本发明中提出的基于主动学习的迁移学习算法,包括以下步骤:
[0030] 步骤1)确定算法输入变量,包括待训练的源域和目标域数据集,当前迭代次数t,当前模型Mt,选出来标记的数据集Q;
[0031] 步骤2)用无监督的领域自适应算法对源域和目标域数据集进行训练,得到一个初始化的模型M0;
[0032] 步骤3)对于目标域数据集X中的每一个样本点x,计算其经过卷积层后提取的特征x′=conv(x);
[0033] 步骤4)计算特征辨别性指标
[0034] 步骤5)计算样本x的不确定性指标,这里用信息熵来评
[0035] 步骤6)计算样本x的综合评价指标,S(x)=λ*characteristics(x)+(1-λ)*uncertainty(x);
[0036] 步骤7)查看是否已经将目标域数据集X遍历完,如果没有继续步骤3),如果遍历完了X,继续步骤8);
[0037] 步骤8)根据S(x)的值,从中选取前b个最大的值,选出X中对应的b个样本,请专家进行打标签,并将这b个标记好的样本加入数据集Q中,同时从目标域数据集中删除这b个数据样本X=X\Q;
[0038] 步骤9)用Q中的数据对当前的模型Mt进行微调,t=t+1;
[0039] 步骤10)查询迭代次数t,如果已经未超过100,则继续步骤3),否则算法终止。
[0040] 以下详细介绍该算法在一些标准的数据集上的测试效果,并与几个典型的方法进行比较。这里对比的算法有random_sampling和uncertainty_sampling,这两种算法是主动学习中的非常典型的方法。第一种是随机采样,第二种是根据不确定采样我们主要用基于信息熵的方法。实验结果,主要比较三种算法的在数据集上的分类准确率。
[0041] 第一组实验,我们采用了MNIST和MNIST-M两个常见的手写数字集,每个数据集都有10个类别。第二组实验,我们才用了office-31数据集,该数据集中包含了Amazon(A),Webcam(W)和Dslr(D)三个域的数据集,每个域都包含了31个类别。这里我们做了Dslr到Webcam这两个数据集之间的迁移。
[0042] 表1 数据集介绍
[0043]数据集(D) 数据规模(s) 类别数
MNIST 70000 10
MNIST-M   10
Webcam   31
Dslr   31
[0044] 表2 MNIST到MNIST-M的测试结果(%),加粗的表示最优结果
[0045]
[0046] 表3 Dslr到Webcam的测试结果(%),加粗的表示最优结果
[0047]
[0048] 在实验设计中,对于计算characteristics(x)其中的核函数我们才用了高斯核函数。根据以上两个表的结果,我们可以看到随着标记样本的数量变多,AL-MMD要比其他的两种典型的方法要好。这是因为传统的主动学习的采样方法都没用考虑迁移学习场景的情形。因为初始时,我们拥有的标记数据仅仅是在源域数据集里。但现实是,源域数据和目标域数据是非独立同分布的(Non-IID),而主动学习这样的典型机器学习方法是仅仅考虑独立同分布(IID)的,所以效果比起AL-MMD要差一点。
[0049] 综上所述,以上实施仅用以说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,其均应涵盖在本发明的权利要求范围中。

当前第1页 第1页 第2页 第3页
相关技术
学习算法相关技术
学习迁移相关技术
关东海发明人的其他相关专利技术