技术领域
[0001] 本发明涉及机器学习技术领域,具体涉及一种虚拟样本生成方法。
相关背景技术
[0002] 基于大数据的机器学习技术已经广泛和成功地应用于很多不同的行业。对于许多稀有疾病的医疗记录和柔性制造系统的早期阶段,只有少量的训练样本能够用于构造预测模型。对于复杂的流程工业过程,为实现其优化控制和运行优化,必需对关键机械设备的难以检测过程参数进行测量或预测,如磨矿过程磨机内部负荷参数难以直接检测和采用机理模型直接计算得到,主要采用基于磨机筒体的振动和振声信号高维频谱数据的软测量方法进行。但有效的建模数据只能在两个阶段获得:(1)专门为软测量模型构建进行的实验设计阶段;(2)磨机的停止运行和重新开始运行阶段。在实际工业过程中,以牺牲经济利益为代价或经过很长的等待时间后,也许可以获得足够数量的可用的训练样本。在稀有疾病的医疗记录和柔性制造系统的早期阶段同样存在类似的难以获得足够建模样本的问题。因此,现实情况是我们必须进行面向高维小样本数据的建模研究。
[0003] 研究表明,足够的样本数量对于构建有效的学习模型非常重要。目前已有的大量的研究多面向分类问题,如文献[1]研究了分类误差、学习样本数量、样本输入维数和分类算法复杂性间的相互关系。为了确定获得必要的预测性能而需要的最小样本的数量,研究人员提出了概率近似正确、训练样本与输入特征比率等指标[2,3]。目前,关于小样本数据的定义也是非常相对和主观的。
[0004] 现有技术提出了一种新的巨型趋势分散(MTD)技术用于解决早期柔性制造系统的计划调度问题,主要采用虚拟样本生成(Virtual Sample Generation,VSG)技术提高误差逆传播神经网络(BPNN)模型的分类精度。目前,已有多种类型的VSG方法,如利用领域专家知识、将噪声加入输入数据、利用原始样本的分布函数等。这些研究多面向基于高维小样本数据的分类问题。
[0005] 对于用于回归问题的虚拟样本生成,文献[4]提出基于多层感知器网络的VSG方法用于提高学习模型的泛化性能,其中:虚拟样本的输入通过选择真实样本输入的附近点产生,虚拟样本的输出通过平衡不同多层感知器网络输出数据获得。文献[5]提出用分散神经网络(DNN)产生虚拟样本和建模小数据集,仿真结果表明DNN比BPNN具有更强的预测性能。这些方法通常都是单独处理训练样本的输入特征。最近,文献[6]提出的基于遗传算法(GA)的VSG方法可以描述不同输入特征间的积分效应。
[0006] 上述方法采用传统的单模型产生虚拟样本。对于具有复杂分布的建模数据或高维小样本训练数据,传统的单模型建模方法难以进行有效的模式识别或回归建模。
[0007] 【1】S.J.Raudys,A.K.Jain,“Small Sample Size Effects in Statistical Pattern Recognition:Recommendations for Practitioners,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.13,no.3,pp.252-265,1991.[0008] 【2】J.Shawe-Taylor,M.Anthony,and N.L.Biggs,“Bounding Sample Size with the Vapnik-Chervonenkis Dimension,”Discrete AppliedMath.,vol.42,pp.65-73,1993.
[0009] 【3】Y.Muto and Y.Hamamoto,“Improvement of the Parzen Classifier in Small Training Sample Size Situations,”Intelligent Data Analysis,vol.5,no.6,pp.477-490,2001.
[0010] 【4】S.Z.Cho,M.Jang,S.J.Chang.Virtual sample generation using a population of networks,neural processing letters,vol.5,pp.83-89,1997.[0011] 【5】C.F.Huang and C.Moraga,“A Diffusion-Neural-Network for Learning from Small Samples,”Int’l J.Approximate Reasoning,vol.35,pp.137-161,2004.[0012] 【6】D.C.Li,I.H.Wen,”A genetic algorithm-based virtual sample generation technique to improve small data set learning,”Neurocomputing,vol.143,pp.222-230,2014.
具体实施方式
[0051] 以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
[0052] 此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0053] 除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0054] 在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0055] 图1为本发明实施例的虚拟样本生成方法的流程图。如图1所示,所述虚拟样本生成方法包括如下步骤:
[0056] 步骤S100、提取所述真实样本的输入向量的潜在特征,并获取潜在特征提取模型。
[0057] 在本实施例中,以最大化输入向量和输出向量之间的协方差为目标,基于偏最小二乘算法(PLS)提取真实样本的输入向量的潜在特征。偏最小二乘算法可以对高维的真实样本进行降维,以维数较低的潜在特征替代原始的高维特征。对于真实样本(x,y),其中x为输入向量,y为输出向量,从其中提取的特征可以表示为:
[0058] Z=[t1,t2,…,th]
[0059] 其中,ti(i=1,2…..,h)为潜在特征,h是潜在特征的数量,其可以通过经验或方差贡献率确定。
[0060] 步骤S200、根据所述潜在特征和对应的输出向量训练获取预测性能满足预定条件的预测模型,所述预测模型用于根据输入向量的潜在特征计算对应的输出向量。
[0061] 具体地,步骤S200包括:
[0062] 步骤S210、将所述真实样本的输入向量的潜在特征及对应的输出向量作为训练数据集。
[0063] 其中,训练样本以Z表示。
[0064] 步骤S220、通过Bootstrap算法从训练数据集产生PGA个训练子样本。
[0065] 建模的首要问题是集成构造。基于Bootstrap算法的“采样训练样本”方法用于在训练样本Z中产生训练子样本 其中PGA是子样本的数量,即候选子模型的数量和GA算法中的种群数量。
[0066] 步骤S230、根据训练子样本 构建基于BPNN的候选子模型
[0067] 步骤S240、根据训练数据集Z选取对应的模型选择权重参数大于模型选择阈值的所有候选子模型构成符合条件的子模型的集合(也即集成子模型的集合)其中,模型选择权重参数通过对随机生成的初始权重参数以最小化预测误差为目标经过遗*
传算法优化获得。其中,PGA为集成模型中的子模型数量。
[0068] 具体地,在步骤S240可以包括:
[0069] (1)采用训练数据集Z根据分别计算所有候选子模型的输出向量,获得对应的输出向量集合
[0070] (2)基于训练数据集中的输出向量计算所有候选子模型的预测误差[0071] (3)基于预测误差构建相关矩阵
[0072] (4)为候选子模型随机产生用于进行模型选择的初始权重参数
[0073] (5)基于 采用标准遗传算法以最小化预测误差为目标优化这些随机向量,并将其结果记为 作为优化权重参数。
[0074] (6)选择 的候选子模型,获得符合条件的子模型集合 和它们的数量总和 其中,λGA为子模型筛选阈值,在本实施例中,可以设置使得λGA=1/pGA。
[0075] 步骤240实际上是根据基于遗传算法(GA)的选择性集成(SEN)学习来选择用于构建最终预测模型的集成子模型。。
[0076] 步骤S250、基于训练数据集Z计算集成子模型中所有子模型输出向量之和的均值作为集成模型的输出向量,并基于所述集成模型的输出向量和所述训练样本的输出向量计算集成模型的预测性能。
[0077] 具体地,在本实施例中基于如下方式计算集成模型的输出向量 即:
[0078]
[0079] 同时,基于如下公式计算集成模型的预测性能MAPE:
[0080]
[0081] 其中, 为集成模型的输出向量,yi为训练数据集中的输出向量,k为训练数据集中输出向量的数量。
[0082] 步骤S260、在集成模型的预测性能满足预定条件时,将所述集成模型作为所述预测模型。
[0083] 在本实施中,将MAPE≤0.1作为集成模型的评价条件,在预测性能满足上述条件时,将集成模型作为预测模型,否则,返回步骤S210重新构建新的集成模型,直至获得满足上述条件的预测模型。
[0084] 步骤S300、在所有可插值的真实样本对之间进行插值生成虚拟样本的备选输入向量,所述可插值的真实样本对为对应的输入向量或输入向量的相关向量中预定数量的元素相同的两个真实样本。
[0085] 具体地,步骤S300包括基于下式生成虚拟样本的备选输入向量:
[0086]
[0087] 其中, 为第l’个插值生成的备选输入向量, 为第一可插值高维训练样本的输入向量, 为第二可插值高维训练样本的输入向量,NVSG为预定插值分段的数量。
[0088] 优选地,在输入向量的输入变量中除了一个变量(元素)以外,其它变量(元素)均相同的两项真实训练样本可以构成一个可插值的真实样本对。通常,对于具体的某一物理或化学过程,这些输入变量(元素)的具体含义均是已知和可解释的;对于这些物理或化学过程所作的实验,或进行的数据采集过程,对这些变量之间的间隔的要求即构成真实训练样本间隔的先验知识。当然,也可以通过变量大部分相同的与输入向量相关的向量来筛选获取可插值的真实样本对。在这两个真实样本的输入向量之间,通过线性插值可以获得所需要数量的虚拟样本的备选输入向量。例如将如果两个相邻真实样本间的间隔可以被分为NVSG部分,那么总共可以产生总计NVSG-1个虚拟样本的输入。其中,NVSG≥2。
[0089] 对所有的可插值的真实样本对进行插值即可以获得所有的备选输入向量。
[0090] 步骤S400、根据所述潜在特征提取模型提取所述备选输入向量的潜在特征。
[0091] 以虚拟样本输入 为例,采用下式提取潜在特征:
[0092]
[0093] 其中P=[p1,p2,…,ph]和W=[w1,w2,…,wh]是在利用偏最小二乘算法进行降维时获得的负载矩阵和系数矩阵,其构成了潜在特征提取模型的参数。
[0094] 步骤S500、根据所述预测模型和所述备选输入向量的潜在特征计算对应的备选输出向量,并保留符合虚拟样本筛选条件的备选输出向量和对应的备选输入向量以获取真实样本集合对应的虚拟样本集合。
[0095] 图2为本发明实施例的虚拟样本生成方法的步骤S500的流程图。如图2所示,步骤S500包括:
[0096] 步骤S510、计算当前备选输入向量对应的备选输出向量。
[0097] 具体地,虚拟样本的备选输入向量 的输出向量 可采用下式计算:
[0098]
[0099] 其中, 为备选输入向量 对应的潜在特征。
[0100] 步骤S520、在所述备选输出向量在预定的输出向量上限和输出向量下限之间时,保留备选输出向量和对应的备选输入向量作为虚拟样本。
[0101] 具体地,判断 是否满足以下虚拟样本筛选条件:
[0102]
[0103] 其中, 为预定的输出向量上限,而 为预定的输出向量下限。如果满足上述条件,将其保存为虚拟样本的当前备选输入向量 和对应的输出向量 作为可接受虚拟样本输出。
[0104] 步骤S530、在所述备选输出向量不在预定的输出向量上限和输出向量下限之间时,判断当前备选输入向量的计算次数是否超出预定阈值,如果是,执行步骤S540,否则执行步骤S510。
[0105] 在 不满足上述条件时,当前的输出向量不能作为虚拟样本,因此,需要重复步骤S510-S520以计算出新的输出变量并判断是否符合要求,如果重复的次数超出预定阈值,则说明当前的输入向量不适于作为虚拟样本。
[0106] 步骤S540、放弃当前备选输入向量,将下一个备选输入向量作为当前备选输入向量,执行步骤S510。
[0107] 在判断当前的输入向量不适于作为虚拟样本,则更换备选输入向量,来计算该备选输入向量及对应的输出向量。
[0108] 步骤S550、在所有备选输入向量均被遍历后,将保留的所有虚拟样本作为所述虚拟样本集合。
[0109] 在所有备选输入向量均被遍历后,即可将所有的虚拟样本作为虚拟样本集合,与原来的真实训练样本组合后作为新训练样本,其可被表示为
[0110] 本实施例首先采用信号采集及相应装置等手段获取数量有限的高维训练样本,接着采用偏最小二乘(PLS)算法、遗传算法(GA)、误差逆传播神经网络(BPNN)算法构建基于可行性的规划(FBP)模型;然后基于已知的真实训练样本的先验知识产生虚拟样本的输入;接着将PLS提取的虚拟样本潜在特征输入FBP并基于先验知识获得虚拟样本输出;最后将符合预设定规则的虚拟输入和输出组合后获得完整的虚拟样本。由此,实现了较为准确地生成可用于高维数据预测的虚拟样本生成。
[0111] 本实施例可以应用于磨机负荷参数软测量、柔性制造的虚拟样本生成、稀有病历预测模型构建等物理或化学过程。在应用于磨机负荷参数软测量时,所述高维向量训练样本的输入向量为磨机筒体的样本振动信号频谱和样本振声信号频谱。所述输出向量为磨机负荷参数。
[0112] 具体地,图3为应用本发明实施例的虚拟样本生成方法进行软测量的磨机系统以及配套的软测量系统的硬件结构示意图。如图3所示,两段式磨矿回路(GC)广泛的应用于选矿过程,在磨矿回路的第一端,通常包括顺序连接的料仓1、给矿机2、湿式预选机3、磨机4和泵池5。水力旋流器6连接在泵池5和湿式预选机3之间,使得较粗粒度的部分作为底流被返回磨机再磨。新给矿、新给水以及周期性的添加钢球,与水力旋流器的底流一起进入磨机4(通常为球磨机)。矿石在磨机4内被钢球冲击和磨剥为较细的颗粒,与磨机4内水混合得到的矿浆连续的流出磨机,进入泵池5。通过向泵池5内注入新水对矿浆进行稀释,并将这稀释的矿浆以一定的压力注入水力旋流器6,进而这些泵入水力旋流器的矿浆被分离为两部分:包含较粗粒度的部分作为底流进入磨机再磨;其余部分则进入二段磨矿(GC II)。
[0113] 同时,为了进行负荷参数的软测量,振动信号获取装置7和振声信号获取装置8分别与磨机4结合设置以获取振动信号和振声信号,数据处理装置9根据检测获得的振动信号和振声信号进行数据处理获得高维频谱构建软测量模型获取负荷参数。
[0114] 磨矿生产率(即磨矿产量)通常是通过最大化的优化循环负荷得到的,而循环负荷往往由GCI的负荷决定。磨机过负荷会导致磨机吐料、磨机出口物料的粒度变粗、磨机堵磨,甚至导致磨矿过程停产。磨机欠负荷会导致磨机空砸,造成能源浪费,增加钢球损耗,甚至磨机损坏。因此,磨机负荷是非常重要的参数。球磨机内部负荷参数的准确测量对于保证磨矿过程产品质量、生产效率,以及生产过程的安全性密切相关。工业现场中,领域专家多依靠多源信息和自身经验监视磨机负荷状态。基于磨机筒体振动信号和振声信号频谱的数据驱动软测量方法常用于克服专家推理磨机负荷带来的主观性和不稳定性。
[0115] 磨机负荷参数包括料球比(MBVR),矿浆浓度(PD)和充填率(CVR),这些参数与磨机负荷、磨机负荷状态相关。
[0116] 实际上,磨机内的钢球数以万计。这些钢球分层排列并且以不同的冲击力同时落下。这些不同频率和幅值的冲击力引起的振动相互叠加。磨机自身的质量不平衡和球磨机的安装偏置也可以引起磨机筒体振动。这些振动信号相互耦合,最终形成可测量的筒体振动信号。
[0117] 筒体振动的声辐射,即结构噪声,是振声信号的主要组成部分。由于磨机筒体是声学中的强反射面,磨机内部噪声连续反射进行形成混合声场,这些通过磨机筒体和磨机螺栓传输到磨机外部的部分称为空气噪声。测量得到的磨机研磨区域外部的振声信号还包含邻近磨机和其它设备的噪声。
[0118] 通过在预定的负荷条件下运行磨机,并对筒体振声以及振动信号进行检测,可以获得数量有限的真实样本。
[0119] 由于筒体振动和振声信号频谱与磨机负荷参数密切相关,因此对它们进行时频转换获得功率谱密度(PSD),由此,可以获得对应的高维输入向量。应理解,对振动和振声信号计算功率谱密度可以基于现有的各种技术或装置进行,在此不再赘述。基于上述真实样本可以基于本发明实施例的虚拟样本生成方法生成虚拟样本,并基于获得虚拟样本进一步构建磨机的软测量模型。基于该软测量模型可以对磨机的符合进行软测量。
[0120] 具体地,本实验在XMQL-420×450实验球磨机上进行。采用的钢球直径分别为30,20和15毫米。
[0121] 表1是四种不同的实验工况下的真实样本的分布表格。
[0122] 表1
[0123]
[0124] 在本实施例中,采用与输入向量相关的向量来筛选获取可插值的真实样本对。根据表1可知,作为实验条件的水负荷和料负荷(两者为元素的向量与输入向量振声信号和振动信号的频谱直接相关)中,有一项保持固定不变,另外一项变化的两个样本就可以构成可插值的真实样本对。如料负荷保持10Kg不变,水负荷从5Kg变化到15Kg的No.1和No.2之间可以生成水负荷5~10Kg间的多个虚拟样本。由此,虚拟样本的备选输入向量可以通过对如下真实样本的间隔进行插值获得,即No.1和No.2,No.2和No.3,No.4和No.5,No.5和No.6,No.7和No.8,No.8和No.9,No.10和No.11,No.11和No.12,和No.12和No.13。当NVSG=2,3,…,10时,虚拟样本的备选输入向量的数量则分别是9,18,…,81。
[0125] 由此,基于本发明实施例所述的虚拟样本生成方法可以生成对应的虚拟样本。
[0126] 图4为真实样本中作为输入向量的磨机的振动频谱、振声频谱和作为输出向量的磨矿浓度的曲线图。图5为潜变量数量设置为3且插值分段数设置为5时虚拟样本的振动频谱、振声频谱和磨矿浓度的曲线图。在实验中,取NVSG=2,3,4,5用于产生虚拟样本。如下参数被用于构建磨矿浓度(PD)的预测模型:种群数量(PGA)20,子模型选择阈值(λGA)0.05,潜变量数量h=1,...,5,神经网络子模型的隐含层神经源数量为2*h+1,并取预定阈值Ntimes=10。采用不同参数(NVSG,h)时的虚拟样本数量的数量如表2所示。
[0127] 采用新产生的虚拟训练样本和原有的真实样本结合构建矿浆浓度(PD)软测量模型。模型参数确定:潜变量个数(LV)的取值范围为1~5,种群数量为20,子模型选择阈值(λGA)0.05,BPNN算法中隐含节点的数量为输入变量的2倍再加1,默认训练步长为100。均方根相对误差(RMSRE)用于评估磨矿浓度(PD)软测量模型的预测性能。运行20次,采用不同数量虚拟样本的预测性能的统计结果如表2所示。
[0128] 表2
[0129]
[0130]
[0131] 同时,图6为采用不同潜变量数量时各虚拟样本的误差统计比较图。图7为采用不同潜变量数量时输入向量和输出向量数据方差变化率的比较图。
[0132] 表2和图6-图7表明:本发明实施例的虚拟样本生成方法在选择的预测性能受虚拟样本生成参数的影响比较大,其预测精度不弱于只采用真实样本建模的方法,但其在预测性能的波动范围(20次运行中的预测误差的最大与最小值之差)上优于非VSG方法;增加虚拟样本后,对输入数据方差变化率随着潜在变量个数的增加而增加,对输出数据则是在潜变量个数较小时增加。
[0133] 由此,本发明实施例实现了较为准确地生成可用于高维数据预测的虚拟样本。
[0134] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。