首页 / 基于差异性通信的分布式数据中台中智能标注方法及系统

基于差异性通信的分布式数据中台中智能标注方法及系统实质审查 发明

技术领域

[0001] 本发明属于智能标注技术领域,具体涉及基于差异性通信的分布式数据中台中智能标注方法及系统。

相关背景技术

[0002] 标签是数据中台的核心功能之一。在分布式数据中台中,存在一级二级两级中台。尽管智能标注的技术不断进步,但分布式中台分布式的智能标注,其一致性仍然是一个具有挑战性的问题,但尚未得到很好的研究。标签是数据中台的核心功能之一。依据分布式数据中台智能标注一致性的需求;针对因各二级数据中台中存在私有数据量大更新快等现象,其计算资源受限,通信开销大而导致的传输效率低等问题,提出基于差异性通信的分布式数据中台中智能标注方法及系统。

具体实施方式

[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0051] 实施例一
[0052] 如图1所示,基于差异性通信的分布式数据中台中智能标注方法,包括以下步骤:
[0053] 搭建分布式数据中台框架;分布式数据中台包括总数据中台和子数据中台;
[0054] 进一步的实施方式在于,搭建分布式数据中台框架应用云‑边‑端三层结构;
[0055] 云层由大型云服务器组成,具有丰富的计算资源和数据调度能力,作为总数据中台;
[0056] 边缘层由边缘服务器组成,作为子数据中台;
[0057] 端层由传感器和移动设备组成,分布广泛,数量众多,提供大量原始数据。
[0058] 在本发明的框架中,每一个子数据中台训练一个子公司的私有模型,并共享一部分数据作为共有数据,上传至总公司的数据中台。想要得到较准确地模型,仅通过此类少量的真实数据训练的模型的精准性和泛化性难以得到保证。因此,框架通过利用每一个二级中台中各子公司的私有模型和公有数据,但出于降低计算资源的考虑,各子中台不与邻居中台交换原始数据,只交换私有模型和公有数据。首先利用交互信息对二级中台内的数据进行填充,得到比较精准的已填充数据。从通信角度考虑,分布式数据中台中最大的问题就是各二级中台之间要不断进行数据共享,而这之间的计算资源以及通信开销很大,定时通信虽然可保证数据标签的一致性,但是易造成资源的浪费。因此,采用基于差异性通信的非定时通信进行各二级中台中的子公司之间进行信息交互,保证分布式子公司之间数据标注的一致性。
[0059] 所谓差异性通信,是指通常情况下各子公司之间通信是定时的,虽然规律,但在各模型之间的差异不大的情况下仍然进行信息交互,会导致计算资源的严重浪费,以及在带宽受限的情况下加大通信开销。因此,本发明选择利用公有数据做为设计标准,让各模型与之对比,其差异性达到一定指标时则进行信息交互,这种基于差异的非定时通信则可以在既保证分布式训练体系下各子公司智能标注的一致性原则,又可以减少通信开销,节约计算资源。
[0060] 将预测问题与节点分类结合,建立各个子数据中台的图卷积网络模型进行智能标注,将预设个数的标签作为节点,获得各个节点之间的连接关系;
[0061] 进一步的实施方式在于,将基于信誉值的可解释性分布式半监督特征相似性融合机制,融入图卷积网络模型,进行节点分类预测,获得各个节点之间的连接关系;其中,图卷积网络模型包括两层结构,一层将预设个数的节点作为输入;另一层将私有模型的参数作为输入。
[0062] 在本实施例中,用训练数据先训练出10个特征权重feature weight,同于表示输入部分,这10个特征权重feature weights组成一个特征图。每个输入权重都有所不同,训练数据通过结合不同比例的输入特征权重来训练单个公司的全局模型global model(私有模型)的global reputation,这可以解决模型种类饱和的问题。同时,由于空间信息通过卷积层被保留下来,因此,可以更新迭代时即可直接通过输入10个feature weight来产生模型映射。通过权值的不同比例来形成不同模型结构的特征图。但由于六个子公司的特征权重不同,节点之间的链接关系也不同而导致的特征图不尽相同,因此所得到的的训练模型并不准确。同时,各子公司之间存在信息的交互融合关系。因此,可以通过不同子公司之间模型的节点交互信息建立一个融合机制来提高训练模型的准确性与一致性。
[0063] 进一步的实施方式在于,进行节点分类预测的方法具体为:
[0064] 如图3所示,在图卷积网络模型的图数据中,节点n表示标签,边表示节点之间的关系;
[0065] 利用状态向量Xn,表示节点的状态,并将当前节点邻居的节点表示的度,规范化聚合在每一层中进行更新以及训练,获得捕获了与任务相关的特征和结构信息的节点表示;进一步的实施方式在于,计算节点包括四个部分:节点的特征向量、邻居节点的特征向量、邻居节点的状态向量以及边(与n相连)的特征向量。
[0066] 向训练好的图卷积网络模型中,输入捕获了与任务相关的特征和结构信息的节点表示的特征权值,通过解释输入的特征权值之间的节点关系解释图卷积网络模型,完成对节点的分类预测。GCN图卷积的意思就是对于某个点来说,这个点的卷积可以看成对该点邻居的加权求和。给定一个预先训练的模型和输入10个特征权值,本发明通过解释输入特征之间的节点关系来解释模型,Intuitively,the explanations应该为模型的预测以及标签的预测捕获特征,这样当将图像的解释提供给预先训练的模型时,它应该做出与原始图像的预测相同或相似的预测。
[0067] 图卷积网络模型预测输出为Pr,本发明同时考虑标注数据与未标注数据的预测,通过平均绝对值误差(MAE)来计算损失,作为最小化的损失函数:
[0068] 关于模型精确性,在本发明中,智能标注最终实现模型标注的精准,而分布式模型中,要求各子公司之间通过信息交互的非定时通信的方式,实现个子模型之间智能标注的一致性,从而使得全局模型标注更加精准。
[0069] 关于正则项,正则项的引入可以提高模型的泛化能力,使其在未见过的数据上表现更好。它可以有效地控制模型的复杂度,避免过拟合问题,并平衡模型的拟合能力和泛化能力。在本发明中纳入了正则化措施,以确保学习到的掩模保持稀疏,并具有更好的可解释性。
[0070] 如图4所示,求出各本地模型(二级中台)自己的reputation(类似于权重),然后1‑6个子公司最终形成一个全局模型的reputation。
[0071] 关于平滑项,首先,过度平滑表现为节点嵌入之间的相似性。学习嵌入的目标是最后将它们提供给分类器,以预测它们的标签。考虑到这种过度平滑的效果,最终会为没有相同标签的节点得到类似的嵌入,这将导致错误标记它们。由于卷积就是一种聚合预算,当卷积核取特定值的时候,就是一种平滑运算。由于参数共享对于卷积运算来讲是至关重要,同时,由于graph上每个顶点的度都不一样,因此参数共享在GCN中就更尤为重要了。经过研究调查发现,过平滑问题产生的原因归根结底的卷积核的问题,可通过修改卷积核正则化的方法解决高次幂运算的问题,也可以通过把底层的结果保留,共同拼接成特征,从而缓解过平滑问题,即通过在不同邻居尺度下进行卷积,再融合所有尺度的卷积结果得到节点的特征表示。
[0072] 基于各个子数据中台的私有数据,建立私有模型,获取公有数据训练私有模型,并基于各个节点之间的连接关系,通过判断私有模型的特征矩阵相似性进行节点交互;其中,节点交互的是私有模型参数;私有数据是指只有本地局部(二级中台)数据中台有的数据,在本地进行训练模型的数据。
[0073] 进一步的实施方式在于,运用最小哈希判断特征矩阵相似性,具体方法为:
[0074] 建立私有模型特征矩阵,对特征矩阵进行重排,获得最小哈希值构成的最小哈希签名;
[0075] 基于最小哈希签名,获得最小哈希签名矩阵;
[0076] 基于最小哈希签名矩阵,获得特征矩阵相似性。
[0077] 对比公有数据以及训练好的私有模型并进行差异性分析,获得节点交互时间,完成基于差异性通信的分布式数据中台的智能标注。
[0078] 实施例二
[0079] 具体的,信息交互条件确定的过程如下:
[0080] 在本实施例中,针对子公司收集的私有数据与私有模型具有局部相关性,并具有空间范围。为了实现模型感知和提高数据相关性,在模型间进行数据共享的过程中,在信誉计算时考虑了模型相似性。模型相似度越高,意味着来自数据提供者的数据共享越相关,从而导致高质量、更准确、更可靠的数据共享。子公司的信誉值reputation={attention、parameter、MAE},reputation中的相应系数的权值为ψ1、ψ2、ψ3,其中ψ1+ψ2+ψ3=1。针对于子公司1而言,子公司与之前时刻状态下自身模型的相似度为:
[0081] SIM(L1,J1)=1‑DISS=reputation1,
[0082] 其中,L1代表子公司1,J1代表子公司之前时刻状态;
[0083] 1)attention1(注意力):根据私有数据形成的10个特征权重,即相当于10个节点之间的连接方式形成的拓扑结构,从而生成attention,attention越高,reputation越好。
[0084] 2)parameter1(参数):由子公司1的私有数据训练出来的私有模型参数,参数越高,reputation越好。
[0085] 3)将验证集的数据代入到训练出来的私有模型中去,求出的差异值MAE11,;因此,DISS(L1,J1)是子公司1与之前状态的归一化差异,定义为:
[0086] DISS(L1,J1)=ψ1*attention1+ψ2*parameter1+ψ3*MAE11,=reputation1[0087] 现在reputation2由以下几个部分构成:
[0088] 1)私有数据1代入私有模型2→求出来的私有数据的MAEd12
[0089] 2)公有数据1与公有数据2之间的MMD1&2
[0090] 3)parameter1和parameter2之间的差异性MAEp1&2
[0091] 同理,由子公司1与子公司2之间的相似度SIM(L1,J2)=1‑DISS(L1,J2)
[0092] 因此,DISS(L1,J2)是子公司1与子公司2的归一化差异,定义为:DISS(L1,J2)=ψ1*MAEd12+ψ2*MMD 1&2+ψ3*MAEp1&2=reputation2
[0093] 同理,现在reputation6由以下几个部分构成:
[0094] 1)私有数据1代入私有模型6→求出来的MAEd16
[0095] 2)公有数据1与公有数据6之间的MMD1&6
[0096] 3)parameter1和parameter6之间的差异性MAEp16
[0097] 4)因此,DISS(L1,J6)是子公司1与子公司6的归一化差异,定义为:
[0098] DISS(L1,J6)=ψ1*MAEd16+ψ2*MMD1&6+ψ3*MAEp16
[0099] 各子公司与公司1交互推荐信息。因此,将来自不同子公司(相邻节点)的主观意见整合到一个意见全局模型中,根据每个意见的权重命名为子公司的全局模型。
[0100]
[0101] 对于子公司1,最终final reputation为:
[0102] Global1*finalrep1=reputation1*mod1+reputation2*mod2+...+rep6*mod6[0103]
[0104] 因各子公司之间融合交互的过程中,私有数据是在不断更新变化的,由私有数据训练出来的私有模型也是不断变化的,reputation既受t时刻影响,同时也受公有数据的影响,因此,在计算reputation值时,既要求出各私有模型之间的差异值,公有数据之间的差异值,还要将自己的私有数据代入到其他交互的子公司的私有模型中进行检测,得出的差异值,最终联合形成全局的信誉值。此方法的提出,充分地考虑了对于的reputation的各方面影响因素,使得所求的reputation值更有说服力,模型之间的融合效果更好,最终各分公司的标注的一致性更好。
[0105] 如图2所示,二级中台之间进行信息比对,就是根据几个参考的量,MAE和MMD等,评估两个本地模型之间的误差,误差达到5%,就进行信息交互,而这个误差的比对,就是根据选取一部分训练得比较好的数据作为公有数据,然后进行比对。
[0106] 对于六个子公司,第t时刻:
[0107] 第一行都是私有数据model
[0108] 第二行都是公有数据data(前两行构建的global‑model)
[0109] 第三行就是第t时刻的私有数据data
[0110] 现在第t+n时刻,此时对于子公司1有的就是私有模型1‑6(只知道的是第t时刻交互完的信息,并判断下一个时刻何时进行交互,即判断n等于多少才来更新)公有数据1‑6,以及自己1的私有数据。
[0111] 信息交互条件:
[0112] 第t+1时刻,现在公司1的私有data更新了,自己的公有数据也更新了(只是不交互),私有模型也更新了,此时reputation1也更新了,(因为是把私有数据代入到别人的私有model里面算的MAE(平均绝对误差),还有自己公司1的私有model和别人的私有model来算minhash算差异度,还有自己的公有数据与别人公有数据的MMD(最大平均误差),因此自己的reputation是实时更新的。只不过不交互,现在就是要判断reputation改变多少才进行交互。)——判断何时交互的条件。
[0113] 利用MMD最大平均误差(Maximum Mean Median Discrepancy)和MAE平均绝对误差(MeanAbsolute Error)衡量两个二级中台。
[0114]
[0115]
[0116]
[0117] 本发明利用预测精度来量化训练好的局部模型的性能。更具体地说,在训练过程中的分类中,准确性用正确分类记录的分数来表示。而在回归任务中,准确性是通过平均绝对误差(MAE)来衡量的。
[0118] 其中,yi为模型mi的预测值,xi为记录的真实值。模型mi的MAE越低,mi的精度就越高。
[0119] fi为衡量模型好坏的量化公式。第一项 是精度模型精度,也称为模型精度,表示预测模型能够正确地将实例分配给它们各自的类的能力。它量化了模型的预测和真实值之间的接近性。精度越高,表示模型的预测精度越高,而精度越低,意味着可靠性越低。第二项 是正则化项,这个术语通常附加在损失函数中,并直接与模型参数相连。
它的主要目标是减少过拟合,当一个模型在训练数据上表现出良好的性能,但在测试数据上表现出不佳的结果时,就会出现过拟合。经常采用的正则化技术包括L1正则化和L2正则化,分别利用L1范数和L2范数,对模型参数进行惩罚。L1正则化通过鼓励某些模型参数达到零来促进特征选择,而L2正则化通过驱动模型参数接近于零来降低模型的复杂性。正则化项的最优选择和微调应该基于手头的特定问题和数据集的特征。为了保证稀疏性和提高可解释性,本发明集成了正则化测量。第三项 平滑度。过度平滑的问题会通过观察到的节点嵌入之间的相似性来表现出来。嵌入学习的最终目标是利用它们进行分类任务来预测标签。然而,这种过度平滑的现象会导致对不共享相同标签的节点生成类似的嵌入,从而导致错误分类。由于卷积本质上涉及聚合,当卷积核假设特定的值时,它会产生平滑效果。
鉴于参数共享在卷积操作中起着关键作用,在图卷积网络(GCN)的框架内,由于图中顶点度的变化,其重要性变得更加明显。
[0120] 此时的reputationt+1可以加一个与原来的reputationt的差异度判断。可不可以就是一个是1子公司与原来的比的差异性,2是和reputation2的差异性,3是和reputation3之间的差异性。
[0121] Δ=Δreputation1(t+1)与reputation1t+Δreputation2t与reputationt+Δreputation3t与reputation1t。
[0122] 实施例三
[0123] 利用本发明技术方案的实验过程:
[0124] 获取数据集:NGSIM(下一代模拟)数据集是由FHWA收集的美国高速公路交通数据,其中包括在US101、I‑80和I‑80道路上行驶一段时间内的所有车辆的驾驶状况。数据通过摄像机获取,然后逐个处理成轨迹点。本发明实施例选择了三个著名的轨迹预测数据集:NGSIM I‑80、US‑101和阿波罗景观轨迹数据集。
[0125] 数据处理:首先将数据集划分好10份,举例把n个子公司(本地模型)设定为10个本地模型(二级中台),记录时间t时刻,各个数据集之间的差异性,这个差异性用前面attention为主的reputation来看。
[0126] 把Global‑parameter分别带入到子网络中的P1(parameter1,就是私有模型1训练出来的参数),而P2还是用自己的本地数据做优化→P2’,这个P2’肯定比前面P2预测的精度要高,因为是融合之后的。可以看出本发明实验方法的可行性。本发明提出的基于声誉的融合机制确实可以提高模型智能标注的精度。如图5所示。
[0127] 如图6所示,损失函数随迭代次数的增多不断下降,最终趋于平稳。
[0128] 图7是在分布式场景中的定时通信的一致性结果图。从图中可以得出结论,需要5次更新,一致性概率结果不高,不满足不小于95的条件。
[0129] 图8是融合后,即子公司之间的信息交互,使一致性可保持在95%以上,定时通信仅更新4次,均满足95%以上的一致性条件,提高一致性精度,减少更新时间,减少计算开销。
[0130] 图9为4个数据集分别对比之后的更新次数与迭代关系,可见,这四个数据集在既保证准确性一致性达到95%以上,又可以减少信息交互次数,减少了计算通信开销。令人惊喜的是,第四个竟然减少到3次。即在本发明设计的架构模型里面进行训练,通过用本发明的技术方案发现,不仅灵活地进行了信息交互,实现了在差异度达到5%再训练的同时,尤其第4个子公司,只要交互3次就可以既实现基于差异性的非定时信息交互,又减少了交互次数,节约了带宽资源,减少了计算开销。
[0131] 在图10中可以看出,与图9的交互的总次数以及何时交互的迭代次数是相对应的,图(a)、图(b)、图(c)、图(d)为四个二级中台交互迭代次数与损失度的关系曲线图,例如,图(a)中在第4次迭代时,进行信息交互,与图9中的标记“+”的第一次是对应的,以此类推。同时,可以发现,随着训次数的增加,模型不断完善,在图(d)中可以发现,第4次实验中,仅需交互3次即可达到实验效果,较好地节约了计算资源与通信开销,提高数据利用价值。
[0132] 如图11所示,通过对比实验可以看出,不同数据集训练出来的结果均呈现上升趋势,其他数据集训练出来的结果均趋于一致,本文提出的方法明显优于其他方法训练出来的结果,不仅达到了分布式数据中台标注训练一致性高于95%的结果,还比预期结果更好,证明了本论文方法的可行性。
[0133] 实施例四
[0134] 本发明还提供基于差异性通信的分布式数据中台中智能标注系统,用于实现智能标注方法,包括:
[0135] 数据中台框架搭建模块,用于搭建分布式数据中台框架;分布式数据中台包括总数据中台和子数据中台;
[0136] 图卷积模块,用于建立各个子数据中台的图卷积网络模型进行智能标注,将预设个数的标签作为节点,获得各个节点之间的连接关系;
[0137] 私有模型构建模块,用于基于各个子数据中台的私有数据,建立私有模型,获取公有数据训练私有模型,并基于各个节点之间的连接关系,通过判断私有模型的特征矩阵相似性进行节点交互;其中,节点交互的是私有模型参数;
[0138] 差异性分析模块,用于对比公有数据以及训练好的私有模型并进行差异性分析,获得节点交互时间,完成基于差异性通信的分布式数据中台的智能标注。
[0139] 以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

当前第1页 第1页 第2页 第3页