首页 / 动态异质网络演化聚类分析方法

动态异质网络演化聚类分析方法无效专利 发明

技术领域

[0001] 本发明属于复杂网络领域,具体涉及一种动态异质网络演化聚类分析方法。

相关背景技术

[0002] 近年来,随着诸如社交网络、生物网络、书目网络等网络规模的不断扩大,研究人员从不同的角度对这些网络进行研究。这些网络有共同的属性,即它们包含不同类型的实体。与广泛研究的同构信息网络相比,异构网络包含了全面的结构信息和丰富的语义信息,为数据挖掘任务提供了新的机遇。与传统的聚类方法不同,动态异构信息网络考虑了不同对象的类型,对不同类型节点进行聚类分析,并分析其演化行为,使得分析结果更具有一般性。

具体实施方式

[0026] 下面结合附图和具体实施例对本发明技术方案作进一步详细描述,所描述的具体实施例仅对本发明进行解释说明,并不用以限制本发明。
[0027] 本发明通过构建书目网络演化聚类模型,对网络进行全面的分析。该技术主要应用于对某学科领域发展的梳理,在对书目网络进行分析时,可以按照下面的步骤进行:
[0028] 第一步:确定所需研究领域,获取期刊数据;
[0029] 第二步:提取研究字段,这里研究字段为作者、文献发表时间、发表所在期刊/会议、文献主题词;
[0030] 第三步:对获取的数据字段进行预处理,这个包括我们从论文的标题中提取其研究主题,消除无意义词以及常用词;
[0031] 第四步:根据节点之间的关系,构建动态异质网络,其中节点分别为作者、时间、期刊/会议、主题词,边为每个作者与论文之间的书写关系,论文与期刊/会议之间的发表关系,论文与每个术语之间的包含关系,通过构建的动态异构网络来分析网络中各类节点及其整个网络的演化模式;
[0032] 第五步:将网络划分时间片,在第一个时间步中,初始网络聚类数量k由经验确定,在其它时刻,将前一个时刻的聚类结果作为下一时刻的先验,保证聚类结果一致性;
[0033] 第六步:为每个聚类建立基于排序的概率生成模型 可以通过调整聚类中对象的类型来分解相应的概率,将P(o|ck)分解为P(o|T0,ck)与P(T0|ck)的乘积。其中P(T0|ck)可以使用表示为在我们构建的异构网络中,类型为T0的对象在聚类结果ck中的最大似然。P(o|T0,ck)可以使用简单的排序算法进行计算;
[0034] 第七步:为目标对象计算后验概率pt(ck|o),并且调整其聚类分配;
[0035] 第八步:迭代第六步和第七步,直到聚类结果不会发生变化;
[0036] 第九步:返回聚类结果;
[0037] 第十步:根据聚类结果,分析每个时间片上的成员聚类,并分析其网络演化。对每种节点类型分别进行分析,分析作者关系的聚类演化。
[0038] 以下详细描述本发明的实现过程:
[0039] 研究数据的获取和处理:本发明以书目网络数据为例,提取基因编辑与和合成生物期刊数据,进行网络建模分析。首先是数据获取,根据确定的研究领域在LetPub检索对应的期刊,确定该领域期刊列表,获取期刊数据。其次,进行数据处理,提取分析所需字段,分别为文献、作者、期刊、术语、发表年份。构建数据之间的对应关系,每篇文献与其发文的每个作者相对应,与发表所在的期刊相对应,与包含的每个术语相对应。对数据集中的每篇文献对象,提取其作者列表、期刊列表、文献题目列表、文献中术语列表,并构建数据之间的关系。基于此,构建的数据文件为author.txt、conf.txt、paper.txt、paper_author.txt、paper_conf.txt、paper_conf.txt、paper_year.txt、term.txt。对于提取的term.txt,删除无意义的词及常用词,并且进行单复数的合并操作。接下来,对于提取的字段进行建模分析。
[0040] 动态异质网络演化聚类:对于给定的数据,确定不同时刻的图的快照,在每个图上都包含多种类型的节点,我们找到连续时间快照中,网络的关联关系,从而确定网络的演化。这里定义GS为划分的图序列, 表示不同时刻的网络状态。对于任意时间片上的网络Gi(Ei,Vi,Wi),其中Ei表示时刻i不同类型的节点集合,Vi表示时刻i不同节点对应的连接关系,Wi表示时刻i不同连接边对应的权重。本文使用当前时间快照中获得的簇分布作为下一个聚类分析的先验,从而保证了时间的平滑,使得分析结果有更高的一致性。下面对算法进行一个详细的说明.
[0041] 第一步:在第一个时刻中,先验概率由经验来确定,可以根据对数据研究领域的了解,将数据初始化为k类,在其它时刻,先验概率为 表示前一时刻的网络中簇的划分。把前一时刻的聚类结果作为下一时刻的先验,保证了时间平滑性,提高网络聚类一致性,有利于网络演化的分析。
[0042] 第二步:为每个聚类建立基于排序的概率生成模型,即 可以通过调整相应聚类中对象的类型来分解相应的概率。这里可以将P(o|ck)分解为P(T0|ck)×P(o|T0,ck)。T0表示对象的类型。P(T0|ck)表示簇ck中包含类型T0的最大似然估计。P(o|T0,ck)可以基于简单排序的方法来进行估计。所以目标对象的生成概率为:
[0043]
[0044] 其中 为子网Gk的邻域对象集合,Tx表示对象x的类型。
[0045] 第三步:得到了网络簇的生成概率,下面可以为每个目标对象计算后验概率。给出网络的聚类c1,c2,...,ck。可以使用贝叶斯规则来得到每个目标对象的概率,定义如下:
[0046] p(ck|oi)∝p(oi|ck)×p(ck)
[0047] 其中p(oi|ck)是从聚类k中生成对象oi的概率,p(ck)表示聚类ck的相对大小,也就是说,所有的目标对象属于簇k的概率。为了得到每个聚类k的p(ck)的值,可以使用最大化对数似然方法,然后使用EM算法得到p(ck)的局部最优。公式定义如下:
[0048]
[0049] 使用EM算法得到p(ck)的值,其迭代规则如下:
[0050]
[0051] 由上式得到每个目标对象的后验概率,目标对象o可以使用向量的形式表示v0=(p(c1|o),p(c2|o),...,p(cK|o))。使用聚类对象的平均值作为聚类质心的向量,通过使用v0与质心之间的余弦相似度将对象重新分配给聚类。迭代第二步和第三步,直到聚类结果不会发生变化。此时可以返回每种类型对象的聚类结果。根据不同时间片上的聚类结果,对于网络在设定时间的演变过程。最后通过结合现有知识,分析产生聚类的原因,聚类的产生或者消失,进一步分析其演化模式,指导未来发展。
[0052] 尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

当前第1页 第1页 第2页 第3页
相关技术
动态异质相关技术
异质网络相关技术
戴维迪发明人的其他相关专利技术