首页 / 一种基于社区原型的图对比学习方法

一种基于社区原型的图对比学习方法实质审查 发明

技术领域

[0001] 本发明属于计算机技术中的人工智能领域,尤其是人工智能中的数据挖掘与图表示学习领域。图表示学习旨在学习网络中错综复杂的结构信息与特征信息,帮助人们更好地建模和分析各种复杂的数据,并为决策提供支持。

相关背景技术

[0002] 图被广泛应用于连接数据的网络结构表示。图数据可以在社交系统、生态系统、生物网络、知识图谱、信息系统等应用领域中广泛地获取。随着人工智能技术的发展,图表示学习倍受关注。图表示学习可以学习网络中错综复杂的结构信息与特征信息,进而提升节点分类、链接预测等下游任务。
[0003] 现有的图表示学习方法集中在监督学习的场景,需要使用质量良好的人工标签来训练模型。这带来了几个缺点:首先,收集和标注人工标签的成本过高,特别是对于具有大规模数据集(如引文和社交网络)或对领域知识有高要求的研究领域(如化学和医学);其次,由于过拟合,纯粹的监督学习方案通常会出现泛化性差的问题,特别是在训练数据稀缺的情况下。针对上述问题,对比学习范式提供了一种可行的解决方法,其通过生成增强视图,对比正负样本来学习判别表示。在只有非语义标签的情况下,无监督的图对比学习可以为各种下游任务提供通用的节点表示,包括节点分类、链接预测和节点聚类。
[0004] 但现有方法大多只关注节点级的相似性,而忽略了图中固有的社区结构。社区结构在现实世界的图中普遍存在,例如,在引文网络中,论文是根据其主题进行分类的,同一主题社区内的论文往往通过引用边紧密连接,而不同主题的论文则松散连接。因此,我们认为同一社区内的节点在语义上是相似的,应该考虑社区信息来识别同一社区的节点对。

具体实施方式

[0013] 为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下:
[0014] 1、数据增强
[0015] 数据增强是对比学习的重要组成部分,它主要负责构建语义上相似的样本,影响着所学表征的质量。我们采用了两种图数据增强策略,来增强图中的属性和拓扑信息:随机选择部分节点特征维度,用0进行掩蔽;随机从原图中删除一定比例的边。两个增强视图分别记为
[0016] 2、图编码器
[0017] 为了使图编码器和社区检测器能够相互促进,我们选择了基于注意力机制的图注意力网络(GAT)作为基础编码器,同时将编码器中的注意力系数作为边权重,与社区检测结合。与前人对比学习相同,我们还应用一个简单的投影头(2层MLP),将表征映射到计算社区原型和对比损失的空间。
[0018] 3、社区检测
[0019] 使用标签传播算法(LPA)进行社区检测。LPA假设连接节点之间的标签倾向于相同,与图神经网络一样都是信息传递模型,同时LPA具有近乎线性的时间复杂度。我们将上述GAT中的注意力系数作为边权重,然后使用LPA对两个增强视图分别划分社区,计算同一社区中节点嵌入的均值作为社区原型。
[0020] 注意LPA需要获取节点的初始社区标签,与原始算法的随机初始化不同,我们使用K‑Means对节点嵌入进行聚类,作为初始社区标签,以减少随机误差。
[0021] 4、对比损失
[0022] 我们使用节点‑社区对比损失(ProtoNCE)和节点‑节点对比损失(InfoNCE)来优化模型:
[0023] a)节点‑社区对比损失。对于视图 及其包含的社区原型 将节点vi所在社区的原型 视为正样本,其它社区原型视为负样本,我们定义:
[0024]
[0025] 其中,s指余弦相似度,τ为温度系数。由于有两个视图,故节点‑社区对比损失为:
[0026]
[0027] b)节点‑节点对比损失。学习节点级信息,我们将同一节点的不同视图表示视为正样本,不同节点视为负样本:
[0028]
[0029] 对称地,节点‑节点对比损失为
[0030] c)总体损失。我们先仅使用节点‑节点对比损失预热模型,以获取更好的初始化社区标签,同时防止过拟合社区结构信息,然后使用两个损失共同优化:
[0031]
[0032] 5、下游任务
[0033] 在训练结束后,即可冻结模型参数,利用训练好的模型生成节点表示,用于各种下游任务,如节点分类、节点聚类等。

当前第1页 第1页 第2页 第3页