首页 / 跨平台的用户身份对齐的处理方法、装置、设备及介质

跨平台的用户身份对齐的处理方法、装置、设备及介质公开 发明

技术领域

[0001] 本申请属于计算机技术领域,尤其涉及一种跨平台的用户身份对齐的处理方法、装置、设备及介质。

相关背景技术

[0002] 随着社交网络技术的快速发展和在线社交平台的多样化,用户在不同社交网络平台上的身份信息呈现出爆炸性的增长。这些信息蕴含了丰富的用户行为和社交互动数据,对于用户行为分析、个性化内容推荐、网络安全管理等方面具有重要的价值。然而,由于不同平台之间数据隔离、用户隐私保护等因素,用户在不同网络中的身份数据往往难以获取,这极大地限制了对用户跨平台行为模式的全面理解和有效利用。
[0003] 现有的用户身份对齐方法大多局限于单一维度的属性匹配分析或局部网络结构挖掘,未能充分利用用户在社交网络中表现出的多维特性以及用户属性、内容和社交关系之间的复杂联系。与此同时,传统的机器学习方法在处理此类高维度、异构性强且包含丰富社交信息的数据时,往往难以有效捕捉深层次的用户特征和全局社交语境。如何能够综合处理深层次的用户特征和全局社交语境,进而对用户跨平台身份进行识别,是目前急需解决的问题。

具体实施方式

[0059] 为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0060] 本申请一实施例提供一种跨平台的用户身份对齐的处理方法,用于对用户身份进行对齐。本实施例的执行主体为跨平台的用户身份对齐的处理装置,设置在终端设备上,例如,终端设备至少包括计算机终端等。
[0061] 参照图1,示出了本申请的一种跨平台的用户身份对齐的处理方法实施例的步骤流程图,该方法具体可以包括如下步骤:
[0062] S101、获取不同平台的多个用户的用户行为数据;
[0063] 具体地,终端设备通过各个接口获取不同平台用户行为数据。
[0064] S102、根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;
[0065] 具体地,终端设备获取不同平台样本用户数据,并将样本用户数据输入到初始训练模型中,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合,通过不断地对初始训练模型进行训练,得到身份对齐模型,该身份对齐模型用于判断不同平台的用户数据是否来自同一用户。
[0066] S103、根据身份信息,确定多个用户的对齐信息。
[0067] 本申请实施例中基于BERTopic和BiLSTM捕获节点和节点间的深层特征信息,不仅能够捕捉用户在不同社交平台间的复杂关系,还能学习到用户属性、内容和社交行为之间的内在联系,从而显著提高了用户身份对齐的准确性和效率,利用GNN和BERT的优势,有效解决了用户身份对齐的问题,增强了对用户跨平台行为特性的捕捉能力,成功实现了对用户身份的精确对齐,不仅提高了用户身份识别的准确性,而且能更好地理解和挖掘用户在社交网络中的复杂行为模式,从而在实际应用中,如个性化推荐、广告定向、网络安全等领域,显著提升了服务的个性化水平和安全性。
[0068] 本申请实施例提供的跨平台的用户身份对齐的处理方法,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0069] 本申请又一实施例对上述实施例提供的跨平台的用户身份对齐的处理方法做进一步补充说明。
[0070] 图2为本申请一实施例提供的一种基于异质图神经网络的跨平台用户身份对齐方法的流程示意图,如图2所示,包括:
[0071] S11:数据采集与预处理:通过接口收集来自不同平台的用户数据,对数据进行清洗、去除噪声并标准化格式,构建用户异质信息数据集并划分为训练集和测试集;
[0072] S12:用户属性嵌入提取:基于BERT和BiLSTM对用户的多种异质信息进行编码,以统一方式提取用户属性的嵌入表示;
[0073] S13:用户属性增强和统一嵌入表示:利用BERTopic模型提取用户的文字风格和兴趣,将这些深层特征融入到异质图中,通过GAT(图注意力网络)对用户异质类型信息节点进行自适应权重聚合,以获得统一的用户嵌入表示;
[0074] S14:用户身份对齐:基于MLP模型,输入两个不同平台中的用户嵌入表示,预测它们是否属于同一个用户;
[0075] S15:模型性能评估:评估模型在用户对齐任务上的性能,采用多种评估指标来验证模型的对齐准确性。
[0076] 可选地,身份对齐模型通过如下方式获得:
[0077] 获取不同平台的样本用户数据;
[0078] 具体地,通过接口收集来自不同平台的用户数据,对数据进行清洗、去除噪声并标准化格式,构建用户异质信息数据集并划分为训练集和测试集;
[0079] 根据样本用户数据,确定用户异质信息数据集;
[0080] 基于深度学习网络模型对用户异质信息数据集中的异质信息进行编码,得到异质信息的嵌入向量,其中,异质信息的嵌入向量至少包括文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量;
[0081] 根据异质信息的嵌入向量构建异质图;
[0082] 对异质图中各个用户异质类型信息节点信息进行自适应权重聚合,得到模型输入向量;
[0083] 将不同平台的用户的模型输入向量,分别输入到多层感知器模型中,得到与不同平台的用户的模型输入向量对应的输出结果;
[0084] 根据与不同平台的用户的模型输入向量对应的输出结果,确定不同平台的样本用户数据是否来自同一用户,接收来自数据获取模块的用户异质信息数据,并利用异质图神经网络架构将用户身份对齐。
[0085] 利用预先定义的评估指标对用户身份对齐的结果进行评估和改进,对用户对齐的效果进行客观的评估,确保用户身份对齐结果的准确性和可靠性。
[0086] 可选地,基于深度学习网络模型对用户异质信息数据集中的异质信息进行编码,得到异质信息的嵌入向量,包括:
[0087] 采用BERT模型对样本用户数据中的基础属性信息进行编码处理,得到文本属性的嵌入向量;其中,基础属性信息至少包括用户名和昵称;
[0088] 采用BERTopic模型对样本用户数据中的用户生成内容进行编码处理,得到内容嵌入向量,其中,内容嵌入向量至少包括主题信息嵌入向量和兴趣信息嵌入向量;对样本用户数据中的时间戳信息进行编码处理,得到时间信息嵌入向量;
[0089] 对文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量进行融合处理,得到多维的异质信息的嵌入向量。
[0090] 具体地,所述S12中用户属性嵌入提取步骤包括:
[0091] 构建文本属性嵌入模块:对用户的基本属性信息(如用户名、昵称、个人简介等)使用BERT模型进行编码,以获得深层次的语义表示;
[0092] 构建内容嵌入模块:对用户生成内容(如文本、图像)进行处理,其中文本内容通过BERT模型获取嵌入表示,图像内容通过预训练的CNN模型提取特征后,使用BERT进一步编码;
[0093] 其中:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的深度学习模型,可以在多种NLP任务中取得很好的效果。BERTopic是一种基于BERT的文本聚类工具,主要用于文本聚类和主题分类。它通过对文本进行编码,提取文本中的特征,然后对特征进行聚类,从而将相似的文本聚集在一起。BERTopic的主要优点在于其使用了BERT模型,该型在处理自然语言时具有很强的能力。BERT模型可以捕获文本中的上下文信息,并从中提取出重要的特征。此外,BERT模型还可以通过多任务学习的方式进行微调,使其更适合特定的文本聚类任务。在BERTopic中,文本首先被预处理成单词级别的向量表示。然后,使用BERT模型对这些向量进行编码,得到每个单词的上下文嵌入表示。这些表示被进一步处理成句子级别的向量表示,然后通过聚类算法对它们进行聚类。最后,通过对每个聚类进行分析,可以得到文本的主题分类结果。
[0094] 构建时间信息嵌入模块:对用户的时间戳信息(如注册时间、活动记录时间)进行标准化处理,并转换为适合模型输入的格式;
[0095] 构建序列化信息嵌入模块:利用BiLSTM模型处理序列化数据,例如用户的活动日志或时间序列数据,以捕获时间上的依赖关系;
[0096] 异质信息融合模块:将上述不同类型属性的嵌入表示进行融合,形成一个综合的用户属性嵌入向量,以全面反映用户的多维特征。
[0097] 图3为本发明实施例提供的一种基于异质图神经网络的跨平台用户属性嵌入提取的流程示意图,具体包括:
[0098] S21、构建文本属性嵌入模块:对用户的基本属性信息(如用户名、昵称、个人简介等)使用BERT模型进行编码,以获得深层次的语义表示;
[0099] 考虑到同时存在用户名、昵称这些短文本属性和推文文本这个长文本属性,因此模型按照MaxPooling法来提取文本特征。这样对于短文本属性来说,一般使用一个段就足够了,因此并不受拆分和Pooling法的影响。而对于推文这样的长文本来说,又能够通过拆分的方式输入到BERT模型中,再通过MaxPooling去聚合多个段的特征。如公式1所示,模型首先将过滤后的文本按照BERT指定的输入长度进行拆分得到texts,然后再把切分后的文本集合送入到BERT预训练模型中进行嵌入提取,再对文本段嵌入表示集合进行textMaxPooling,即可得到最终一个文本的嵌入表示e 。
[0100] etext=MaxPooling(BERT(texts))         (公式1)
[0101] S22、构建内容嵌入模块:对用户生成内容(如文本、图像)进行处理,其中文本内容通过BERT模型获取嵌入表示,图像内容通过预训练的CNN模型提取特征后,使用BERT进一步编码;
[0102] S23、构建时间信息嵌入模块:对用户的时间戳信息(如注册时间、活动记录时间)进行标准化处理,并转换为适合模型输入的格式;
[0103] 时间是社交网络平台中的关键信息,比如说用户的注册时间、用户的登录时间和推文的发布时间等。这些信息是用户特征中非常关键的因素,可以使用这些信息对其他特征进行加权,也可以作为一个特征嵌入统一进行处理。然而,不同社交网络平台中对时间的表示方式是不同的,有的社交网络平台使用Unix时间戳(Unixtimestamp)格式(如1675524522)、ISO 8601(International Organization for Standardization)格式(如
2023‑02‑04T15:28:42.178Z)、RFC 1123(Request For Comments)格式(如Sat,04Feb 2023 
15:28:42GMT)等。这些不统一格式的时间难以进行处理,格式不统一的时间属性也会导致最终不同平台之间嵌入不匹配,而且BERT预训练模型只能接受文本格式的时间,因此模型把时间都转化为统一的文本形式。首先,模型先将各个不同格式的时间转化为Unix时间戳,得到一个数值类型时间,再通过时间格式化操作,把数值类型时间转化为yyyy‑MM‑dd HH:
mm:ss格式的文本时间。然后再把统一格式的时间文本根据文本嵌入提取任务流程进行处time
理,得到最终时间的嵌入表示e 。
[0104] S24、构建序列化信息嵌入模块:利用BiLSTM模型处理序列化数据,例如用户的活动日志或时间序列数据,以捕获时间上的依赖关系;
[0105] S25、异质信息融合模块:将上述不同类型属性的嵌入表示进行融合,形成一个综合的用户属性嵌入向量,以全面反映用户的多维特征。可选地,根据异质信息的嵌入向量构建异质图,包括:
[0106] 将文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量作为节点,并将社交关系和内容关系之间的关系作为边,确定异质图。
[0107] 图3为本发明实施例提供的一种基于异质图神经网络的跨平台用户属性增强和统一嵌入表示的流程示意图;
[0108] S31、构建文本风格和兴趣提取模块:使用BERTopic模型对用户生成的文本内容进行主题建模,提取文本中的主题信息并将其转为嵌入向量;
[0109] 把语料和参数送入到BERTopic框架之后,得到主题模型TopicModel,该主题模型能够对每个输入文档doc输出一个topicText,也就是一个文本类型主题。
[0110] 在训练完主题模型TopicModel后,模型首先将对每个推文进行主题提取工作。也c就是把所有推文V里的文本送入到主题模型topicText中,得到所有推文的文本类型主题TopicModel,如公式2所示。
[0111] topicText=topicModel(getText(Vc))         (公式2)
[0112] 为了保持统一长度768的嵌入向量,模型通过主题索引器topicIndexer把每一个文本主题topicText转化为实数主题topicIndex,它的实现方式只是一个映射函数,把文本映射为一个实数。如公式3所示,每一个输入主题索引器的文本主题都会转化为一个[0,767]之间的实数。
[0113] topicIndex=TopicIndexer(topicText),topicIndex∈[0,767](公式3)[0114] S32、构建异质图模块:将用户的各种属性嵌入、风格嵌入和兴趣嵌入作为节点,通过社交关系和内容关系构建节点间的边,形成一个综合的异质图结构;
[0115] S33、构建GAT嵌入聚合模块:使用GAT模型对异质图中的节点进行自适应权重聚合,生成综合了多种信息的用户嵌入表示;
[0116] 通过上面的处理,已经把用户的各个属性转化为一个个特征向量,包括用户的画p c style interest像嵌入e、用户的推文列表嵌入e、用户的风格嵌入e 和用户的兴趣嵌入e 。不同的嵌入特征具有不同权重,因此模型在聚合这些特征的时候,需要为不同类型的特征分配不同权重。当前已有的模型,大多都通过给定一个平均的权重给每个特征,或者根据个人的比较主观的感觉赋予不同类型特征不同的权重,又或者根据一些统计或者经验赋予权重。这些做法都存在着一定的主观性,而且对于异质社交网络图这个存在许多类型特征的场景来说,这种手动分配权重的方式非常的繁琐,不利于新的特征加入。
[0117] 为了能够为不同的特征分配一个客观的权重,同时还能够避免手动为特征分配权重,模型采用了GAT模型去聚合这些异质类型的嵌入特征。GAT模型能够在聚合特征嵌入的时候,根据嵌入特征的重要性,为嵌入特征分配权重。因此我们最终得到的用户嵌入特征,是一个自适应权重的精确的嵌入,能够对用户进行精准的描述。为了能够使用GAT模型对用p c户的嵌入特征进行聚合,首先模型先将用户的画像嵌入e、用户的推文列表嵌入e、用户的style interest
风格嵌入e 和用户的兴趣嵌入e 建模到一张异质图里,并为嵌入节点之间的关系p c style
建立边,这里模型以用户的画像嵌入节点e作为中心节点,连接其他三个节点e 、e 和interest
e ,从而完成嵌入特征节点到异质图的转化。如公式4所示,本文使用g表示以用户为中p c style interest
心节点的异质社交网络图,其中包含了用户的嵌入特征节点e、e 和e 和e ,还有嵌p c p style p interest
入特征节点之间的边e→e、e→e 和e→e 。
[0118] g=({ep,ec,estyleeinterest},{ep→ec,ep→estyle,ep→einterest})(公式4)[0119] 然后,模型将基于用户嵌入特征的异质图g送入到GAT网络模型中,得到聚合了其他嵌入特征的用户嵌入列表,这里的嵌入包含每个嵌入特征节点的嵌入,模型只选取中心p U节点e的嵌入作为用户的最终嵌入表示。如公式5所示,e表示最终的用户嵌入表示,Get表p
示获取GAT所得到的最终e节点的嵌入表示。
[0120] eU=Get(GAT(g),ep)                 (公式5)
[0121] S34、特征融合与优化模块:对BERT、BiLSTM和BERTopic提取的特征进行融合,最终生成一个综合了用户多种异质信息的用户统一嵌入表示,该表示能够全面反映用户在社交网络中的行为和特征。
[0122] 可选地,对异质图中各个用户异质类型信息节点信息进行自适应权重聚合,得到模型输入向量,包括:
[0123] 基于图注意力模型,分别为各个文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量的节点设置对应的权重值;
[0124] 根据嵌入向量和对应的权重值,确定模型输入向量。
[0125] 具体地,所述S13中用户属性增强和统一嵌入表示步骤包括:
[0126] 构建文本风格和兴趣提取模块:使用BERTopic模型对用户生成的文本内容进行主题建模,提取文本中的主题信息并将其转为嵌入向量;
[0127] 构建异质图模块:将用户的各种属性嵌入、风格嵌入和兴趣嵌入作为节点,通过社交关系和内容关系构建节点间的边,形成一个综合的异质图结构;
[0128] 构建GAT嵌入聚合模块:使用GAT模型对异质图中的节点进行自适应权重聚合,生成综合了多种信息的用户嵌入表示;
[0129] 特征融合与优化模块:对BERT、BiLSTM和BERTopic提取的特征进行融合,最终生成一个综合了用户多种异质信息的用户统一嵌入表示,该表示能够全面反映用户在社交网络中的行为和特征。所述S15中用户身份对齐步骤包括:
[0130] 在完成用户统一嵌入表示后,利用训练好的MLP模型,输入两个平台中的用户统一嵌入表示作为特征;
[0131] MLP模型基于学习到的用户特征进行身份对齐预测,判断两个用户是否为同一个身份。
[0132] 本申请实施例还包括对模型性能优化的步骤:
[0133] 根据评估结果调整模型参数,包括但不限于GNN的层数、节点嵌入维度、时间嵌入向量的维度、BERT模型的层数和隐藏层大小、以及优化器的选择和学习率的动态调整策略等,用于提高模型在用户身份对齐任务上的整体性能。
[0134] 对对齐后的用户身份结果进行评估和改进,确保对齐结果的准确性和可靠性,该模块接收来自用户身份对齐模块的对齐后的用户身份数据,并利用预先定义的评估指标(包括准确率、F1分数、精确率、召回率等),对对齐效果进行客观的评估,这些指标可以帮助评估对齐结果与真实数据之间的差异和相似度。
[0135] 根据评估结果,效果评估模块还可以提出改进方法和建议,例如调整模型参数、重新训练模型或采用其他补全策略等,以进一步提升补全结果的质量和稳定性。
[0136] 本申请实施例通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,本申请实施例不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力,通过自动化的特征提取和权重分配机制,本申请实施例还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段,能够综合处理异构社交信息并有效识别用户跨平台身份的方法,以便更准确地模拟和预测用户行为,提升社交网络服务的个性化水平和数据挖掘的准确性。
[0137] 本申请实施例提供的跨平台的用户身份对齐的处理方法,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0138] 本申请另一实施例提供一种跨平台的用户身份对齐的处理装置,用于执行上述实施例提供的跨平台的用户身份对齐的处理方法。
[0139] 参照图5,示出了本申请的一种跨平台的用户身份对齐的处理装置实施例的结构框图,该装置具体可以包括如下模块:获取模块501、确定模块502和对齐模块503其中:
[0140] 获取模块501用于获取不同平台的多个用户的用户行为数据;
[0141] 确定模块502用于根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;
[0142] 对齐模块503用于根据身份信息,确定多个用户的对齐信息。
[0143] 本申请实施例提供的跨平台的用户身份对齐的处理装置,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0144] 本申请又一实施例对上述实施例提供的跨平台的用户身份对齐的处理装置做进一步补充说明。
[0145] 可选地,该装置还包括训练模块,训练模块用于:
[0146] 获取不同平台的样本用户数据;
[0147] 根据样本用户数据,确定用户异质信息数据集;
[0148] 基于深度学习网络模型对用户异质信息数据集中的异质信息进行编码,得到异质信息的嵌入向量,其中,异质信息的嵌入向量至少包括文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量;
[0149] 根据异质信息的嵌入向量构建异质图;
[0150] 对异质图中各个用户异质类型信息节点信息进行自适应权重聚合,得到模型输入向量;
[0151] 将不同平台的用户的模型输入向量,分别输入到多层感知器模型中,得到与不同平台的用户的模型输入向量对应的输出结果;
[0152] 根据与不同平台的用户的模型输入向量对应的输出结果,确定不同平台的样本用户数据是否来自同一用户。
[0153] 可选地,训练模块用于:
[0154] 采用BERT模型对样本用户数据中的基础属性信息进行编码处理,得到文本属性的嵌入向量;其中,基础属性信息至少包括用户名和昵称;
[0155] 采用BERTopic模型对样本用户数据中的用户生成内容进行编码处理,得到内容嵌入向量,其中,内容嵌入向量至少包括主题信息嵌入向量和兴趣信息嵌入向量;对样本用户数据中的时间戳信息进行编码处理,得到时间信息嵌入向量;
[0156] 对文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量进行融合处理,得到多维的异质信息的嵌入向量。
[0157] 可选地,训练模块用于:
[0158] 将文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量作为节点,并将社交关系和内容关系之间的关系作为边,确定异质图。
[0159] 可选地,训练模块用于:
[0160] 基于图注意力模型,分别为各个文本属性的嵌入向量、内容嵌入向量和时间信息嵌入向量的节点设置对应的权重值;
[0161] 根据嵌入向量和对应的权重值,确定模型输入向量。
[0162] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0163] 本申请实施例提供的跨平台的用户身份对齐的处理装置,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0164] 本申请再一实施例提供一种终端设备,用于执行上述实施例提供的跨平台的用户身份对齐的处理方法。
[0165] 图6是本申请的一种终端设备的结构示意图,如图6所示,该终端设备包括:至少一个处理器601和存储器602;
[0166] 存储器存储计算机程序;至少一个处理器执行存储器存储的计算机程序,以实现上述实施例提供的跨平台的用户身份对齐的处理方法。
[0167] 本实施例提供的终端设备,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0168] 本申请又一实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被执行时实现上述任一实施例提供的跨平台的用户身份对齐的处理方法。
[0169] 根据本实施例的计算机可读存储介质,通过获取不同平台的多个用户的用户行为数据;根据预先训练好的身份对齐模型,确定与用户行为数据对应的身份信息;其中,预先训练好的身份对齐模型是采用不同平台的样本用户数据和初始训练模型,得到异质信息的嵌入向量,并对异质信息的嵌入向量进行编码,得到编码结果,对编码结果进行自适应权重聚合得到的;根据身份信息,确定多个用户的对齐信息,通过构建异质图神经网络模型,综合考虑用户的多种异质信息,并利用深度学习技术对这些信息进行编码和融合,以实现更准确和高效的用户身份对齐,不仅提高了用户身份对齐的准确性,而且增强了模型对不同类型社交平台数据的适应性和泛化能力。通过自动化的特征提取和权重分配机制,本发明还显著提升了处理大规模社交网络数据的效率,为社交网络分析和用户身份管理提供了一种有效的技术手段。
[0170] 应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
[0171] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0172] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
[0173] 此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0174] 为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
[0175] 在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
[0176] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页 第1页 第2页 第3页