首页 / 一种基于情景建模和卷积神经网络的微博个性化推荐方法

一种基于情景建模和卷积神经网络的微博个性化推荐方法有效专利 发明

技术领域

[0001] 本发明涉及一种微博个性化推荐方法,具体涉及一种基于情景建模和卷积神经网络的微博个性化推荐方法,属于信息检索技术领域。

相关背景技术

[0002] 微博作为新兴的互联网社交平台,以其独特的实时性、开放性、互动性和便捷性为人们进行意见表达和信息交流提供了良好的媒介,已超越传统媒体成为新的信息聚集地,以极快的速度影响着社会的信息传播格局。
[0003] 目前,人们通过微博获取信息的方式主要分为以下几种:一是通过关注的好友发布的微博信息;二是通过微博平台的“热门话题”推荐的相关热点微博;三是通过微博的检索功能检索包含特定关键词的微博。以上信息获取方式都是面向所有微博用户进行推荐的,缺乏一种针对特定用户的个性化推荐功能。同时,由于微博数量巨大,为用户及时、有效的获取自己感兴趣的微博内容带来了极大的困难。因此,针对微博的个性化信息服务技术得到了国内外学者的广泛关注,成为了社会媒体领域研究的热点。
[0004] 个性化推荐通过采集系统中用户和物品的信息,采用一系列的计算模型,对用户的信息选择和决策提供支持。目前的个性化推荐算法主要分为基于协同过滤的推荐算法和基于内容的推荐算法。协同过滤的推荐算法(CollaborativeFiltering,CF)是最早的推荐模型,主要是从历史数据(如用户以前对物品的评分)中发现用户和物品的联系,构成评分矩阵,通过预测用户对未知物品的评分来进行个性化推荐的。在协同过滤的推荐算法的基础上,形成了另一种基于概率的共识模型(COnsensusModel,COM),通过研究群体活动的生成过程,根据群体中每个成员的行为特征,构建了基于组的推荐算法。为解决协同过滤算法中的数据稀疏问题,一种协同知识库嵌入(CollaborativeKnowledgeBaseEmbedding,CKE)的集成框架被开啊,采用堆叠的去噪自动编码器和卷积自动编码器提取物品的文本表示和视觉表示,并在两个不同实际运用情景中的实际数据集合上验证了算法的适用性。
[0005] 为了解决协同过滤的推荐算法中的推荐个性化不足的问题、冷启动的问题以及相似用户群的局限性问题,出现了基于内容的推荐模型。基于内容的推荐模型具有较强的可解释性,每个用户的推荐结果都是由其先前的行为而决定的,推荐结果个性化方面具有相当的优势;同时,在形成推荐结果时,直接比较候选推荐对象与用户兴趣模型的相似性,不存在冷启动的问题。但基于内容的推荐方法也存在着推荐多样性不足与用户兴趣随时间变化的不足。
[0006] 近年来学者们着力探索更有效的推荐技术,也对传统推荐算法进行了融合、改进。如把协同过滤算法与LDA主题模型相结合,构建LDA-MF和LDA_CF的混合协调过滤方法;将协同过滤算法和内容过滤算法相融合,提出一种融合协同过滤和内容过滤的混合推荐方法。
[0007] 同时,推荐算法并不是独立存在的,需要根据各种平台的特性进行优化的,学者们不断探索社交平台数据的特殊性,并研究适合微博数据的推荐算法。如通过研究真实的微博数据,分析微博信息和社区信息对推荐结果的影响,验证了社区信息对个性化推荐的重要性;通过修改传统协同过滤算法中的各阶段参数,在算法中加入社区信息的影响,验证了利用社区信息相似度修订的SNCF-RM有更好的推荐效率;根据标签关联和用户社交关系进行建模,用于识别用户的兴趣;设计了基于概率模型的协同过滤算法,分析tweet的文本内容和用户之间的交互关系,用于为用户推荐感兴趣的用户和微博。这些研究在推荐效率上都取得了一定的成功,但是由于微博环境的复杂性和微博数据的独特性,其推荐效果性能的提升空间还有很大。
[0008] 微博平台是一个错综复杂的社会环境,其信息的产生与交换都是存在特定的情景模式,对情景模式的有效捕捉,对于提升微博个性化推荐具有重要的意义。

具体实施方式

[0087] 为使本发明的目的、技术方案和有益效果更加清楚,下面将结合本发明实施例中及附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0088] 实施例
[0089] 本发明提供一种基于情景建模和卷积神经网络的微博个性化推荐方法,包括如下步骤:
[0090] S1,微博用户的情景建模;
[0091] 从时间和地域维度对用户发布、评论、转发、点赞的微博进行情景建模,提取微博用户关注的特定情景模式,采用微博语料库对用户的情景模式进行扩展,形成微博用户的个性化情景模式库;
[0092] S2,构建微博个性化推荐模型;
[0093] 采用卷积神经网络构建用户个性推荐模型,对微博系统中的热点微博进行个性化推荐。
[0094] 按照上述的一种基于情景建模和卷积神经网络的微博个性化推荐方法,其中,S1,微博用户的情景建模,按照如下的方法进行:
[0095] S11,提取情景模式;
[0096] S12,情景模式的泛化;
[0097] S13,构建用户个性化情景模式库。
[0098] 按照上述的一种基于情景建模和卷积神经网络的微博个性化推荐方法,其中,S11,提取情景模式按照如下方法进行:
[0099] S111:对微博文本进行分词预处理,若微博文本中存在时间词和地点词,则进行提取;
[0100] S112:提取微博的主题词及其权重;
[0101] S113:根据微博文本中的时间词和地点词进行情景模式的提取;
[0102] S114:提取微博发布的时间和地点;
[0103] 具体的,S112提取微博的主题词及其权重采用基于话题标签信息熵的TI-E算法。此算法不同传统的TF-IDF算法,根据主题相关词在微博文本中出现的频次和是否出现在微博的标签中,提取主题词和权重,其方法如式(1)所示:
[0104]
[0105] 其中,TIE(wij)表示词wi在微博j中的TI-E值,TI(wij)表示词语wi在微博j中的TF-IDF值,其计算方法如式(2)所示,TagE(wi)表示词wi的标签信息熵,其计算方法如式(3)所示。
[0106]
[0107]
[0108] 其中,|wij|表示词语wi在微博j内出现的频次,∑k|wkj|表示微博j中所有词数目之和,|D|表示微博语料库中所有微博数目,|{dj∶wi∈dj}|表示微博语料库中出现词wi的微博数目,|T(wi)|表示微博语料库中词wi出现在话题标签中的微博数目。
[0109] 通过计算微博文本中每个词语的TI-E值,获取微博文本的主题词语及其对应的权重,按照权重的大小,将每条微博表示为主题词及其权重的集合,即WeiBoi={t1∶w1,t2∶w2,…,tn∶wn},其中ti为主题词,wi为其对应的权重。
[0110] 具体的,S113,根据微博文本中的时间词和地点词进行情景模式的提取中,时间情景的提取方法如下:
[0111] 按照微博文本中的时间词及微博发布的时间,将时间按照每n小时一个时间段进行划分,取值分别为{0,n,2n,3n,…(24/n-1)n},构建时间情景提取模型如式(4)所示。
[0112]
[0113] 其中,WeiBoi为微博的主题词表示,time为微博发布的时间值。
[0114] 作为一种优选的方案,将时间按照每三小时作为一个时间段进行划分,取值分别为{0,3,6,9,12,15,18,21},构建时间情景提取模型如式(4)所示。
[0115] 地域情景的提取方法如下:
[0116] 按照微博文本中的地点词及微博发布的地点,将地点按照区域进行划分,其取值为区域的名称,构建地域情景模型如式(5)所示。
[0117]
[0118] 其中,WeiBoi为微博的主题词表示,location为微博发布的区域名称。
[0119] 作为一种优选的方式,将地点按照省份进行划分,其取值为省份的名称,构建地域情景提取模型如式(5)所示。
[0120] 按照上述的一种基于情景建模和卷积神经网络的微博个性化推荐方法,S12,情景模式的泛化按照如下的方法进行:
[0121] 从时间、地点、人物三个维度,将现有的情境模式泛化为一般的情境模式,实现对用户情景模型的泛化。
[0122] 泛化规则如下:
[0123] 人物:男/女→任意人
[0124] 地点:地铁/公交→交通工具→任意地点
[0125] 家→区→市→省→任意地点
[0126] 办公室→公司→任意地点
[0127] 时间:周一→工作日→任意时间
[0128] 那么情境s=(男士,地铁,周一)可以泛化为s1=(任意人,地铁,工作日)、s2=(男士,任意地点,工作日)或者s3=(男士,地铁,任意时间)。
[0129] 用户个性化情景模式库中包含的微博是与用户相关的微博,反映的是用户感兴趣的情景模式倾向,但是用户发布、评论、转发以及点赞的微博数目相较于微博库中的微博只是占到了很少的比例,如果仅仅采用这部分微博构建用户个性化情景模式库,作为用户个性化推荐的初始数据会存在严重的数据稀疏现象,为了进一步获取更多用户感兴趣的微博数据,需要在现有情景模式的基础上,借助于微博语料库,提取更多用户感兴趣的微博。
[0130] 基于此,S13,构建用户个性化情景模式库按照如下方式进行:
[0131] S131:爬取特定用户发布、评论、转发、点赞的微博,构建用户微博语料库;
[0132] S132:以特定的数目的微博用户为起点,爬取用户及其关注者和被关注者发布、评论、转发、点赞的微博,构建微博语料库;
[0133] S133:提取用户微博库和微博语料库中每一条微博的时间情景模式和地域情景模式;
[0134] S134:按照情景模式的值对微博语料库和用户微博库中的微博进行划分;
[0135] S135:计算对应情景模式值下的微博语料库中的微博与用户微博库中每一条微博的相似度值,如果最大的相似度大于某一阈值,则将该条微博加入用户个性化情景模式库。
[0136] 其中,相似度计算方法如下:
[0137] 微博语料库中微博和用户微博库中微博的情景模式分别表示为和,其中t为微博中对应的主题词,w为主题词的权值,s为对应情景模式的值,则和的相似度计算方法如下:
[0138] 微博语料库中微博Wc和用户微博库中微博Wu的情景模式分别表示为Wc={tc1∶wc1,tc2∶wc2,…,tcn∶wcn;sc}和Wu={tu1∶wu1,tu2∶wu2,…,tun∶wun;su},其中t为微博中对应的主题词,w为主题词的权值,s为对应情景模式的值,则Wc和Wu的相似度计算方法如下:
[0139] 任取i∈{1,2,…,n}计算词语tci和tui间的语义相似度,其语义相似度的计算采用Word2Vec[14]模型进行计算,其模型的构建将在后面实验部分进行介绍。然后,根据语义相似度的值将Wc和Wu的主题词分为n组,每组为Wc和Wu中主题词语义最相近的词,最后,采用式(6)计算每组主题词权重的加权平均和,其结果即为Wc和Wu的相似度值。
[0140]
[0141] 按照上述的一种基于情景建模和卷积神经网络的微博个性化推荐方法,S2,构建微博个性化推荐模型按照如下方法进行。
[0142] 在用户个性化微博库的基础上,引入卷积神经网络模型,采用情感分类的思想,构建微博个性化推荐模型。
[0143] 具体来说,将用户个性化微博库中的微博作为分类模型中的正例,从微博语料库中随机选取与正例数目等量的微博作为负例,组成用户微博个性化推荐模型的训练数据,通过模型的训练,学习用户感兴趣微博的情景模式倾向,构建用户微博个性化推荐模型。模型主要采用多通道的卷积神经进行特征提取,并采用池化层进行特征采样,并通过全连接层和Softmax层进行语义分类。
[0144] 具体的,包括以下步骤:
[0145] S21:采用多个通道的h×k的滤波器对输入词向量矩阵进行卷积操作;
[0146] S22:在池化层采用最大池化的策略,获取特征图中最重要的特征作为当前卷积操作的特征输出;
[0147] S23:将提取多种类型的特征,通过对各种类型的特征进行组合,输入到全连接层进行特征融合。
[0148] 具体的结构如图1的微博个性化推荐模型部分所示。
[0149] 具体的,关于S21:在卷积神经网络中,采用多个通道的h×k的滤波器对输入词向量矩阵进行卷积操作中,获取对应窗口内的局部特征,获取输入微博文本的特征图,其计算如公式(7)所示。
[0150] ci=f(w·Xi∶i+h-1+b)  (7)
[0151] 其中,ci代表提取的特征图中第i个特征值,f为卷积核函数, 为滤波器,h为滑动窗口大小,k为词向量的大小,b为偏置值,Xi∶i+h-1表示输入矩阵的第i行到第i+h-1行组成的局部特征矩阵。综合各个滑动窗口提取的特征即可得到输入的整体特征图C为公式(8)所示。
[0152] C=[c1,c2,…,cn-h+1]  (8)
[0153] 具体的,关于S22:在池化层采用最大池化的策略,获取特征图中最重要的特征作为当前卷积操作的特征输出如式(9)所示。
[0154]
[0155] 具体的,关于S23:将提取多种类型的特征,通过对各种类型的特征进行组合,输入到全连接层进行特征融合。由于本发明采用的是多通道的卷积神经网络,将提取多种类型的特征,通过对各种类型的特征进行组合,输入到全连接层进行特征融合。在融合特征的基础上,通过Softmax输出分类结果,输出的结果中的正例将作为用户个性化推荐的备选微博。
[0156] 得到备选微博后,按照S1的方法提取每条微博的时间情景模型和地域情景模型,采用S13的用户个性化微博库的构建方法,选取TopN的微博作为用户个性化推荐的微博。
[0157] 实验例:
[0158] 为了验证本发明的基于情景建模和卷积神经网络的微博个性化推荐方法的效果,进行如下的实验。
[0159] 实验方法
[0160] 为了构建微博语料库,采用开源的爬虫框架WebCollecter实现了一个微博爬虫程序,爬取新浪微博中的用户信息及其相关的微博数据。共爬取1261967名用户及其相关信息,182672450条微博数据,用户包括普通用户、知名人士、网络营销号、官方认证机构等,其发布的微博数量及其粉丝数与关注数非常不平衡,用户发布微博的变化区间为[3,17382],用户的粉丝数的变化区间为[12,12006518]。通过进行了一系列的微博文本预处理,如繁简转换、url替换、短小无意义微博的剔除等,最终构建了一个包含104 652 972条的微博语料库。微博语料库中的微博共包含词语3 334 763 247个,本实验用这些语料训练了一个Word2Vec模型,训练的过程中采用Skip-gram模型,其它相关参数均采用默认设置。经过训练,最终得到了一个包含850599个词的词向量,每个词的词向量的维数为200。
[0161] 实验结果
[0162] 由于目前还没有微博推荐方面的公共数据集,个性化推荐的结果也是因人而异的,其评测指标很难直接以准确率和召回率来评价,因此,采用平均绝对误差(Mean Absolute Error,MAE)和用户满意度(Average User Satisfaction,AUS)进行评价,参与评测的用户为邀请的志愿者,评测者在对模型毫不知情的情况下参与评测,其中MAE和AUS的计算方法如式(10)和式(11)所示:
[0163]
[0164]
[0165] 其中,m为参与评测的志愿者的数目,n为每个用户推荐的微博的数目,Sim(wi,wij)表示为用户i推荐的第j条微博与用户个性化微博库的相似度,其计算方法见第3.3节,feedbackij为用户i对推荐的第j条微博的反馈情况,反馈结果分为三个等级“不喜欢,无感,喜欢”,其取值为{-1,0,1}。
[0166] 在以上数据集和评测指标的基础上,本发明设计了如下几个实验:
[0167] (1)微博情景模式相似度阀值α的确定;
[0168] (2)本发明推荐模型的效果评估;
[0169] (3)时间情景模型和地域情景模型的对比。
[0170] 实验结果与分析
[0171] 微博情景模式相似度阀值的确定
[0172] 用户微博个性化微博库构建过程中,通过情景模式的相似度计算,对用户的感兴趣的微博进行了扩展,如果采用所有扩展的微博进行相似度阀值的确定,会给志愿者带来大量的反馈工作量,因此,仅从扩展的微博中随机挑选50条让用户进行评估。评估过程中采用AUS指标对用户的反馈情况进行评估。一般来说,相似度阀值α取值越大,AUS的值越大,但是,过大的阀值会导致扩展的微博数目越来越小,这就失去了进行微博扩展的意义,其表现为MAE的值越来越小。因此,需要通过AUS和MAE的变化趋势来寻找扩展数目和相似度阈值之间的平衡点。
[0173] 在实验过程中,相似度阀值α、MAE与AUS的关系如图2所示。
[0174] 从图2中我们可以看出,随着相似度阀值α的增大,MAE越来越小,AUS越来越大,在α=0.80时,MAE和AUS的变化趋于平缓,因此,选取0.80作为相似度阀值α的取值。
[0175] 推荐效果的性能评估
[0176] 为了验证本发明的有效性和先进性,在选定参数α=0.8时,选择融合标签关系与用户关系推荐算法(ILCAUSR))、基于社区发现的微博个性化推荐算法(RA-CD)、用户互动话题的微博推荐算法(IBCF)与本发明的基于情景建模和卷积神经网络的推荐模型(SM-CNN)进行对比,各个对比模型中的参数均采用论文中选择的最优参数,实验结果如表1所示。
[0177] 表1 不同模型的推荐效果对比
[0178]Model MAE AUS
ILCAUSR 0.3523 0.8043
RA-CD 0.3323 0.8567
IBCF 0.3242 0.8456
SM-CNN 0.3106 0.8842
[0179] 从表1中可以看出,无论在MAE指标还是AUS指标,本发明的SM-DL模型均达到了最优效果。本发明的SM-DL模型的优越性主要体现在几个方面:
[0180] (1)时间情景模型和地域情景模型的提取对于获取用户的兴趣倾向带来了很大的帮助。通过情景建模构建的用户个性化情景模式库充分涵盖了用户感兴趣微博的情景倾向。
[0181] (2)基于卷积神经网络的分类模型的引入也为推荐模型的性能提升带来了很大的贡献。卷积神经网络的分类模型研究的已经比较充分,技术相对比较成熟,对推荐性能的提升帮助很大。
[0182] 时间情景模型和地域情景模型的对比
[0183] 为了更进一步研究时间情景模型和地域情景模型对推荐效果的影响,本发明设置了三组对照实验,分别为基于时间情景模型的推荐、基于地域情景的推荐、基于时间情景和地域情景相结合的推荐,三者的实验效果如图3所示。
[0184] 图3时间情景模型和地域情景模型的对比
[0185] 从图3可以看出结合时间情景和地域情景的推荐效果最佳,同时基于时间情景模型的效果要好于基于地域情景模型。本发明认为原因主要有以下两个方面:一是用户在发布微博时,对于地点定位的标注不是很全面和具体,只是对其中的一部分微博进行了定位标注,很大一部分微博都缺乏具体的地域信息,使得很多微博都无法提取其地域情景模式;二是用户活动的地域一般比较固定,很少有人会频繁的更换地理位置,使得其地域情景模式中的地域值比较单一。以上两点为用户地域情景的提取带来了一定的障碍,也导致了基于地域情景的推荐效果不如基于时间情景的推荐效果。
[0186] 本发明提供的技术方案,不受上述实施例的限制,凡是利用本发明的结构和方式,经过变换和代换所形成的技术方案,都在本发明的保护范围内。

当前第1页 第1页 第2页 第3页
相关技术
建模相关技术
微博个性化相关技术
张仰森发明人的其他相关专利技术