首页 / 一种基于情景感知的文献推荐方法

一种基于情景感知的文献推荐方法实质审查 发明

技术领域

[0001] 本发明涉及一种文献实时推荐方法,具体涉及一种基于情景感知的文献推荐方法,属于大数据挖掘与应用技术领域。

相关背景技术

[0002] 互联网技术的飞速发展导致信息过载严重。推荐技术是解决该问题的常见且有效的技术手段,在新闻、社交等领域有着广泛、成熟的应用。
[0003] 近年来,随着文献数字资源的剧增,用户对文献资料的个性化推荐需求越来越强烈,国内外技术人员对此展开了许多研究。在应用研究领域,相关研究主要围绕基于内容推荐、协同过滤推荐及深度学习推荐等展开。其中,基于内容的文献推荐方法,是以文献内容特征为主要研究对象,通过计算用户与文献之间的相似度、文献与文献之间的相似度来发掘相似文献,推荐与用户兴趣相似的文献。无论分析论文之间的引证关系,作者之间的合作关系或是基于文章主题的推荐,都是以文章内容为基础进行特征提取、论文评分等。协同过滤系列算法主要围绕用户与用户之间的特征关系相似性展开,其在文献推荐中被广泛应用,通过计算用户与未交互过文献的相关性并筛选推荐。深度学习的方法可以用于分析文献的内容,包括标题、摘要和全文等,以提取文献的语义和主题特征。通过构建深度学习模型,可以根据用户的兴趣和历史行为,为用户推荐相关的文献。
[0004] 现有的文献推荐技术,大多是利用用户与文献之间的二元关系进行推荐,即:通过特征相似度计算来进行推荐,包括用户与文献之间、文献与文献之间、用户与用户之间的特征关系等,对已有静态用户行为数据进行粗粒度的分析,缺少对用户使用场景的关注,忽略了情境因素带给用户行为的影响,导致无法捕获用户的实时信息和真正需求,出现对用户兴趣理解偏差、信息茧房等多种问题。

具体实施方式

[0024] 下面结合附图对本发明做进一步详细说明。
[0025] 一种基于情景感知的文献推荐方法,构建基于情景刻画的用户动态兴趣模型。
[0026] 情景感知的基本思路是:对获取的情景信息进行描述和建模,了解用户的行为动机,主动推送相关内容。在文献检索应用场景下,本发明根据用户的基本行为模式,重点关注用户点击过程中表现出的对文献内容偏好,从用户点击行为特征中来识别用户所处情景,进行推荐。
[0027] 如图1所示,为本发明提出的基于用户检索行为序列的用户动态兴趣模型。
[0028] 首先,获取文献检索平台科研用户的行为日志,并对日志数据进行分析,得到用户的检索基本步骤,如图2所示。
[0029] 然后,对单个用户的会话流程按照检索的基本步骤进行切分,选择需要激活推荐的情景,并对情景进行定义和刻画。
[0030] 最后,利用擅于处理时序信息的深度学习循环神经网络来处理用户的时序信息,得到用户的兴趣,根据用户兴趣进行推荐。
[0031] 具体地,本方法包括以下步骤:
[0032] 步骤1:用户行为日志分析。
[0033] 在用户文献检索过程中,用户通常会在一个界面中顺序地与平台不同界面的多个模块进行交互,产生大量行为信息。因此,对用户检索行为进行分析,实际上就是分析用户在使用文献检索平台时通过检索行为表现出来的规律、个性化的习惯等,从中发现、挖掘出用户的潜在需求及兴趣。
[0034] 通过对大量的用户行为分析,将用户检索信息过程中的行为归纳为查询、导航和定位三类关键行为。其中,查询是指用户进入检索平台后,根据自己的意愿输入检索平台术语,或进行相应的点击,平台根据用户的输入或点击产生相应的结果集;导航是指用户在文献检索平台上进行一组检索后,平台返回相应的结果集,检索结果的首页只显示系统认为最相关的若干位文献,并提供翻页功能;定位是指用户在平台上点击某一特定文献,在检索返回的文献列表中查看文献详情,或在文献详情页面中点击某一特定参考文献。
[0035] 此外,文献检索平台提供的“购买添加”、转发、收藏、相关推荐等功能,也属于定位行为。其中,定位信息代表用户的兴趣和最终的目标。
[0036] 根据对用户检索行为进行分析,得到具体的用户检索步骤。如图2所示。
[0037] 步骤2:构建用户会话数据流。
[0038] 用户的检索信息,是指自用户进入平台到离开检索平台期间的信息。由于原始搜索日志中的数据是由多个点击信息串联起来的,因此,需要统计用户的顺序点击流,得到用户与具体信息所对应的点击关系。
[0039] 统计的用户顺序点击流如图3所示,可以看出,用户点击流总体包括以下步骤:
[0040] 首先采用日志的统一标识符sessionid对同一用户的每个具体行为进行匹配,并根据时间顺序串联出该用户当时的检索点击情况。对于串联后的用户的所有点击信息,按照时间进行排序,区分出其中的查询行为、导航行为和通过导航确定的定位行为,并根据时间顺序确定每次查询行为、导航行为与定位行为的先后顺序,最终将用户的点击流完整的生成出来。
[0041] 通过以上操作,还原出了用户检索流程,实现用户日志数据的第一步整理。提取出的部分用户完整行为序列,如图4所示。
[0042] 步骤3:提取出完整用户行为序列之后,获取得到会话流,根据会话流确定情景来获取用户兴趣。
[0043] 用户兴趣通过对用户在整个会话流中的主题体现出来。同时,同一会话中的主题有可能不同,会出现主题飘移的情况。因此,需要按照时间顺序对主题特征进行两两计算,得到前后两个内容特征记录的相似度。
[0044] 具体地,设定相应的相似度阈值来判断同一会话的前后两个内容特征记录是否为同一主题。如果前后相似度高于设定阈值,则判定前后行为属于同一主题;相反,若前后两个内容特征记录的相似度低于设定阈值,则判定前后行为并不属于同一主题,并在两个内容特征记录之间进行会话拆分,形成对应的单元会话。
[0045] 对所有的会话进行计算拆分后,最终形成主题相似的单元会话流数据集。其中,会话流根据不同情景进行切分,将不同的检索词进行相似性比较。例如,可以采用Distilled BERT模型进行相似性比较,该模型在一些自然语言处理任务上表现良好,它可以将每个单词映射到一个固定长度的向量,捕捉了单词之间的语义和上下文关系。基于Distilled BERT模型的单元会话切分伪代码如图5所示。
[0046] 步骤4:情景确定和刻画。
[0047] 确定会话流后,通过对获取的用户日志数据的分析,确定检索过程中的情景,触发后期的推荐。
[0048] 用户检索阶段,包括选择的检索方式、检索词、文献类型、作者、机构、关键词、主题词、出版时间、出处(期刊名词、年卷期)等信息,还包括用户点击查看过的具体文献信息,这些信息能够充分体现某一用户在当时检索用户的动态过程。
[0049] 因此,可以将用户日志中的数据维度归纳起来,分为以下情景:
[0050] 单元会话的唯一标识:通过用户信息中的会话(sessionid)id构造原始会话。单元会话即对原始会话进行主题转移切分之后的研究单元,此时赋予这个单元会话唯一的标识。
[0051] 行为的唯一标识:行为是指单元会话内部行为记录,每一条行为记录都对应有一个标识,并通过访问时间排序之后再进行简单赋值;
[0052] 行为类型:包括查询、导航和定位三种行为;
[0053] 内容特征:包括文献类型、检索词、逻辑组配符、匹配方式(精确或模糊)、检索字段;
[0054] 行为特征:用户行为中表现出来的内容偏好之外的特点对用户意图的挖掘是有意义的,这些特点统称为行为特征。例如,用户对排序的选择,相关度排序、时间降序、引文数量降序、NSTL Metric降序代表了四种不同的关注面:主题、新颖、经典、热门;
[0055] 专业度:指用户对自己的搜索意图是否明确。用户的查询行为有快速检索与高级检索。在情景刻画过程中,应根据检索方式的差异设定不同的权重参数,若同时存在两种检索方式,则选择最大强度来表示用户的行为意图;
[0056] 关注度:用户对当前页面的关注程度,可以通过页面停留时长来体现。当前页面停留时长,可用于判断来源页面操作的有效性。
[0057] 步骤5:构建多层循环图神经网络RGNN兴趣提取模型。
[0058] 确定检索情景并进行定义和刻画后,需要确定用户的检索兴趣。由于用户在点击浏览的过程中体现的是动态兴趣,用户的实时兴趣会发生变化,兴趣度也会相应的随之发生变化。因此,在文献推荐模型中,本发明通过用户动态兴趣来建立用户的动态兴趣模型,其能够实时表现出用户的偏好,也能够有效避免信息茧房问题的问题发生。
[0059] 具体地,采用能有效处理时序信息的循环图神经网络来获取用户的兴趣和偏好。从图6可以看出,将处理后的用户行为信息和会话流按照时序组成图的拓扑形式,其中,图的节点表示的是不同情景节点,节点之间的连线代表的是本次用户所涉及到的情景。将图的拓扑矩阵输入到循环图神经网络中推理得到用户的兴趣与偏好,即:对原始会话流数据进行词嵌入(Embedding),将经过嵌入层处理后的拓扑向量输入到RGNN层中,得到输入信息xt矩阵,进行门控循环单元计算,计算过程中,首先过重置门rt和更新门zt对原始数据进行线性处理,重置门中的Wr和Ur与更新门中的Wz和Uz是随机生成的初始权重矩阵。用上述权重矩阵,分别对输入信息xt和上一时刻隐藏状态ht‑1计算得到的矩阵进行线性变换。最终将用户的检索行为及所处情景共同输入到RGNN模型中,获取到用户在不同情景的用户的兴趣。
[0060] 步骤6:构建基于情景触发的图神经网络推荐模型。
[0061] 在文献推荐过程中,既需要考虑科研用户的兴趣偏好,也要考虑用户所处的情景。如何提取并分析这些信息的复杂特征并进行文献推荐,是本领域所要解决的一个重要问题。目前,图神经网络在个性化推荐领域已经显示出巨大的潜力,它可以通过图上的信息流来表达节点的相似性,但其缺点是算法复杂度高等。
[0062] 本方法在文献推荐过程,需要提取出科研用户的偏好特征和当前情景等许多复杂关系的特征,因此,采用图神经网络方法对其构建推荐模型,并针对其复杂度高等问题进行改进。基于改进的图神经网络的推荐模型,如图7所示。
[0063] 从图7看出,本方法提出的推荐模型包括拓扑图、拓扑关系矩阵、马尔可夫链采样、特征多层次降维与卷积、全连接和推荐输出。
[0064] 其中,拓扑图包括检索、定位和访问三种场景。不同的节点与关系联系在一起。将拓扑图输入到拓扑矩阵中后,利用Gibbs吉布斯采样算法实现各卷积层的节点采样,利用线性判别分析(LDA)多级降维进行特征约简和卷积,将得到的特征输入到全连通层,最后输出推荐结果。
[0065] 为避免直接推理的推荐原则,本发明通过归纳推理,对图神经网络进行改进。归纳演化如式1:
[0066]
[0067] l=0,1,…M‑1
[0068] 其中,L为卷积层的输出,m表示第几层,t表示时间,v表示顶点集合,H表示每一层的节点集合,A表示邻接矩阵;σ表示非线性转换,即激活函数;q表示中间层节点;l表示当前层,M是层数, 表示当前j节点所在最后一层, 表示j节点所在l层。
[0069] 获得的损失函数Lb如式2所示:
[0070]
[0071] 其中,L为卷积层的输出,M是顶点数, 表示i节点所在层数,g表示激活函数。
[0072] 通过对输入数据推导式1和式2,得到最终推荐结果。
[0073] 该推荐模型的步骤包括:
[0074] 步骤1:构建拓扑图。
[0075] 步骤2:构造拓扑关系矩阵。
[0076] 步骤3:基于Gibbs的采样。
[0077] 步骤4:多阶段特征降维与卷积。
[0078] 步骤5:获得用户意图特征并输出推荐结果。
[0079] 以图神经网络为代表的各种深度学习方法构建多层网络,在多个层次上表示推荐目标,并通过多个高层特征表示数据的词序特征。因此,在多层卷积过程中,为了避免对数据的高度依赖,需要增加数据维数。过高的数据维度会造成维度灾难,影响推荐性能。如何降维特征是深度学习研究中的重要问题之一。降维方法可以将多个不同的特征转化为几个综合标准。本方法通过多级降维并输出,具体采用基于线性判别分析(LDA)方法进行降维。
[0080] 首先对输入的拓扑矩阵进行一级降维,即对矩阵进行数据采样,求均值,并与其转置矩阵进行相乘等操作,获得降维后的特征并输入到卷积层进行卷积。对经卷积得到的特征再次进行二级降维,即进行采样、求均值及转置相乘。再将第二次降维后的特征输入到第二层卷积层进行卷积操作。依次类推,直至满足所设定的阈值。最后将得到的降维后的特征输入到全连接矩阵。

当前第1页 第1页 第2页 第3页
相关技术
感知文献相关技术
推荐方法相关技术
张晓丹发明人的其他相关专利技术