技术领域
[0001] 本发明涉及互联网技术领域,具体涉及一种基于内容相似性的新闻封面配图方法、装置、计算设备及计算机存储介质。
相关背景技术
[0002] 新闻是用于记录社会、传播信息、反映时代的一种文体。随着信息化技术的迅速发展,每时每刻都会产生大量的新闻。为了能够图文并茂、生动形象地表述新闻,会首先向用户呈现新闻的新闻封面,通常,新闻封面是最能代表整个新闻或最吸引人眼球的一张图片,合适的新闻封面能增加新闻的点击量和曝光量,对新闻的关注度与传播起着非常重要的作用。
[0003] 然而,现实生活中存在很多新闻是没有配置对应的新闻封面的,这将严重影响新闻的点击量和曝光量,不利于新闻的传播;并且,现有技术中新闻封面的配置主要是依靠新闻网站的编辑等工作人员的精心选择。在新闻媒体如此便利的今天,新闻的数量呈爆炸式增长,新闻封面的选择无疑要耗费编辑等工作人员大量的时间。因此,现有技术中缺少一种能够自动、精准地为新闻配置新闻封面的方法。
具体实施方式
[0023] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0024] 图1示出了根据本发明一个实施例的基于内容相似性的新闻封面配图方法的流程示意图,如图1所示,该方法包括如下步骤:
[0025] 步骤S101,提取待配图新闻的新闻标题和新闻内容,得到待配图新闻对应的新闻语料。
[0026] 其中,待配图新闻是指包含有新闻标题和新闻内容、但尚未配置有新闻封面的新闻。为了能够为待配图新闻配置合适的、与其内容相关的新闻封面,在步骤S101中需要提取待配图新闻的新闻标题和新闻内容,然后根据提取到的待配图新闻的新闻标题和新闻内容,得到待配图新闻对应的新闻语料。
[0027] 考虑到提取到的待配图新闻的新闻标题和新闻内容中包含有许多无实际含义、在其他新闻中也经常出现而不具区分能力的词,例如“的”、“在”、“了”等,那么在提取到待配图新闻的新闻标题和新闻内容之后,可依据预设过滤策略,对提取到的待配图新闻的新闻标题和新闻内容进行处理,得到待配图新闻对应的新闻语料。本领域技术人员可根据实际需要对预设过滤策略进行设置,此处不做具体限定。例如,预设过滤策略可包括停用词过滤策略、预设常用词过滤策略以及词频过滤策略等。依据预设过滤策略,对提取到的待配图新闻的新闻标题和新闻内容进行处理后,能够有效地去除待配图新闻的新闻标题和新闻内容中无实际含义、不具区分能力的词,所保留下的词能够用于体现新闻实质内容的关键词,则可利用保留下的词,得到待配图新闻对应的新闻语料。通过这种处理方式,能够有效地精简待配图新闻对应的新闻语料所包含的词的数量,有助于减少新闻语料处理过程中的数据处理量,提高处理新闻语料的处理效率。
[0028] 步骤S102,根据待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的第一词频数据,得到待配图新闻对应的词袋向量。
[0029] 在得到待配图新闻对应的新闻语料之后,统计待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的出现的次数,得到待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的词频数据,在本发明中,为了便于区分,将待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的词频数据称为第一词频数据。在得到第一词频数据之后,可利用预设加权模型,根据第一词频数据,得到待配图新闻对应的词袋向量。
[0030] 其中,词袋向量是一个高维的向量,待配图新闻对应的词袋向量的维度等于待配图新闻对应的新闻语料中的所有词的总数量,待配图新闻对应的词袋向量中的元素可以是待配图新闻对应的新闻语料中的各个词的词向量。在一种具体实施方式中,各个词的词向量可以包括各个词的词频-逆向文件频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)值等,此处不做具体限定。
[0031] 步骤S103,对待配图新闻对应的词袋向量进行主题分析,得到待配图新闻对应的主题向量。
[0032] 在得到待配图新闻对应的词袋向量之后,可利用经过训练的主题分析模型对待配图新闻对应的词袋向量进行主题分析,使得待配图新闻对应的词袋向量获得降维,得到待配图新闻对应的主题向量,主题向量是一个低维的向量。在一种具体实施方式中,经过训练的主题分析模型可以为潜在语义索引(Latent Semantic Indexing,简称LSI)模型等,此处不做具体限定。
[0033] 步骤S104,依据待配图新闻对应的主题向量,从新闻样本库中查找与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0034] 其中,新闻样本库中包括有大量的新闻样本,新闻样本是指用于作为样本的、包含有新闻标题和新闻内容并包含有新闻封面的新闻。预先对每个新闻样本进行了处理,得到每个新闻样本对应的主题向量。在步骤S104中,可从新闻样本库中查找主题向量与待配图新闻对应的主题向量最接近的新闻样本,为了提高新闻样本的查找速度,可利用速度比较高的Faiss库在GPU上进行新闻样本的高速查找。根据查找到的主题向量最接近的新闻样本,确定与待配图新闻相匹配的新闻样本。相匹配的新闻样本与待配图新闻在内容上存在较高的相似度,那么可将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面,从而便捷地实现了基于内容相似性的新闻封面的自动精准配置,使得所配置的新闻封面与待配图新闻在内容上具有较强的关联关系,能够准确地反映待配图新闻的内容。
[0035] 根据本实施例提供的基于内容相似性的新闻封面配图方法,通过对待配图新闻进行新闻标题和新闻内容的提取、词频数据处理以及主题分析等,能够便捷地得到待配图新闻对应的主题向量;依据待配图新闻对应的主题向量,能够快速地从新闻样本库中查找到与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面,实现了基于内容相似性的新闻封面的自动精准配置,提高了新闻封面的配置效率,所配置的新闻封面与待配图新闻在内容上具有较强的关联关系,能够准确地反映待配图新闻的内容。
[0036] 图2示出了根据本发明另一个实施例的基于内容相似性的新闻封面配图方法的流程示意图,如图2所示,该方法包括如下步骤:
[0037] 步骤S201,从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,得到每个新闻样本对应的新闻语料。
[0038] 其中,新闻样本库中包括有大量的新闻样本,新闻样本是指用于作为样本的、包含有新闻标题和新闻内容并包含有新闻封面的新闻。本领域技术人员可根据实际需要对新闻样本库中所包括的新闻样本的数量进行设置,此处不做具体限定。例如,新闻样本库中可包括有300万个新闻样本。
[0039] 从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,考虑到提取到的每个新闻样本的新闻标题和新闻内容中包含有许多无实际含义、在其他新闻中也经常出现而不具区分能力的词,在本发明中设置了包括有停用词过滤策略、预设常用词过滤策略以及词频过滤策略的预设过滤策略,依据预设过滤策略,对提取到的每个新闻样本的新闻标题和新闻内容进行处理,得到每个新闻样本对应的新闻语料。
[0040] 其中,针对新闻样本库中的每个新闻样本,筛除提取到的该新闻样本的新闻标题和新闻内容中所包含的停用词和预设常用词,得到该新闻样本对应的预处理语料,其中,停用词可包括“是”、“的”、“除了”等,本领域技术人员可根据实际需要对预设常用词所包括的词进行设置,例如,预设常用词可以为通过对大量的新闻中的词进行统计而得到的在50%的新闻中都会出现的词。
[0041] 在经过对停用词和预设常用词的筛除之后,所得到该新闻样本对应的预处理语料仍然包含有大量的词,为了进一步精简预处理语料,减少新闻语料处理过程中的数据处理量,还需依据词频过滤策略对该新闻样本对应的预处理语料中所包含的词进行进一步过滤处理。
[0042] 具体地,统计该预处理语料中的每个词在所有新闻样本对应的预处理语料中的出现的次数,计算得到该预处理语料中的每个词在所有新闻样本对应的预处理语料中的第三词频数据,在本发明中,为了便于区分,将预处理语料中的每个词在所有新闻样本对应的预处理语料中的词频数据称为第三词频数据。在得到第三词频数据之后,利用该预处理语料中所有的第三词频数据符合预设词频条件的词,得到该新闻样本对应的新闻语料。
[0043] 在一种具体实施方式中,可将预设词频条件设置为:在所有新闻样本对应的预处理语料中的所有词的第三词频数据中,该词的第三词频数据按照从高到低的顺序排名在前3万个的范围内。假设某个新闻样本对应的预处理语料中包含有5个词,分别为词1、词2、词
3、词4和词5,该预处理语料可表示为(词1,词2,词3,词4,词5)。若按照第三词频数据从高到低的顺序对所有新闻样本对应的预处理语料中的所有词进行排序,该预处理语料中只有词
1、词2和词3的第三词频数据排名在前3万个的范围内,说明该预处理语料中词1、词2和词3的第三词频数据符合预设词频条件,则利用词1、词2和词3得到该新闻样本对应的新闻语料,那么该新闻样本对应的新闻语料可表示为(词1、词2,词3)。
[0044] 步骤S202,利用所有新闻样本对应的新闻语料,构建新闻语料库。
[0045] 在得到每个新闻样本对应的新闻语料之后,将所有新闻样本对应的新闻语料进行汇总,构建得到新闻语料库,即新闻语料库包括有所有新闻样本对应的新闻语料。
[0046] 步骤S203,根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量。
[0047] 在得到每个新闻样本对应的新闻语料之后,统计每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的出现的次数,得到每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的词频数据,在本发明中,为了便于区分,将新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的词频数据称为第二词频数据。在计算得到每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据之后,就可根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量。
[0048] 在一种具体实施方式中,可利用TF-IDF模型对每个新闻样本对应的词袋向量进行计算,TF-IDF模型的原理是词的重要性与该词在其新闻语料中出现的次数成正比,与该词在新闻语料库中出现的次数成反比。基于TF-IDF模型,利用计算得到的各个词的TF-IDF值确定各个词的词向量,利用各个词的词向量确定词袋向量。各个词的TF-IDF值不仅会随着该词在该新闻样本对应的新闻语料中的第二词频数据成正比增加,同时也会随着该词在新闻语料库中的出现频率成反比下降。
[0049] 为了精准地计算每个新闻样本对应的词袋向量,除了需要确定每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,还需确定每个词的逆向频率数据。
[0050] 具体地,针对每个新闻样本对应的新闻语料中的每个词,利用新闻语料库中新闻语料总数量以及包含有该词的新闻语料的数量,计算得到该词的逆向频率数据,在实际应用中,可将新闻语料总数量除以包含有该词的新闻语料的数量,得到中间计算结果,然后对中间计算结果取以10为底的对数,将所得到的数值作为该词的逆向频率数据。接着根据每个词在该新闻样本对应的新闻语料中的第二词频数据以及每个词的逆向频率数据,得到每个词的词向量,例如,每个词在该新闻样本对应的新闻语料中的第二词频数据以及每个词的逆向频率数据进行乘法运算,将运算得到的数值确定为该词的TF-IDF值,利用该词的TF-IDF值确定该词的词向量。然后将该新闻样本对应的新闻语料中的各个词的词向量作为该新闻样本对应的词袋向量中的元素,利用该新闻样本对应的新闻语料中的所有词的词向量,得到该新闻样本对应的词袋向量。词袋向量是一个高维的向量,新闻样本对应的词袋向量的维度等于新闻样本对应的新闻语料中的所有词的总数量。
[0051] 步骤S204,对每个新闻样本对应的词袋向量进行主题分析,得到每个新闻样本对应的主题向量。
[0052] 可将每个新闻样本对应的词袋向量输入至经过训练的主题分析模型中,得到每个新闻样本对应的主题向量,主题向量是一个低维的向量。具体地,经过训练的主题分析模型可以为LSI模型,LSI模型能够根据词所在的环境分析词的隐藏含义,LSI模型的核心思想是通过无监督的方法,将词映射到潜在主题空间,生成潜在主题向量,其通过奇异值分解(Singular Value Decomposition,简称SVD)对词袋向量进行降维处理,得到低维的主题向量,有效地降低了数据的复杂程度,同时降低了数据中的噪声。
[0053] 步骤S205,提取待配图新闻的新闻标题和新闻内容,得到待配图新闻对应的新闻语料。
[0054] 采用步骤S201中记载的对提取到的新闻样本的新闻标题和新闻内容的处理方式对提取到的待配图新闻的新闻标题和新闻内容进行处理,得到待配图新闻对应的新闻语料。具体地,筛除提取到的待配图新闻的新闻标题和新闻内容中所包含的停用词和预设常用词,得到待配图新闻对应的预处理语料;计算该预处理语料中的每个词在所有新闻样本对应的预处理语料中的第三词频数据;利用该预处理语料中所有的第三词频数据符合预设词频条件的词,得到待配图新闻对应的新闻语料。
[0055] 步骤S206,根据待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的第一词频数据,得到待配图新闻对应的词袋向量。
[0056] 采用步骤S203中记载的新闻样本对应的词袋向量的确定方式来确定待配图新闻对应的词袋向量。具体地,针对待配图新闻对应的新闻语料中的每个词,利用新闻语料库中新闻语料总数量以及包含有该词的新闻语料的数量,计算得到该词的逆向频率数据;根据每个词在待配图新闻对应的新闻语料中的第一词频数据以及每个词的逆向频率数据,得到每个词的词向量;利用待配图新闻对应的新闻语料中的所有词的词向量,得到待配图新闻对应的词袋向量。
[0057] 步骤S207,对待配图新闻对应的词袋向量进行主题分析,得到待配图新闻对应的主题向量。
[0058] 可将待配图新闻对应的词袋向量输入至步骤S204中所采用的相同的经过训练的主题分析模型中,得到待配图新闻对应的主题向量。
[0059] 步骤S208,计算待配图新闻对应的主题向量与新闻样本库中的每个新闻样本对应的主题向量之间的欧式距离。
[0060] 其中,欧式距离是指欧几里得距离,具体指在m维空间中两个点之间的真实距离,或者向量的自然长度。可利用现有技术中的欧式距离的计算公式来计算待配图新闻对应的主题向量与新闻样本库中的每个新闻样本对应的主题向量之间的欧式距离。
[0061] 步骤S209,从所有新闻样本中选择与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本。
[0062] 待配图新闻对应的主题向量与某个新闻样本对应的主题向量之间的欧式距离越小,说明待配图新闻与该新闻样本在内容上越相似,那么可从所有新闻样本中选择与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本,欧式距离最小的新闻样本即为在内容上与待配图新闻最为相似的新闻样本。
[0063] 其中,与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本的数量可能为一个,也可能为多个。若与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本的数量为一个,则所选择的新闻样本的数量为一个,那么执行步骤S210;若与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本的数量为多个,则所选择的新闻样本的数量为多个,那么执行步骤S211。
[0064] 步骤S210,将所选择的新闻样本确定为与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0065] 若所选择的新闻样本的数量为一个,则直接将所选择的新闻样本确定为与待配图新闻相匹配的新闻样本,相匹配的新闻样本与待配图新闻在内容上存在较高的相似度,接着可将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0066] 步骤S211,计算待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度。
[0067] 若所选择的新闻样本的数量为多个,那么还需要基于新闻标题对所选择的新闻样本进行进一步精细排序,从所选择的新闻样本中确定出在新闻标题上与待配图新闻最为相似的新闻样本。具体地,考虑到新闻标题中的名词能够在很大程度上反映标题内容,那么可对待配图新闻的新闻标题中的每个词以及所选择的每个新闻样本的新闻标题中的每个词进行词性标注,提取待配图新闻的新闻标题中的名词以及所选择的每个新闻样本的新闻标题中的名词,然后将待配图新闻的新闻标题中的名词与所选择的每个新闻样本的新闻标题中的名词进行比对,计算将待配图新闻的新闻标题中的名词与所选择的每个新闻样本的新闻标题中的名词之间的相似度,根据计算结果来确定待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度。
[0068] 步骤S212,将相似度最大的新闻样本确定为与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0069] 在计算得到待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度之后,按照相似度从小到大的顺序对所选择的新闻样本进行排序,相似度最大的新闻样本为在新闻标题上与待配图新闻最为相似的新闻样本,那么将相似度最大的新闻样本确定为与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0070] 根据本实施例提供的基于内容相似性的新闻封面配图方法,依据停用词过滤策略、预设常用词过滤策略以及词频过滤策略对新闻标题和新闻内容进行处理,能够有效地去除了新闻标题和新闻内容中所包含的无实际含义、不具区分能力的词,精简新闻语料所包含的词的数量,有助于减少新闻语料处理过程中的数据处理量,提高了处理新闻语料的处理效率;并且,根据新闻语料中的每个词在对应新闻中的词频数据,能够精准地计算得到对应的词袋向量,而后利用经过训练的主题分析模型对词袋向量进行降维处理,得到低维的主题向量,有效地降低了数据的复杂程度,同时有效地降低了数据中的噪声;依据待配图新闻对应的主题向量以及新闻样本对应的主题向量,能够快速地从新闻样本库中查找到与待配图新闻在内容上最为相似的新闻样本;另外,当与待配图新闻在内容上最为相似的新闻样本为多个的情况下,还基于新闻标题对这多个新闻样本进行进一步精细排序,实现了对相匹配的新闻样本的精准确定,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面,所配置的新闻封面与待配图新闻在内容上具有较强的关联关系,能够准确地反映待配图新闻的内容。
[0071] 图3示出了根据本发明一个实施例的基于内容相似性的新闻封面配图装置的结构框图,如图3所示,该装置包括:第一生成模块301、第一处理模块302和匹配模块303。
[0072] 第一生成模块301适于:提取待配图新闻的新闻标题和新闻内容,得到待配图新闻对应的新闻语料。
[0073] 第一处理模块302适于:根据待配图新闻对应的新闻语料中的每个词在待配图新闻对应的新闻语料中的第一词频数据,得到待配图新闻对应的词袋向量;对待配图新闻对应的词袋向量进行主题分析,得到待配图新闻对应的主题向量。
[0074] 匹配模块303适于:依据待配图新闻对应的主题向量,从新闻样本库中查找与待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面。
[0075] 可选地,该装置还可包括:第二生成模块304、构建模块305和第二处理模块306。
[0076] 第二生成模块304适于:从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,得到每个新闻样本对应的新闻语料。
[0077] 构建模块305适于:利用所有新闻样本对应的新闻语料,构建新闻语料库;其中,新闻样本包含有新闻封面。
[0078] 第二处理模块306适于:根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量;对每个新闻样本对应的词袋向量进行主题分析,得到每个新闻样本对应的主题向量。
[0079] 可选地,第二生成模块304进一步适于:针对新闻样本库中的每个新闻样本,筛除提取到的该新闻样本的新闻标题和新闻内容中所包含的停用词和预设常用词,得到该新闻样本对应的预处理语料;计算该预处理语料中的每个词在所有新闻样本对应的预处理语料中的第三词频数据;利用该预处理语料中所有的第三词频数据符合预设词频条件的词,得到该新闻样本对应的新闻语料。
[0080] 可选地,第二处理模块306进一步适于:针对每个新闻样本对应的新闻语料中的每个词,利用新闻语料库中新闻语料总数量以及包含有该词的新闻语料的数量,计算得到该词的逆向频率数据;根据每个词在该新闻样本对应的新闻语料中的第二词频数据以及每个词的逆向频率数据,得到每个词的词向量;利用该新闻样本对应的新闻语料中的所有词的词向量,得到该新闻样本对应的词袋向量。
[0081] 可选地,第二处理模块306进一步适于:将每个新闻样本对应的词袋向量输入至经过训练的主题分析模型中,得到每个新闻样本对应的主题向量。
[0082] 可选地,匹配模块303进一步适于:计算待配图新闻对应的主题向量与新闻样本库中的每个新闻样本对应的主题向量之间的欧式距离;从所有新闻样本中选择与待配图新闻对应的主题向量之间的欧式距离最小的新闻样本;若所选择的新闻样本的数量为一个,则将所选择的新闻样本确定为与待配图新闻相匹配的新闻样本;若所选择的新闻样本的数量为多个,则计算待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度;将相似度最大的新闻样本确定为与待配图新闻相匹配的新闻样本。
[0083] 根据本实施例提供的基于内容相似性的新闻封面配图装置,依据停用词过滤策略、预设常用词过滤策略以及词频过滤策略对新闻标题和新闻内容进行处理,能够有效地去除了新闻标题和新闻内容中所包含的无实际含义、不具区分能力的词,精简新闻语料所包含的词的数量,有助于减少新闻语料处理过程中的数据处理量,提高了处理新闻语料的处理效率;并且,根据新闻语料中的每个词在对应新闻中的词频数据,能够精准地计算得到对应的词袋向量,而后利用经过训练的主题分析模型对词袋向量进行降维处理,得到低维的主题向量,有效地降低了数据的复杂程度,同时有效地降低了数据中的噪声;依据待配图新闻对应的主题向量以及新闻样本对应的主题向量,能够快速地从新闻样本库中查找到与待配图新闻在内容上最为相似的新闻样本;另外,当与待配图新闻在内容上最为相似的新闻样本为多个的情况下,还基于新闻标题对这多个新闻样本进行进一步精细排序,实现了对相匹配的新闻样本的精准确定,将相匹配的新闻样本的新闻封面确定为待配图新闻的新闻封面,所配置的新闻封面与待配图新闻在内容上具有较强的关联关系,能够准确地反映待配图新闻的内容。
[0084] 本发明还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的基于内容相似性的新闻封面配图方法。
[0085] 图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0086] 如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
[0087] 其中:
[0088] 处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
[0089] 通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
[0090] 处理器402,用于执行程序410,具体可以执行上述基于内容相似性的新闻封面配图方法实施例中的相关步骤。
[0091] 具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
[0092] 处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
[0093] 存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0094] 程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于内容相似性的新闻封面配图方法。程序410中各步骤的具体实现可以参见上述基于内容相似性的新闻封面配图实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0095] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0096] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0097] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0098] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0099] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0100] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0101] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0102] 本发明公开了:A1.一种基于内容相似性的新闻封面配图方法,所述方法包括:
[0103] 提取待配图新闻的新闻标题和新闻内容,得到所述待配图新闻对应的新闻语料;
[0104] 根据所述待配图新闻对应的新闻语料中的每个词在所述待配图新闻对应的新闻语料中的第一词频数据,得到所述待配图新闻对应的词袋向量;对所述待配图新闻对应的词袋向量进行主题分析,得到所述待配图新闻对应的主题向量;
[0105] 依据所述待配图新闻对应的主题向量,从新闻样本库中查找与所述待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为所述待配图新闻的新闻封面。
[0106] A2.根据A1所述的方法,其中,在所述提取待配图新闻的新闻标题和新闻内容,得到所述待配图新闻对应的新闻语料之前,所述方法还包括:
[0107] 从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,得到每个新闻样本对应的新闻语料,并利用所有新闻样本对应的新闻语料,构建新闻语料库;其中,所述新闻样本包含有新闻封面;
[0108] 根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量;对每个新闻样本对应的词袋向量进行主题分析,得到每个新闻样本对应的主题向量。
[0109] A3.根据A2所述的方法,其中,所述从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,得到每个新闻样本对应的新闻语料进一步包括:
[0110] 针对所述新闻样本库中的每个新闻样本,筛除提取到的该新闻样本的新闻标题和新闻内容中所包含的停用词和预设常用词,得到该新闻样本对应的预处理语料;
[0111] 计算该预处理语料中的每个词在所有新闻样本对应的预处理语料中的第三词频数据;
[0112] 利用该预处理语料中所有的第三词频数据符合预设词频条件的词,得到该新闻样本对应的新闻语料。
[0113] A4.根据A2或A3所述的方法,其中,所述根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量进一步包括:
[0114] 针对每个新闻样本对应的新闻语料中的每个词,利用所述新闻语料库中新闻语料总数量以及包含有该词的新闻语料的数量,计算得到该词的逆向频率数据;
[0115] 根据每个词在该新闻样本对应的新闻语料中的第二词频数据以及每个词的逆向频率数据,得到每个词的词向量;
[0116] 利用该新闻样本对应的新闻语料中的所有词的词向量,得到该新闻样本对应的词袋向量。
[0117] A5.根据A2至A4任一项所述的方法,其中,所述对每个新闻样本对应的词袋向量进行主题分析,得到每个新闻样本对应的主题向量进一步包括:
[0118] 将每个新闻样本对应的词袋向量输入至经过训练的主题分析模型中,得到每个新闻样本对应的主题向量。
[0119] A6.根据A1至A5任一项所述的方法,其中,所述依据所述待配图新闻对应的主题向量,从新闻样本库中查找与所述待配图新闻相匹配的新闻样本进一步包括:
[0120] 计算所述待配图新闻对应的主题向量与新闻样本库中的每个新闻样本对应的主题向量之间的欧式距离;
[0121] 从所有新闻样本中选择与所述待配图新闻对应的主题向量之间的欧式距离最小的新闻样本;
[0122] 若所选择的新闻样本的数量为一个,则将所选择的新闻样本确定为与所述待配图新闻相匹配的新闻样本;
[0123] 若所选择的新闻样本的数量为多个,则计算所述待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度;将相似度最大的新闻样本确定为与所述待配图新闻相匹配的新闻样本。
[0124] 本发明还公开了:B7.一种基于内容相似性的新闻封面配图装置,所述装置包括:
[0125] 第一生成模块,适于提取待配图新闻的新闻标题和新闻内容,得到所述待配图新闻对应的新闻语料;
[0126] 第一处理模块,适于根据所述待配图新闻对应的新闻语料中的每个词在所述待配图新闻对应的新闻语料中的第一词频数据,得到所述待配图新闻对应的词袋向量;对所述待配图新闻对应的词袋向量进行主题分析,得到所述待配图新闻对应的主题向量;
[0127] 匹配模块,适于依据所述待配图新闻对应的主题向量,从新闻样本库中查找与所述待配图新闻相匹配的新闻样本,将相匹配的新闻样本的新闻封面确定为所述待配图新闻的新闻封面。
[0128] B8.根据B7所述的装置,其中,所述装置还包括:
[0129] 第二生成模块,适于从新闻样本库中提取每个新闻样本的新闻标题和新闻内容,得到每个新闻样本对应的新闻语料;
[0130] 构建模块,适于利用所有新闻样本对应的新闻语料,构建新闻语料库;其中,所述新闻样本包含有新闻封面;
[0131] 第二处理模块,适于根据每个新闻样本对应的新闻语料中的每个词在该新闻样本对应的新闻语料中的第二词频数据,得到每个新闻样本对应的词袋向量;对每个新闻样本对应的词袋向量进行主题分析,得到每个新闻样本对应的主题向量。
[0132] B9.根据B8所述的装置,其中,所述第二生成模块进一步适于:
[0133] 针对所述新闻样本库中的每个新闻样本,筛除提取到的该新闻样本的新闻标题和新闻内容中所包含的停用词和预设常用词,得到该新闻样本对应的预处理语料;
[0134] 计算该预处理语料中的每个词在所有新闻样本对应的预处理语料中的第三词频数据;
[0135] 利用该预处理语料中所有的第三词频数据符合预设词频条件的词,得到该新闻样本对应的新闻语料。
[0136] B10.根据B8或B9所述的装置,其中,所述第二处理模块进一步适于:
[0137] 针对每个新闻样本对应的新闻语料中的每个词,利用所述新闻语料库中新闻语料总数量以及包含有该词的新闻语料的数量,计算得到该词的逆向频率数据;
[0138] 根据每个词在该新闻样本对应的新闻语料中的第二词频数据以及每个词的逆向频率数据,得到每个词的词向量;
[0139] 利用该新闻样本对应的新闻语料中的所有词的词向量,得到该新闻样本对应的词袋向量。
[0140] B11.根据B8至B10任一项所述的装置,其中,所述第二处理模块进一步适于:
[0141] 将每个新闻样本对应的词袋向量输入至经过训练的主题分析模型中,得到每个新闻样本对应的主题向量。
[0142] B12.根据B8至B11任一项所述的装置,其中,所述匹配模块进一步适于:
[0143] 计算所述待配图新闻对应的主题向量与新闻样本库中的每个新闻样本对应的主题向量之间的欧式距离;
[0144] 从所有新闻样本中选择与所述待配图新闻对应的主题向量之间的欧式距离最小的新闻样本;
[0145] 若所选择的新闻样本的数量为一个,则将所选择的新闻样本确定为与所述待配图新闻相匹配的新闻样本;
[0146] 若所选择的新闻样本的数量为多个,则计算所述待配图新闻的新闻标题与所选择的每个新闻样本的新闻标题之间的相似度;将相似度最大的新闻样本确定为与所述待配图新闻相匹配的新闻样本。
[0147] 本发明还公开了:C13.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0148] 所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如A1-A6中任一项所述的基于内容相似性的新闻封面配图方法对应的操作。
[0149] 本发明还公开了:D14.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-A6中任一项所述的基于内容相似性的新闻封面配图方法对应的操作。