技术领域
[0001] 本申请涉及信息处理技术领域,尤其涉及一种KOC用户发布内容质量评估方法、装置、终端及介质。
相关背景技术
[0002] 随着移动互联网等信息技术的进步,以微博、微信、小红书等为代表的社交网络取得了飞速发展。社交网络在信息传播扩散、广告营销、品牌口碑建设等领域的价值日益显著。
[0003] KOC(Key Opinion Consumer,关键意见消费者)是一种能够在自身的社交圈子里产生消费影响力的消费者。他们更侧重于真实的消费体验分享,通过分享真实的使用体验和个人观点,影响其他消费者的购买决策,因此成为品牌和平台重点培养的对象。为了激励KOC持续创作,许多平台纷纷制定了相应的激励的机制,这种激励机制在实际运作中,部分KOC可能会频繁发布低质量或重复的内容以增加获得的激励,影响到发放激励的公平性,造成平台方激励资源的浪费。
具体实施方式
[0042] 这种激励机制在实际运作中,部分KOC为了获得更多激励,可能会频繁发布低质量或重复的内容,或轻微修改已发布的内容,多次发布实质相同的文章,以增加获得激励的机会以及获得更多的激励资源,对于用户而言,大量相似内容的存在会降低平台内容的多样性,影响用户的浏览体验,甚至可能导致用户对产品内容的真实性和平台形象产生质疑;对于平台方而言,既无法达到预设的推广效果,还可能会对实质相同的内容多次发放激励,造成平台资源浪费。
[0043] 本申请实施例提供了一种KOC用户发布内容质量评估方法、装置、终端及介质,实现对KOC的发布内容质量评估,以实现高效识别出低质量的发布内容,避免浪费平台方激励资源的发明目的。
[0044] 为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0045] 首先是本申请提供的一种KOC用户发布内容质量评估方法实施例的详细说明,具体如下:
[0046] 请参阅图1,本申请提供的一种KOC用户发布内容质量评估方法实施例,包括:
[0047] 步骤101、接收KOC用户上传的发布内容数据,提取发布内容数据的内容特征;
[0048] 步骤102、根据预设的发布内容数据库,将内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,得到发布内容数据对应的内容相似对比结果;
[0049] 步骤103、根据内容相似对比结果,结合预设的内容相似对比结果与内容质量评估结果的对应关系,确定发布内容数据的内容质量评估结果。
[0050] 需要说明的是,在KOC用户发布内容的场景里,KOC用户会先将制作好的发布内容数据上传到发布平台,当发布平台接收到发布内容数据后,先通过对该发布内容数据进行特征提取处理,得到该发布内容数据的内容特征,再接着,根据预设的发布内容数据库,将内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,得到发布内容数据对应的内容相似对比结果,该内容相似对比结果可用于确定本次的发布内容数据与发布内容数据库中保存的历史发布内容的相似度对比结果,再接着,根据预设的内容相似对比结果与内容质量评估结果的对应关系,确定本次的发布内容数据的内容质量评估结果,例如,当内容相似对比结果显示,本次的发布内容数据与历史发布内容数据的相似对比结果低于预设阈值,则可判定发布内容数据的内容质量评估结果为合格,否则,则判定发布内容数据的内容质量评估结果为不合格。通过本实施例提供的方案能够高效识别出低质量的发布内容的目的,使得平台运维方可以根据内容质量评估结果,调整对低质量发布内容的激励资源发放比例,实现更合理且更精准的激励资源发放,避免激励资源浪费,同时还有助于提高内容质量和平台内容的多样性,从而提升整体的KOC运营效果和用户的浏览体验。
[0051] 在上述的基本实施例的基础上,本实施例提供的KOC用户发布内容质量评估方法还可以进一步包括以下技术内容:
[0052] 发布内容数据包括:文案类发布内容、图片类发布内容、图文混合类发布内容,以及视频类发布内容。
[0053] 针对以上几种发布内容数据的类型,每种数据类型对应的提取发布内容数据的内容特征具体如下:
[0054] 需要说明的是,关于文案类发布内容和图片类发布内容这类单一内容特征的发布内容,可以采用常规的自然语言处理模型和图像特征识别模型,得到对应的文本内容特征或图片内容特征。
[0055] 当发布内容数据为图文混合类发布内容时,步骤101中的提取发布内容数据的内容特征包括:
[0056] 将发布内容数据进行内容类型识别和拆分,分别得到文本内容和图片内容;
[0057] 通过预先训练的内容特征提取模型,分别对文本内容和图片内容进行特征提取,以得到对应的文本内容特征和图片内容特征。
[0058] 进一步地,当发布内容数据为视频类发布内容时,步骤101中的提取发布内容数据的内容特征包括:
[0059] 将发布内容数据进行视频拆分,得到语音数据和图像帧数据;
[0060] 对语音数据进行文本转化处理,得到文本内容;
[0061] 根据图像帧数据,对包含目标产品的图像帧数据进行图像帧抽取处理,得到图片内容;
[0062] 通过预先训练的内容特征提取模型,分别对文本内容和图片内容进行特征提取,以得到对应的文本内容特征和图片内容特征。
[0063] 需要说明的是,当发布内容数据为文案类发布内容或图片类发布内容时,可以将发布内容数据的文本内容特征或图片内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,以对比得到的文本相似度或图片相似度作为该发布内容数据对应的内容相似对比结果。以发布内容数据为图片类发布内容为例,则可根据该内容相似对比结果,确定已收录的历史发布内容数据中是否存在与本次发布内容数据图片相似的目标数据,若相似的图片张数达到预设图片张数阈值,则可确定本次发布内容数据与已收录的目标数据具有较高的相似度。
[0064] 当发布内容数据为图文混合类发布内容或视频类发布内容时,步骤102中的根据预设的发布内容数据库,将内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,得到发布内容数据对应的内容相似对比结果包括:
[0065] 将文本内容特征和图片内容特征,分别与发布内容数据库中保存的历史文本内容特征和历史图片内容特征进行相似度对比,以得到文本相似度和图片相似度;
[0066] 根据文本相似度和图片相似度,计算综合相似度,以根据综合相似度,确定发布内容数据对应的内容相似对比结果。
[0067] 需要说明的是,若发布内容数据为图文混合类发布内容或视频类发布内容这类包含多种内容特征的发布内容,可以基于按照上述实施例提及的方式,分别得到对应的文本内容特征和图片内容特征,然后,基于不同类型的特征,分别与发布内容数据库中保存的历史文本内容特征和历史图片内容特征进行相似度对比,以得到文本相似度和图片相似度,根据文本相似度和图片相似度,计算综合相似度,以该综合相似度作为确定发布内容数据对应的内容相似对比结果的依据,其中,关于综合相似度的计算方式,本实施例优选采用以文本相似度和图片相似度的加权和值作为综合相似度,但在一些实施例中也可以采用文本相似度和图片相似度的普通和值、普通乘积值或加权乘积值作为综合相似度。
[0068] 本实施例提及的发布内容数据库,其构建方式包括:
[0069] 获取历史发布内容数据,对历史发布内容数据进行特征提取,得到各个历史发布内容数据的特征向量;
[0070] 将每个特征向量分成多个特征向量段,按照每一段的特征向量段进行聚类,得到若干个向量段类别;
[0071] 根据各个向量段类别与特征向量的对应关系,生成索引特征信息,以将索引特征信息存入预设的数据库,得到发布内容数据库。
[0072] 进一步地,基于上述的发布内容数据库构建方式,本实施例步骤102中的将内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,得到发布内容数据对应的内容相似对比结果具体包括:
[0073] 将内容特征分成多个内容特征向量段,根据内容特征向量段与发布内容数据库中的索引特征信息进行相似度对比,得到每个内容特征向量段对应的相似索引特征信息,以将各个相似索引特征信息,确定与内容特征最相似的目标特征向量;
[0074] 根据内容特征与目标特征向量的相似度对比结果,确定发布内容数据对应的内容相似对比结果。
[0075] 需要说明的是,关于发布内容数据库的构建,首先获取平台上KOC用户上传过所有发布内容,即历史发布内容数据,然后对历史发布内容数据进行去重、去除损坏数据等数据清洗后得到的标准数据,采用深度学习基础网络模型结构Resnet结构,先用预训练模型提取标准图片、文本数据中特征向量,然后损失函数采用三元组(Triplet Loss),训练特征提取模型,以利用该特征提取模型对历史发布内容数据进行特征提取,得到各个历史发布内容数据的特征向量,包括:文本内容特征向量和图片内容特征向量,以便将这些特征向量保存到预设的数据库中,从而形成本实施例提及的发布内容数据库。
[0076] 为了进一步提高后续特征向量匹配的效率,本实施例在构建发布内容数据库时,还可以进一步对以上特征向量进行以下的处理:
[0077] 如有N个特征,特征维度为D维,特征库中可表示为N*D。将每个特征向量分为M段,然后将图片特征库按照每一段的特征进行聚类,类别数为C个,根据类别中心,找到对应的特征向量,每个特征向量对应最近的类别。此类别就作为对应特征向量每一段的索引编号。也就是一个特征向量从原始D维度到根据索引编号表示只有M个维度。以此将特征库按此计算方法存储,形成基于索引特征的发布内容数据库。
[0078] 更具体的,针对KOC用户新上传的待评估发布内容数据,将发布内容的特征,上述发布内容数据库构建时相同的处理方式,生成M个特征向量段,再和发布内容数据库中的历史特征比对,其中先找到特征第一段中的类别中心,这里只需计算C个距离,找到最相似的特征段,以此类推,分别计算2,3.....M段的类别中心,最后将多段的索引值组合,就可以得到检索的特征向量。这里计算方法极大的提高了效率,不再应用暴力计算成千上百万的特征距离。提高了检索响应速度,改善面对大规模发布内容数据对比场景的评估效率。
[0079] 以上为本申请提供的一种KOC用户发布内容质量评估方法实施例的详细说明,下面为本申请提供的一种KOC用户发布内容质量评估装置实施例的详细说明。
[0080] 请参阅图2,本申请提供的一种KOC用户发布内容质量评估装置实施例,包括:
[0081] 内容特征提取单元201,用于接收KOC用户上传的发布内容数据,提取发布内容数据的内容特征;
[0082] 内容相似度对比单元202,用于根据预设的发布内容数据库,将内容特征与发布内容数据库中保存的历史内容特征进行相似度对比,得到发布内容数据对应的内容相似对比结果;
[0083] 内容质量评估单元203,用于根据内容相似对比结果,结合预设的内容相似对比结果与内容质量评估结果的对应关系,确定发布内容数据的内容质量评估结果。
[0084] 进一步地,本申请还提供了一种KOC用户发布内容质量评估终端以及一种计算机可读存储介质实施例的详细说明。
[0085] 请参阅图3,本申请提供的一种KOC用户发布内容质量评估终端实施例,终端实现类型包括但不限于:个人计算机、工业计算机、服务器以及嵌入式智能设备,终端的主要包括:存储器33和处理器31,存储器33和处理器31可通过通信总线34连接;
[0086] 存储器用于存储程序代码,程序代码与如上述实施例提供的一种KOC用户发布内容质量评估方法相对应;
[0087] 处理器用于读取并执行程序代码。
[0088] 本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质中保存有与如上述实施例提供的一种KOC用户发布内容质量评估方法相对应程序代码,程序代码用于被处理器读取并执行,以实现如上述实施例提供的一种KOC用户发布内容质量评估方法。
[0089] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的终端,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0090] 在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0091] 本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0092] 应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0093] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0094] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0095] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0096] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。