首页 / 文本审核的方法与系统

文本审核的方法与系统无效专利 发明

技术领域

[0001] 本发明涉及网络技术领域,特别是涉及一种文本审核的方法与系统。

相关背景技术

[0002] 近年来直播用户量不断增长,审核业务量的增长,需要审核的内容大幅增长,审核的压力越来越大。早期主要利用配置敏感词,识别文本类型,如是否为纯数字,手机号码等,拦截部分常见的文本内容,但是实际应用效果只能处理个别任务,对于新型内容,变种内容却素手无策,只能依赖手工逐步添加完善词库来增强敏感词拦截的内容的概率,此方法并不能及时处理违规内容,而且只能审核不合法内容,对于合法的内容无法处理,处理内容的能力有限。因此,在保障内容安全的前提下提高审核效率、节省人力成本成为亟待解决的问题。
[0003] 前面的叙述在于提供一般的背景信息,并不一定构成现有技术。

具体实施方式

[0040] 下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0041] 如图1所示,本实施例中,文本审核的方法,包括如下步骤:
[0042] 步骤S1:获取待审核文本。
[0043] 步骤S2:在内容库模块查找与待审核文本匹配的历史审核文本,内容库模块包括历史审核文本及其审核结果。
[0044] 步骤S3:若查找到与待审核文本匹配的历史审核文本,则确定所述历史审核文本的审核结果作为所述待审核文本的审核结果。
[0045] 步骤S4:若未查找到与待审核文本匹配的审核结果,则将待审核文本转给人工审核。
[0046] 步骤S5:根据人工审核确定待审核文本的审核结果。
[0047] 本实施例中,接收到审核任务时,通过接口模块从内容库模块查找与待审核文本匹配的审核结果。查找到匹配结果时,进一步根据待审核文本的审核次数判断审核结果是否需要修正。当审核结果需要修正时,或者没有查找到匹配的审核结果时,将待审核文本写入人工审核库,由人工审核。人工审核主要用于处理多次自动误审核结果或者处理审核规则变更的情况,例如以前可以通过审核的文本内容,最新的政策是需要删除的。人工审核将手动审核这部分待审核文本,更新审核结果,手动干预结果后文本内容将以人工干预的审核结果为准。当待审核文本有匹配的审核结果且审核结果不需要修正时,直接使用该审核结果,将待审核文本及其审核结果写入审核日志库。此外,人工审核后的审核结果也写入审核日志库。接着,由异步脚本实时扫描审核日志库,将审核日志库更新的内容同步到内容库模块,供文本自动审核时调用。内容库模块用来存储业务所有的审核文本内容及审核结果,用于提取和训练审核结果,以实现自动学习人工审核的效果,将人工审核的结果映射到系统的审核结果上。
[0048] 具体地,采用异步的形式将各个业务的文本内容和人工审核结果同步到内容库模块。内容库模块将待审核文本中含有表情和符号等无意义内容去除,并记录该内容的审核通过数和审核拒绝数。在审核文本入库前,根据通过接口模块识别出待审核文本的合法性,通过合法性结果执行通过或拒绝操作,在入库前拦截非法内容入库,由此完成了文本自动审核流程。自动审核后自动记录该审核文本的审核次数,当待审核文本被审核次数超过预设阈值后,将待审核文本推送到人工审核库由人工审核,以便于系统对审核文本的审核结果的校验。推送待审核文本至人工审核库后初始化审核次数。本发明解决了添加敏感词拦截依赖于敏感词数量的问题,而且在审核文本的处理上增加了自动学习功能,系统能不断完善内容库模块,并对内容库模块审核结果进行调整和修正,有效的替代了人工审核,不但提升审核效率而且误伤更低,在实际应用上,有效自动处理了任务量的60%,个别业务可达80%以上的审核任务,大大减少了审核人力,节省了审核成本。
[0049] 在一实施方式中,在内容库模块查找与待审核文本匹配的历史审核文本时,可根据待审核文本的敏感词、文本类型和业务类型等查找与待审核文本匹配的历史审核文本。具体地,可通过配置敏感词拦截审核文本。或者识别文本类型,如是否为纯数字,手机号码等拦截部分常见的文本内容。还可以按不同业务类型实现文本分类,同时支持制定业务类型,如:签名,昵称属于不同业务类型,但在服务调用时可对两者数据进行包含,以便于业务数据初始化。这样根据业务类型判定审核内容的合法性以及内容安全程度,以便于不同业务实现不同的拦截等级。
[0050] 在一实施方式中,确定历史审核文本的审核结果作为待审核文本的审核结果后,判断待审核文本的审核次数与预设阈值的关系。若待审核文本的审核次数不大于预设阈值,则根据待审核文本及其审核结果更新审核日志库;若待审核文本的审核次数大于预设阈值,则将待审核文本转给人工审核以更新审核结果。待审核文本的审核次数根据与待审核文本匹配的历史审核文本的审核通过数与审核拒绝数的差值确定。审核通过数与审核拒绝数的差值大于或等于设定的预设阈值判断为审核通过,审核通过数与审核拒绝数的差值小于设定的预设阈值判断为审核拒绝。通过接口模块提供审核文本的审核通过数和审核拒绝数,不同业务类型设置不同的预设阈值,用于判定内容的合法性。
[0051] 在一实施方式中,确定待审核文本的审核结果之后,将待审核文本及其审核结果写入审核日志库;执行异步脚本实时扫描审核日志库;将在审核日志库扫描到的更新内容写入内容库模块;在内容库模块中去除待审核文本中的表情和/或符号,以实现自动审核通过和删除等操作。
[0052] 本发明提供的文本审核的方法,获取待审核文本;在内容库模块查找与待审核文本匹配的历史审核文本,内容库模块包括历史审核文本及其审核结果;若查找到与待审核文本匹配的历史审核文本,则根据历史审核文本确定待审核文本的审核结果;若未查找到与待审核文本匹配的审核结果,则将待审核文本转给人工审核;根据人工审核确定待审核文本的审核结果。通过本发明的文本审核方法,能学习反馈人工审核的结果,提升自动审核文本的准确性,提高审核效率。
[0053] 本发明实施例的文本审核的系统,包括:
[0054] 内容库模块、接口模块和人工审核模块;
[0055] 内容库模块,用于存储历史审核文本及其审核结果;
[0056] 接口模块,用于获取待审核文本并查找与待审核文本匹配的历史审核文本;
[0057] 人工审核模块,用于人工审核待审核文本。
[0058] 在一实施方式中,文本审核系统还包括审核日志库;
[0059] 审核日志库,用于存储待审核文本及其审核结果。
[0060] 在一实施方式中,内容库模块还用于去除待审核文本中的表情和/或符号。
[0061] 在一实施方式中,文本审核系统还包括系统校验模块;
[0062] 系统校验模块,用于判断待审核文本的审核次数与预设阈值的关系。
[0063] 在一实施方式中,判断待审核文本的审核次数与预设阈值的关系,包括:
[0064] 若待审核文本的审核次数不大于预设阈值,则根据待审核文本及其审核结果更新审核日志库;
[0065] 若待审核文本的审核次数大于预设阈值,则将待审核文本转给人工审核以更新审核结果。
[0066] 本实施例中文本审核的系统的具体实施过程,请参见上述图1所示实施例中描述的具体内容,在此不再赘述。
[0067] 本发明实施例提供的文本审核的系统,包括:内容库模块、接口模块和人工审核模块;内容库模块,用于存储历史审核文本及其审核结果;接口模块,用于查找与待审核文本匹配的历史审核文本;人工审核模块,用于人工审核待审核文本。通过本发明的文本审核系统,能学习反馈人工审核的结果,提升自动审核文本的准确性,提高审核效率。
[0068] 在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
[0069] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页