技术领域
[0001] 本申请涉及信息处理技术领域,特别是涉及一种样本生成模型构建方法及装置、样本生成方法及装置、样本检测方法及装置、内容发布方法及装置、内容查找方法及装置、计算机可读存储介质、电子设备。
相关背景技术
[0002] 信息安全领域的研究内容主要包括攻击和防御两部分。其中,攻击主要是指利用系统存在的漏洞和安全缺陷对系统的硬件、软件及其系统中的数据进行的攻击,防御则是进行攻击检测、修复潜在漏洞等。
[0003] 除了外部的恶意攻击之外,还可以通过蓝军自检的方式模拟外部工具进行攻击,检验系统的安全水位,即系统防控链路的防御能力,以此提高系统安全性。
[0004] 作为一种应用,可以基于安全攻防技术实现不良内容的审核和拦截。即,攻击方的攻击行为体现为在目标系统中发布可能会产生不良影响的内容,防御方的防御行为则是检测识别这些不良内容,避免这些不良内容对查看者造成伤害。
[0005] 在实际应用中,可以获得与不良内容相关的样本,利用这些样本进行蓝军自检,生成对应的测试报告,以此表示系统防控链路针对样本的防御能力。通常,与不良内容相关的样本与系统的防御需求越匹配,针对这种样本自检所得报告越能反映系统防控链路的真实防御能力。
[0006] 因此,如何获得满足系统防御需求的样本,成为需要本领域技术人员解决的技术问题。
具体实施方式
[0102] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
[0103] 随着信息技术的不断发展,网络上涌现出海量用户原创内容,其中不乏一些涉政、涉黄、涉暴、辱骂、垃圾广告等不良内容,如果不能及时识别这些不良内容,可能会给使用者带来不好的用户体验,在违反相关法律法规时还会有被关停的风险。
[0104] 为了保障用户体验,避免不良内容给目标系统的使用者带来负面影响,可以通过目标系统的防控链路,对目标系统内发布的内容进行不良内容检测和识别。其中,不良内容可以为不利于用户身心健康,容易产生负面影响的内容,具体可根据使用需求确定。
[0105] 从安全攻防技术的角度讲,防控链路即为防御方的防御手段,可以针对攻击方在目标系统内发布的不良内容进行攻击检测,还可以根据检测结果进行防控链路优化,修复潜在漏洞。
[0106] 作为一种示例,可以获得与不良内容相关的样本,本申请实施例可以称为黑样本,通过蓝军自检的方式将黑样本模拟发布到目标系统,并获得目标系统的防控链路针对黑样本的检测识别情况,以此反映防控链路在面对真实不良内容攻击时的防御能力。
[0107] 在相关现有技术中,获得目标系统的防御需求信息时,需要通过人工解读的方式,确定这个防御需求关联哪些防控关键词,再利用防控关键词从目标系统关联的样本数据库中进行匹配计算,确定出用于自检的样本。
[0108] 如此方案,确定出的样本数量较少,且受解读人员自身经验的限制导致样本的多样性不足,即缺乏变异。特别是针对很难从自然状态中获取样本的低频高危场景来说,从样本数据库中匹配到与防御需求信息相匹配的样本的可能性更小,甚至在极端情况下可能出现匹配不到样本的情况。例如,防御需求信息为预防未来可能发生的事件,样本可以体现为与该未来事件相关的不良内容,但样本数据库中并未保存这种与未来事件相关的样本,导致确定样本失败。
[0109] 另外,从解读人员获得防御需求,到将其解读转化为目标系统的合规规则,再到样本匹配计算,多个环节可能存在一天到几天不等的空窗期,存在空窗期合规风险,且效率越低越会造成更高的空窗期风险暴露概率。
[0110] 以低频高危场景下的不良内容为例,即在目标系统中发布这种不良内容的数量非常少,但是这种不良内容的危害性又极高,这就存在一个天然的矛盾,数量少导致很难被识别到,即很难提高防控链路的检测识别准确率,高危又要求防控链路的安全水位高,即尽量准确识别到这部分不良内容。对应于此,本申请实施例可以通过样本生成模型自动进行样本生成,不再依赖已有的样本数据库,可以更好地适用于低频高危场景,实现从目标系统的海量发布内容中准确识别这种不良内容的目的。
[0111] 下面先对本申请实施例提供的样本生成模型构建方法的实现过程进行解释说明。需要说明的是,本申请实施例的样本生成模型可以有两种不同的表现形式:
[0112] 一种表现形式下,样本生成模型可以体现为一个独立的模型,且该独立模型可以实现多种不同的功能,具体可参见下文图1处所做介绍;
[0113] 另一种表现形式下,样本生成模型可以体现为由多个子模型级联而成的组合式模型,不同子模型可对应实现不同的功能,具体可参见下文图2处所做介绍。
[0114] 作为一种示例,本申请实施例的样本生成模型构建方法可以如图1所示,包括:
[0115] S101:获得训练样本,所述训练样本包括多个历史防御需求信息、不同历史防御需求信息各自关联的历史防控关键词、以及不同历史防控关键词各自关联的历史样本。
[0116] S102:获得用于进行样本生成的初始模型。
[0117] 作为一种示例,可以基于传统的深度学习方式进行模型训练。例如,可以基于卷积神经网络(Convolutional Neural Networks,CNN)确定网络拓扑结构,构建初始模型。
[0118] 或者,作为另一种示例,初始模型可以体现为通过预训练技术获得的大模型。
[0119] 可以理解地,在大规模宽泛的数据上进行训练生成的大模型,可以具备多种基础能力,不仅可以提升大模型的表达能力,还可以优化大模型的泛化能力,进而基于微调技术,通过少量训练样本将大模型泛化到不同的下游任务上,得到下游任务对应的微调模型。本示例中,下游任务即为样本生成任务,下游任务对应的微调模型即为模型训练所得样本生成模型。
[0120] 在一种实现方式下,大模型可以体现为大语言模型(Large Language Model,简称LLM),即,使用大量文本数据训练得到的深度学习模型,可以生成自然语言文本或理解语言文本的含义。
[0121] 对应该实现方式,可以通过指令微调方式进行模型训练。即,通过输入指令的方式,指示模型进行相关功能的训练,具体可参见下文所举示例。
[0122] 除了通过输入指令的方式指示模型进行相关功能的训练之外,还可以输入不同功能各自对应的标识信息,以此指示模型识别当前所需训练的功能类型。
[0123] S103:分别通过所述不同历史防御需求信息各自关联的历史防控关键词、以及所述不同历史防控关键词各自关联的历史样本,对所述初始模型进行模型训练,获得样本生成模型,使所述样本生成模型具有提取防控关键词的能力以及生成样本的能力。
[0124] 本申请实施例中,样本生成模型实现的功能至少可以包括:
[0125] 1.提取防控关键词
[0126] 在实际应用中,模型可以直接从防御需求信息中提取防控关键词。对应在进行模型训练时,可以将历史防御需求信息作为模型输入,模型从中提取的预测防控关键词作为输出,再与历史防御需求信息关联的历史防控关键词进行比对,确定预测防控关键词与对应的历史防控关键词的匹配程度满足对应损失函数的要求时,确定样本生成模型的防控关键词提取功能训练完毕。
[0127] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“防御需求涉及哪些防控关键词”,以此指示模型进行防控关键词提取功能训练。
[0128] 另外,结合实际应用可知,防御需求信息可能会体现为文本内容较多的一个文件或者多个文件,一方面,输入的文本内容越多模型从中提取防控关键词的难度越大;另一方面,模型对输入长度通常也会有限制,超过预设长度后会自动截断丢弃,可能会影响模型提取防控关键词的准确度。
[0129] 对应于此,为了进一步提高模型提取防控关键词的效果,降低提取难度,本申请实施例的模型还可以分两步实现防控关键词提取功能。即,先从防御需求信息中解析出防御主题,再从防御主题中提取防控关键词。
[0130] 具体地,不同历史防御需求信息各自关联的历史防控关键词,可以体现为:不同历史防御需求信息各自关联的历史防御主题、以及不同历史防御主题各自关联的历史防控关键词。对应的,通过不同历史防御需求信息各自关联的历史防控关键词,对初始模型进行模型训练,可以体现为:分别通过不同历史防御需求信息各自关联的历史防御主题、以及不同历史防御主题各自关联的历史防控关键词,对初始模型进行模型训练,使样本生成模型具有解析防御主题并根据所述防御主题提取防控关键词的能力。
[0131] 也就是说,在训练实现防御主题解析功能时,可以将历史防御需求信息作为模型输入,模型从中解析出的预测防御主题作为输出,再与历史防御需求信息关联的历史防御主题进行比对,确定预测防御主题与对应的历史防御主题的匹配程度满足对应损失函数的要求时,确定样本生成模型的防御主题解析功能训练完毕。
[0132] 可选地,为了增强模型的文本解析能力,还可以选取部分外部公开的常规文本,即与防御需求无关的文本,作为训练样本,通过防御需求信息和常规文本相结合的方式训练获得防御主题解析功能。
[0133] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“请总结下防御需求的主题”,以此指示模型进行防御主题解析功能训练。
[0134] 此外,在训练实现防控关键词提取功能时,可以将历史防御主题作为模型输入,模型从中提取出的预测防控关键词作为输出,再与历史防御主题关联的历史防控关键词进行比对,确定预测防控关键词与对应的历史防控关键词的匹配程度满足对应损失函数的要求时,确定样本生成模型的防控关键词提取功能训练完毕。
[0135] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“解析出来的主题涉及哪些防控关键词”,以此指示模型进行防控关键词提取功能训练。
[0136] 可选地,为了进一步提高模型的样本生成能力,还可以通过模型训练使样本生成模型具有生成近似关键词的功能,即举一反三的能力。
[0137] 具体地,训练样本中还可以包括:不同历史防控关键词各自关联的历史近似关键词,可以据此对初始模型进行模型训练,使样本生成模型具有生成近似关键词的能力。
[0138] 也就是说,在训练实现近似关键词生成功能时,可以将历史防控关键词作为模型输入,模型生成的预测近似关键词作为输出,再与历史防控关键词关联的历史近似关键词进行比对,确定预测近似关键词与对应的历史近似关键词的匹配程度满足对应损失函数的要求时,确定样本生成模型的近似关键词生成功能训练完毕。
[0139] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“请给出输入关键词的N个近似关键词”,以此指示模型进行近似关键词生成功能训练。其中,N可以为根据使用需求设置的具体数值。
[0140] 2.生成样本
[0141] 在实际应用中,模型可以直接根据防控关键词生成与之匹配的样本。作为一种示例,样本可以是一个包括防控关键词或者与防控关键词意思相近的近似关键词的完整表述。
[0142] 在训练实现样本生成功能时,可以将历史防控关键词作为模型输入,模型生成的预测样本作为输出,再与历史防控关键词关联的历史样本进行比对,确定预测样本与对应的历史样本的匹配程度满足对应损失函数的要求时,确定样本生成模型的样本生成功能训练完毕。
[0143] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“请生成包括关键词A1的样本”,以此指示模型进行样本生成功能训练。
[0144] 此外,为了进一步提高样本生成的多样性,还可以结合文本风格信息和/或风险类型信息,生成更多与目标系统的防御需求相适配的样本。
[0145] 具体地,训练样本中还可以包括:不同历史样本各自关联的文本风格。对应的,通过不同历史防控关键词各自关联的历史样本,对初始模型进行模型训练,可以体现为:通过不同历史防控关键词各自关联的历史样本、以及不同历史样本各自关联的文本风格,对初始模型进行模型训练,使样本生成模型具有生成不同文本风格的样本的能力。
[0146] 也就是说,在训练实现样本生成功能时,可以将历史防控关键词和文本风格信息作为模型输入,模型生成的具有对应文本风格的预测样本作为输出,再与从历史防控关键词关联的历史样本中,确定出的与输入的文本风格信息相关联的历史样本,进行比对,确定二者的匹配程度满足对应损失函数的要求时,确定样本生成模型的生成不同文本风格的样本的功能训练完毕。
[0147] 在实际应用中,根据发布样本的应用场景的不同,样本可能对应有不同的文本表述风格,故而可以结合历史防控关键词和文本风格信息进行模型训练,使模型可以输出具有不同文本风格的样本,更为贴合真实攻击时可能发布的不良内容,进而更为真实的反映防控链路的防御能力。
[0148] 以商品信息服务系统为例,应用场景可能是商品评价场景、商品推荐场景、商品咨询场景等等,对应的样本可以是在商品评价页面发布的内容、商品推荐页面发布的内容、商品咨询提问页面发布的内容,通常都具有各自对应的文本风格。
[0149] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“请生成在应用场景1下的,包括关键词A1的样本”,以此指示模型进行样本生成功能训练。
[0150] 具体地,训练样本中还可以包括:不同历史样本各自关联的风险类型。对应的,通过不同历史防控关键词各自关联的历史样本,对初始模型进行模型训练,可以体现为:通过不同历史防控关键词各自关联的历史样本、以及不同历史样本各自关联的风险类型,对初始模型进行模型训练,使样本生成模型具有生成关联不同风险类型的样本的能力。
[0151] 也就是说,在训练实现样本生成功能时,可以将历史防控关键词和风险类型信息作为模型输入,模型生成的关联对应风险类型的预测样本作为输出,再与从历史防控关键词关联的历史样本中,确定出的与输入的风险类型信息相关联的历史样本,进行比对,确定二者的匹配程度满足对应损失函数的要求时,确定样本生成模型的生成关联不同风险类型的样本的功能训练完毕。
[0152] 在实际应用中,基于风险类型信息进行样本生成,除了可以解决多样性问题,还可以对防控关键词进行风险类型标签化,提高与防控关键词相匹配的样本的检测识别率。
[0153] 也就是说,对于某些关键词来说,其本身并不会天然关联风险类型,只有在具体事件下才会成为需要被检测识别的防控关键词,本申请实施例通过模型训练,使样本生成模型具有生成关联不同风险类型的样本的能力,相当于在生成样本时,对该样本关联的风险类型进行打标,确保在进行目标风险类型检测时,可以准确识别到对应的样本,以及避免对包括防控关键词的白样本,即发布的正常内容进行误识别,导致白样本发布异常。
[0154] 针对通过指令微调方式进行模型训练的方案来说,本示例中输入的指令可以为“请生成在风险类型1下的,包括关键词A1的样本”,以此指示模型进行样本生成功能训练。
[0155] 作为另一种示例,本申请实施例的样本生成模型构建方法可以如图2所示,包括:
[0156] S201:获得训练样本,所述训练样本包括多个历史防御需求信息、不同历史防御需求信息各自关联的历史防控关键词、以及不同历史防控关键词各自关联的历史样本。
[0157] S202:获得用于进行样本生成的初始模型,所述初始模型包括用于提取防控关键词的第一子模型以及用于生成样本的第二子模型。
[0158] S203:分别通过所述不同历史防御需求信息各自关联的历史防控关键词,对所述第一子模型进行模型训练,以及通过所述不同历史防控关键词各自关联的历史样本,对所述第二子模型进行模型训练,获得样本生成模型,使所述样本生成模型具有提取防控关键词的能力以及生成样本的能力。
[0159] 本示例的样本生成模型在表现形式上与图1所示方案有所不同,模型训练所用训练样本、训练目标(即样本生成模型具有的功能)、初始模型的表现形式、具体的模型训练方式等均相同,具体实现过程可参见上文所做介绍,此处不再举例说明。
[0160] 可以理解地,针对上文介绍的优选方案,例如,从防御需求信息中解析防御主题、从防御主题中提取防控关键词、生成防控关键词的近似关键词、生成具有不同文本风格的样本、生成关联不同风险类型的样本等功能,均可训练获得实现对应功能的子模型。另外,最终获得的样本生成模型可以根据使用需求,包括上述部分或全部功能对应的子模型,且各子模型之间按照样本生成过程依序逐级级联。
[0161] 作为一种示例,本申请实施例可以提供一种基于图1所示方案构建的样本生成模型,进行样本生成的方案,参见图3所示流程图,可以包括:
[0162] S301:第一客户端获得目标系统的防御需求信息,指示样本生成模型从所述防御需求信息中提取防控关键词。
[0163] S302:指示所述样本生成模型生成与所述防控关键词相匹配的样本。
[0164] 本示例中,样本生成模型为一个可实现多种功能的独立模型,可以通过输入各功能对应的指令或者标识信息的方式,指示模型实现对应功能。
[0165] 下面结合具体示例对本申请实施例的样本生成方法的实现过程进行解释说明。
[0166] 首先,第一客户端获得目标系统的防御需求信息时,可以调用样本生成模型,进行样本生成。其中,第一客户端可以部署于负责样本生成的第一用户关联的终端设备上,以网页形式或者独立的应用程序的形式存在。
[0167] 样本生成模型可以保存于终端设备本地,在需要时通过本地读取的方式进行模型调用;或者,样本生成模型可以保存于云端服务器上,并向第一客户端提供模型调用接口,以便在需要时通过该调用接口进行模型调用。
[0168] 其次,第一用户可以通过第一客户端指示样本生成模型进行防御主题解析。
[0169] 例如,防御需求信息为:加强对事件A的不良内容的审核,具体请参见附件1。
[0170] 如果第一用户以指令方式指示模型执行相应功能,可以输入指令“请总结一下附件1的主题”,此时,模型可以将该指令和附件1作为输入,对附件1进行信息解读,输出附件1对应的防御主题,该防御主题的文本长度不会超过预设长度,便于模型进一步从中提炼出防控关键词。
[0171] 接着,第一用户可以通过第一客户端指示样本生成模型进行防控关键词提取。
[0172] 例如,可以输入指令“解析出来的主题涉及哪些防控关键词”,此时,模型可以将该指令和解析出的防御主题作为输入,输出从防御主题中提取的防控关键词。例如,输出的防控关键词为A1、A2和A3。
[0173] 可以理解地,第一用户还可以根据使用需求,进一步输入指令“针对每个防控关键词,请再给出5个近似关键词”,模型根据该指令可以输出每个防控关键词的5个近似关键词,此时可获得共计18个关键词。
[0174] 最后,第一用户可以通过第一客户端指示样本生成模型进行样本生成。
[0175] 例如,可以输入指令“针对提取的关键词,生成在应用场景1、风险类型1下的样本”,此时,模型可以将该指令和提取的关键词(本示例中可以包括防控关键词和近似关键词)作为输入,输出与关键词相匹配的样本,即包括防控关键词或者近似关键词的样本。
[0176] 在实际应用中,第一用户可以针对提取的全部关键词进行通用样本生成,即,在目标系统关联的全部应用场景和/或全部风险类型下,进行无差别样本生成,确保样本生成的全面性。
[0177] 或者,也可以针对提取的全部关键词进行个性化样本生成,即,可以先根据使用需求,确定出不同关键词各自关联的目标应用场景和/或目标风险类型,再在目标应用场景和/或目标风险类型下进行样本生成。也就是说,可以生成一些相对数量少但却具有代表性的样本,既可检验防控链路的防御能力,又可降低自检过程消耗的时间成本和人力成本。
[0178] 以商品信息服务系统为例,针对关键词“管制刀具”,输入的指令可以为:在商品咨询场景下、风险类型为禁限售、包括“管制刀具”关键词的样本,模型可以根据该指令,个性化生成关键词在目标应用场景以及目标风险类型下的样本。
[0179] 可选地,第一客户端将第一用户提交的指令信息输入模型后,还可以获得模型输出的处理结果信息,即针对指令的响应信息,展示给第一用户查看。例如,针对解析防御主题的指令,模型输出的响应信息可以为“以下为针对附件1总结出的主题,请确认”;针对关键词提取指令,模型输出的响应信息可以为“关键词提取完毕:A1、A2、A3”;针对样本生成指令,模型输出的响应信息可以为“根据指示生成以下样本”。第一用户可以根据模型反馈的响应信息指示模型执行下一步操作,有助于提高第一用户的使用体验。
[0180] 可以理解地,第一用户还可以通过第一客户端输入不同功能各自对应的标识信息,以此指示模型执行与标识信息相对应的功能。与上文所举示例相比,只是提交指示的方式有所不同,生成样本的具体过程是相同的,本申请实施例对此不再进行举例说明。
[0181] 作为一种示例,可以通过智能对话的方式实现样本生成功能,即第一客户端可以体现为智能对话客户端。具体地,可以通过智能对话客户端建立与样本生成模型之间的会话,提供会话界面;通过所述会话界面,可以获得第一用户以对话方式提交的指示信息,以指示所述样本生成模型从目标系统的防御需求信息中提取防控关键词以及生成与所述防控关键词相匹配的样本。也就是说,第一用户可以在会话界面中,通过对话聊天的方式指示样本生成模型执行指定功能,还可以在会话界面中查看模型返回的响应信息,有助于提高第一用户的交互体验。
[0182] 作为另一种示例,本申请实施例可以提供一种基于图2所示方案构建的样本生成模型,进行样本生成的方案,参见图4所示流程图,可以包括:
[0183] S401:第一客户端获得目标系统的防御需求信息,调用样本生成模型,所述样本生成模型包括用于提取防控关键词的第一子模型以及用于生成样本的第二子模型,且所述第一子模型的输出作为所述第二子模型的输入。
[0184] S402:将所述防御需求信息输入所述样本生成模型,获得与从所述防御需求信息中提取的防控关键词相匹配的样本。
[0185] 本示例中,样本生成模型为一个由多个子模型级联而成的组合式模型,不同子模型用于实现不同功能。可以将目标系统的防御需求信息作为模型的输入,不同子模型可以依序执行各自实现的功能,并将其输出作为下一级子模型的输入,直至完成样本生成。具体实现过程可参考上文所举示例,此处不再举例说明。
[0186] 按照本申请实施例提供的方案进行样本生成,不再依赖解读人员的个人经验,也不会受限于样本数据库,可以为样本的数量以及多样性提供有力保障。另外,相较人工处理带来的一天到几天不等的空窗期,本申请实施例生成样本的速度为秒级,时间效率有大幅提升,降低了空窗期的合规风险。
[0187] 按照本申请实施例方案生成样本后,可以进行蓝军自检获得目标系统的防控链路的防御能力。参见图5所示流程图,本申请实施例的样本检测方法可以包括:
[0188] S501:提供自检任务的调用接口。
[0189] S502:所述自检任务通过所述调用接口接受调用时,获得与目标系统的防御需求信息相匹配的样本,所述样本为样本生成模型根据从所述防御需求信息中提取的防控关键词生成。
[0190] S503:在所述目标系统内对所述样本进行模拟发布,以由所述目标系统的防控链路进行样本检测,获得表示所述防控链路防御能力的检测结果信息。
[0191] 作为一种示例,本申请实施例可以通过调用自检任务的方式,实现样本检测。具体地,自检任务可以对外提供调用接口,通过该调用接口接受调用时,可以获得基于本申请实施例方案生成的样本,在目标系统中对样本进行模拟发布。
[0192] 例如,自检任务可以通过目标系统关联的测试用账号,将不同应用场景下的样本虚拟发布到对应的页面中。本申请实施例中的虚拟发布可以理解为,通过测试用账号将样本真实发布到目标系统中,但对目标系统的普通使用者不可见,如此可以更为真实的测试防控链路的防御能力,还不会对普通使用者造成影响。
[0193] 目标系统的防控链路可以进行样本检测,获得检测结果信息,可用于表示防控链路的安全水位,即防御能力。例如,检测结果信息可以体现为:
[0194] 1.样本识别率,即模拟发布的样本中被检测识别到的概率。例如识别率为30%,说明样本有70%的潜在风险被漏防。
[0195] 2.人工审核率,即被识别出来的样本中,需要送人工审核的占比。通常人工审核率越低,说明防控链路越能精准识别样本,识别效率越高。例如针对从100条样本中识别到的30条样本,有10条需要送人工审核,则人工审核率为1/3。
[0196] 3.人工审核时效,即单条送人工审核的样本在多长时间内审核完结。通常样本与防御需求信息越匹配,人工审核时效越快,识别效率越高。
[0197] 本申请实施例对检测结果信息包括的内容不做限定,可以根据使用需求确定。举例来说,检测结果信息中还可以包括样本的生成路径,例如,生成样本使用的关键词、应用场景和风险类型;或者,针对漏防的样本,还可以分析漏防关键词的整体分布情况,确定出漏防关键词的优先级,例如,70条漏防样本对应50个关键词,可以进行关键词分析去掉其中重复的关键词,再根据关键词的重复次数确定关键词的优先级,通常重复次数越多优先级越高,可以先对这种漏防关键词进行补强处理。
[0198] 可选地,针对漏防的样本来说,可以进行二次数据补强,生成数量更多、更为多样化的样本。例如,可以指示模型生成更多近似关键词,进而基于近似关键词生成更多样本;或者,可以指示模型基于更多的文本风格,生成更多具有不同文本风格的样本;或者,可以指示模型基于更多的风险类型,生成更多关联不同风险类型的样本;等等。通过二次数据补强可以提高自检所用样本的多样性,还有助于提高蓝军自检的全面性。
[0199] 对应的,本申请实施例还提供一种应用于第二客户端的样本检测方法,可以包括:第二客户端获得针对目标系统内模拟发布的样本,进行样本检测得到的检测结果信息,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成。
[0200] 第二客户端可以部署于可查看测试报告的第二用户关联的终端设备上,以网页形式或者独立的应用程序的形式存在。第二客户端可以接收蓝军自检获得的检测结果信息,提供给第二用户查看,便于其掌握防控链路针对防御需求的防御能力,进而在需要时根据检测结果对防控链路进行优化处理,提高防控链路在该防御需求下的安全水位。
[0201] 此外,本申请实施例还可以提供一种内容发布方法,可以包括:获得第三客户端在目标系统提交的待发布内容,通过所述目标系统的防控链路对所述待发布内容进行安全检测,所述防控链路根据样本的检测结果确定,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成;确定所述待发布内容通过安全检测时,对所述待发布内容进行发布。其中,待发布内容通过安全检测可以理解为待发布内容不属于根据防御需求信息生成的样本。
[0202] 第三客户端可以部署于第三用户关联的终端设备上,以网页形式或者独立的应用程序的形式存在。第三用户可以体现为内容发布者。如此,可以对发布到目标系统的内容进行针对性的内容检测,有助于确保内容发布者所发布内容符合目标系统的合规要求,避免发布不良内容对目标系统的使用者造成伤害。
[0203] 对应的,本申请实施例还可以提供一种内容查找方法,可以包括:获得第四客户端提交的用户查看需求;从目标应用系统关联的发布内容中,查找与所述用户查看需求相匹配的目标内容,所述发布内容通过所述目标系统的防控链路的安全检测,所述防控链路根据样本的检测结果确定,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成。
[0204] 第四客户端可以部署于第四用户关联的终端设备上,以网页形式或者独立的应用程序的形式存在。第四用户可以体现为内容查看者。如此,可以确保目标系统的使用者所查看内容为经过安全检测的内容,有助于规避不良内容对用户产生面影响,提升用户在目标系统的使用体验。
[0205] 需要说明的是,防控链路根据样本的检测结果确定可以理解为:
[0206] 如果样本检测所得检测结果信息表示目标系统当前的防控链路的防御能力低,即不能对与防御需求相关的样本进行有效识别(可以根据使用需求确定,本申请实施例对此不做具体限定),可以对当前的防控链路进行优化处理,并通过优化后的防控链路进行安全检测。此时,根据检测结果确定的防控链路即为优化后的防控链路。
[0207] 如果检测结果信息表示当前的防控链路的防御能力强,则可通过当前的防控链路进行安全检测。此时,根据检测结果确定的防控链路即为当前的防控链路。
[0208] 需要说明的是,本申请所涉及用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0209] 与前述方法实施例相对应,本申请实施例还提供了一种样本生成模型构建装置,参见图6,该装置可以包括:
[0210] 训练样本获得单元601,用于获得训练样本,所述训练样本包括多个历史防御需求信息、不同历史防御需求信息各自关联的历史防控关键词、以及不同历史防控关键词各自关联的历史样本;
[0211] 初始模型获得单元602,用于获得用于进行样本生成的初始模型;
[0212] 模型训练单元603,用于分别通过所述不同历史防御需求信息各自关联的历史防控关键词、以及所述不同历史防控关键词各自关联的历史样本,对所述初始模型进行模型训练,获得样本生成模型,使所述样本生成模型具有提取防控关键词的能力以及生成样本的能力。
[0213] 其中,所述不同历史防御需求信息各自关联的历史防控关键词,包括:不同历史防御需求信息各自关联的历史防御主题、以及不同历史防御主题各自关联的历史防控关键词,
[0214] 所述模型训练单元,具体可用于:分别通过所述不同历史防御需求信息各自关联的历史防御主题、以及所述不同历史防御主题各自关联的历史防控关键词,对所述初始模型进行模型训练,使所述样本生成模型具有解析防御主题并根据所述防御主题提取防控关键词的能力。
[0215] 其中,所述训练样本还包括:不同历史样本各自关联的文本风格,[0216] 所述模型训练单元,具体可用于:通过所述不同历史防控关键词各自关联的历史样本、以及所述不同历史样本各自关联的文本风格,对所述初始模型进行模型训练,使所述样本生成模型具有生成不同文本风格的样本的能力。
[0217] 其中,所述训练样本还包括:不同历史样本各自关联的风险类型,[0218] 所述模型训练单元,具体可用于:通过所述不同历史防控关键词各自关联的历史样本、以及所述不同历史样本各自关联的风险类型,对所述初始模型进行模型训练,使所述样本生成模型具有生成关联不同风险类型的样本的能力。
[0219] 与前述方法实施例相对应,本申请实施例还提供了一种样本生成模型构建装置,参见图7,该装置可以包括:
[0220] 训练样本获得单元701,用于获得训练样本,所述训练样本包括多个历史防御需求信息、不同历史防御需求信息各自关联的历史防控关键词、以及不同历史防控关键词各自关联的历史样本;
[0221] 初始模型获得单元702,用于获得用于进行样本生成的初始模型,所述初始模型包括用于提取防控关键词的第一子模型以及用于生成样本的第二子模型;
[0222] 模型训练单元703,用于分别通过所述不同历史防御需求信息各自关联的历史防控关键词,对所述第一子模型进行模型训练,以及通过所述不同历史防控关键词各自关联的历史样本,对所述第二子模型进行模型训练,获得样本生成模型,使所述样本生成模型具有提取防控关键词的能力以及生成样本的能力。
[0223] 与前述方法实施例相对应,本申请实施例还提供了一种样本生成装置,应用于第一客户端,参见图8,该装置可以包括:
[0224] 关键词提取指示单元801,用于获得目标系统的防御需求信息,指示样本生成模型从所述防御需求信息中提取防控关键词;
[0225] 样本生成指示单元802,用于指示所述样本生成模型生成与所述防控关键词相匹配的样本。
[0226] 其中,所述防御需求信息的文本长度超过预设长度,所述关键词提取指示单元,具体可用于:指示所述样本生成模型从所述防御需求信息中解析防御主题,所述防御主题的文本长度不超过所述预设长度;指示所述样本生成模型从所述防御主题中提取所述防控关键词。
[0227] 其中,所述样本生成指示单元,具体可用于:获得目标文本风格和/或目标风险类型;指示所述样本生成模型在所述目标文本风格和/或所述目标风险类型下,生成与所述防控关键词相匹配的样本。
[0228] 与前述方法实施例相对应,本申请实施例还提供了一种样本生成装置,应用于智能对话客户端,该装置可以包括:
[0229] 会话界面提供单元,用于建立与样本生成模型之间的会话,提供会话界面;
[0230] 指示信息获得单元,用于通过所述会话界面,获得以对话方式提交的指示信息,以指示所述样本生成模型从目标系统的防御需求信息中提取防控关键词以及生成与所述防控关键词相匹配的样本。
[0231] 与前述方法实施例相对应,本申请实施例还提供了一种样本生成装置,应用于第一客户端,参见图9,该装置可以包括:
[0232] 模型调用单元901,用于获得目标系统的防御需求信息,调用样本生成模型,所述样本生成模型包括用于提取防控关键词的第一子模型以及用于生成样本的第二子模型,且所述第一子模型的输出作为所述第二子模型的输入;
[0233] 样本获得单元902,用于将所述防御需求信息输入所述样本生成模型,获得与从所述防御需求信息中提取的防控关键词相匹配的样本。
[0234] 与前述方法实施例相对应,本申请实施例还提供了一种样本检测装置,参见图10,该装置可以包括:
[0235] 调用接口提供单元1001,用于提供自检任务的调用接口;
[0236] 样本获得单元1002,用于在所述自检任务通过所述调用接口接受调用时,获得与目标系统的防御需求信息相匹配的样本,所述样本为样本生成模型根据从所述防御需求信息中提取的防控关键词生成;
[0237] 模拟发布单元1003,用于在所述目标系统内对所述样本进行模拟发布,以由所述目标系统的防控链路进行样本检测,获得表示所述防控链路防御能力的检测结果信息。
[0238] 与前述方法实施例相对应,本申请实施例还提供了一种样本检测装置,应用于第二客户端,该装置可以包括:
[0239] 检测结果获得单元,用于获得针对目标系统内模拟发布的样本,进行样本检测得到的检测结果信息,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成。
[0240] 与前述方法实施例相对应,本申请实施例还提供了一种内容发布装置,该装置可以包括:
[0241] 待发布内容获得单元,用于获得第三客户端在目标系统提交的待发布内容,通过所述目标系统的防控链路对所述待发布内容进行安全检测,所述防控链路根据样本的检测结果确定,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成;
[0242] 待发布内容发布单元,用于确定所述待发布内容通过安全检测时,对所述待发布内容进行发布。
[0243] 与前述方法实施例相对应,本申请实施例还提供了一种内容查找装置,该装置可以包括:
[0244] 查看需求获得单元,用于获得第四客户端提交的用户查看需求;
[0245] 目标内容查找单元,用于从目标应用系统关联的发布内容中,查找与所述用户查看需求相匹配的目标内容,所述发布内容通过所述目标系统的防控链路的安全检测,所述防控链路根据样本的检测结果确定,所述样本为样本生成模型根据从所述目标系统的防御需求信息中提取的防控关键词生成。
[0246] 另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0247] 以及一种电子设备,包括:
[0248] 一个或多个处理器;以及
[0249] 与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
[0250] 其中,图11示例性的展示出了电子设备的架构,例如,设备1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理,飞行器等。
[0251] 参照图11,设备1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)接口1112,传感器组件1114,以及通信组件1116。
[0252] 处理组件1102通常控制设备1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令,以完成本公开技术方案提供的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
[0253] 存储器1104被配置为存储各种类型的数据以支持在设备1100的操作。这些数据的示例包括用于在设备1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0254] 电源组件1106为设备1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为设备1100生成、管理和分配电力相关联的组件。
[0255] 多媒体组件1108包括在设备1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当设备1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0256] 音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当设备1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
[0257] 输入/输出(I/O)接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0258] 传感器组件1114包括一个或多个传感器,用于为设备1100提供各个方面的状态评估。例如,传感器组件1114可以检测到设备1100的打开/关闭状态,组件的相对定位,例如所述组件为设备1100的显示器和小键盘,传感器组件1114还可以检测设备1100或设备1100一个组件的位置改变,用户与设备1100接触的存在或不存在,设备1100方位或加速/减速和设备1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0259] 通信组件1116被配置为便于设备1100和其他设备之间有线或无线方式的通信。设备1100可以接入基于通信标准的无线网络,如WiFi,或2G、3G、4G/LTE、5G等移动通信网络。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0260] 在示例性实施例中,设备1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0261] 在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由设备1100的处理器1120执行以完成本公开技术方案提供的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。
[0262] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0263] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0264] 以上对本申请所提供的与样本生成相关的方案,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。