首页 / 一种构建电力敏感信息主题识别LDA模型方法、系统、介质及处理器

一种构建电力敏感信息主题识别LDA模型方法、系统、介质及处理器实质审查 发明

技术领域

[0001] 本发明涉及信息智能识别技术领域,特别涉及一种构建电力敏感信息主题识别LDA模型方法、系统、介质及处理器。

相关背景技术

[0002] 随着信息技术的不断进步,电力行业相关信息的产生和流通越来越频繁,其中包括了大量的敏感信息,如电力供应的安全、政策法规、市场变动等方面。这些敏感信息一旦泄露或受到不法分子的利用,可能对电力系统的正常运行、市场秩序以及公共安全造成严重影响。因此,对电力行业中的敏感信息进行有效的主题识别显得尤为重要。
[0003] 近年来,基于深度学习的方法已经被广泛应用于电力系统敏感信息的识别和保护,深度学习算法的性能高度依赖于训练数据的数量和质量。但在电力系统敏感信息识别中,获取大量带有准确标注的数据较为困难,因此采用基于深度学习方法进行电力敏感信息识别具有局限性。
[0004] 鉴于此,需要提供一种构建电力敏感信息主题识别LDA模型方法、系统、介质及处理器。

具体实施方式

[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043] 应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0044] 还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0045] 还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0046] 以下实施例请参阅图1至图4。
[0047] 本申请实施例提供一种构建电力敏感信息主题识别LDA模型方法,包括:
[0048] 步骤S1、获取电力系统中基本的敏感词汇;
[0049] 通过使用定制的网络爬虫收集来自电力公司内部文本数据以及电力公司网站文本信息,包括客户数据、私人数据和公司数据,以及获取电力数据语料库,根据收集的文本文档信息获取到电力行业基本的敏感词汇。
[0050] 具体的,所述获取电力系统中基本的敏感词汇包括:
[0051] 获取电力系统中电力相关数据的文本信息,并进行数据清洗。识别并删除重复的文本数据;
[0052] 对清洗后的所述文本信息进行文本分词处理;
[0053] 为了更好地处理电力相关数据中的专业术语和敏感词汇,通过使用了NLPIR系统对中文文本进行分词。NLPIR系统是一个功能强大的工具,它不仅可以进行中文分词,还支持词性标注、命名实体识别、新词识别和关键词提取等功能。
[0054] 根据创建的停用词列表对分词处理后的分词文本进行处理,得到基本的敏感词汇。
[0055] 通过创建了一个停用词列表,其中包含了一些无意义的词汇和标点符号(如“的”、“是”等常用但无实际意义的词汇)。这些词汇和字符通常不具备实际意义,会影响到分词结果的准确性。因此,将它们从分词文本中去除,以确保分词结果更加清晰和可靠。
[0056] 步骤S2、根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表;
[0057] 预设的目标类别敏感词可以根据实际使用内容和性质进行归纳和分类,包括技术与设备类敏感词、政策与法规类敏感词、政策与法规类敏感词、环保与安全类敏感词和宣传与广告类敏感词等常见的类别。如技术与设备类敏感词的“火电技术”、“智能电网”、“超高压输电”、“新能源并网标准”等,这些词汇涉及电力行业的核心技术标准和设备要求。
[0058] 所述根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表包括:
[0059] 计算预设的目标类别敏感词汇和所述敏感词汇的每个敏感词的词嵌入之间的相似性,根据相似性的得分结果筛选出预设数量的种子词,整理得到敏感词汇列表。
[0060] 词嵌入包含丰富的语义信息,可以通过计算词嵌入之间的相似性来表示单词之间的语义距离。
[0061] 步骤S3、根据预设的划分规则对所述敏感词汇列表的敏感词进行主题划分,得到多个不同主题的敏感词集合;
[0062] 将敏感词词汇转换为词向量并且通过相似度的计算扩展了不同类别下的敏感词。为了提高敏感信息主题识别的效率和模型的鲁棒性,改善模型的效果。
[0063] 具体的,所述根据预设的划分规则对所述敏感词汇表进行主题划分,得到多组不同主题类别的敏感词集合:
[0064] 当识别所述敏感词汇表中具有明显标识字样,根据明显标识进行分类,得到对应标识主题类别的敏感词集合;
[0065] 当识别所述敏感词汇表中无明显标识字样,根据粗粒度分类方法进行分类,得到多个不同主题类别的敏感词集合。
[0066] 其中对于有明显字样的数据,比如“客户”“公司”“用户”等字样可以根据其明显标识分类,对于剩余的无明显标识的数据,根据本文提出的粗粒度分类方法进行划分。通过粗粒度划分,可以先将文本数据进行预处理,减少LDA模型需要处理的数据量,从而降低计算复杂度,提高训练速度。通过对数据进行粗粒度划分,可以将数据分成多个子集,每个子集内部可能具有更强的相关性。这样做有助于降低LDA模型的计算复杂度,避免直接将全部数据输入到模型中导致的计算量过大的问题。在每个子集上运行LDA模型时,由于数据量减少且具有更强的相关性,模型会更快地收敛并且更准确地找到潜在的主题。
[0067] 步骤S4、将每个主题的敏感词集合作为一个子集输入LDA模型进行学习训练,生成具有电力敏感信息主题识别输出的主题识别LDA模型。
[0068] 生成具有电力敏感信息主题识别输出的主题识别LDA模型部署到实际应用中,如电力敏感信息监控系统,对新文档进行主题识别,并根据识别结果采取相应的安全措施。
[0069] 在本实施例中,通过粗粒度划分还可以根据数据的特点和应用需求进行定制化。例如,在电力数据中,可以根据数据安全性等级进行划分,将个人数据、公司数据、国家数据等分别处理。这种定制化的划分有助于提高模型的灵活性和准确性,使得每个子集可以更好地捕捉到特定领域的主题信息。通过这种方式,我们可以更有效地识别敏感信息主题,从而更好地保护数据安全和隐私。
[0070] LDA模型是一种概率生成模型。它将文档视为词袋,即将文档视为一组单词,忽略了任何语法或词汇的顺序关系。LDA模型是一个包括文档层、主题层和词层的三层分层贝叶斯模型,可以将高维文本集映射到低维潜在语义空间。文档对主题的分布和主题对词的分布服从多项分布。隐含的主题被看作是单词特征的软聚类。LDA模型在更抽象的层次上实现了文本信息的泛化。主题生成过程如下:
[0071] p(θm)=Dir(θm|α)m=1,…,M
[0072] p(zm,n|θm)=Mult(zm,n|θm)n=1,…,Nm
[0073] p(wm,n|zm,n,β)=Mult(wm,n|βzm,n)n=1,…,Nm
[0074] 其中,Dir(·|·)表示Dirichlet分布函数;Mult(·|·)表示多项式分布函数;M是文档的总数。Nm是第m个文档中的总单词数。β是每个主题中单词的多项式分布的Dirichlet先验参数,α是每个文档下主题的多项式分布的Dirichlet先验参数。zm,n表示第m个文档中第n个单词的主题。Wm,n是第m个文档中的第n个单词,θm表示第m个文档下的主题分布。
[0075] 在LDA模型中,包括以下变量:k为主题数;M为文档的总数;Nd为文档d的词语数;α主题分布的先验参数;β词语分布的先验参数;Zdi文档d中第i个词;Wdi文档d中i第个词;θd为文档d的主题分布;φk为主题k的词语分布。
[0076] 对每个词wdi的主题zdi,其条件概率为:
[0077]
[0078] 其中, 表示文档d中除了wdi以外,被分配给主题k的词的数量; 表示文档d中除了Wdi以外的词的总数量; 表示词语v在主题k中出现的次数,除去Wdi;表示主题k中除了wdi以外的词的总数量。
[0079] 基于上述对LDA模型的解释,本实施例中采用改进的敏感词加权LDA模型,敏感主题词分布可以弥补LDA在识别低频词共现关系方面的不足,并提高共现频率低但具有明显敏感特征的单词的分布权重。通过这种方式,可以发现更多具有低频隐含关系的单词。
[0080] 敏感词加权的LDA模型基于标准LDA模型添加了约束变量δ。模型参数的计算主要包括文档‑主题分布θ和主题‑词分布φ的计算。采用基于蒙特卡罗马尔可夫链方法的折叠,吉布斯采样方法来推导模型,折叠吉布斯采是一种用于潜变量模型(如潜在狄利克雷分配LDA)的马尔科夫链蒙特卡洛方法。折叠吉布斯采样公式如下:
[0081]
[0082] 其中,p(wi|zi,δ)是在给定主题zi和参数δ的条件下,第i个单词wi的概率; 表示除了第i个单词以外,属于主题k的单词数; 表示在文档d中,除了第i个单词以外的所有单词数;V是词汇表的大小;k是主题的总数。
[0083] 在本实施例中敏感词加权LDA(LatentDirichletAllocation)模型生成文档的过程如下:
[0084] 对于每个文档:选择主题分布θ,其遵循Dirichlet分布(α)。对于文档中的每个词wj(j从1到N),如果wj属于敏感词集合Ssen,选择敏感词的主题分布φs,其遵循η倍的Dirichlet分布(β)(η是一个权重因子);否则选择主题分布φ,其遵循Dirichlet分布(β)。对于文档d中每个词wi的位置,选择主题zn,其遵循主题分布θ。如果wj属于敏感词集合Ssen,从敏感词的主题分布φs中选择wj。否则从主题分布φ中选择wi。
[0085] 对于主题模型,参数设置如下:a=50/K,其中K是主题的数量;β=0.01,迭代次数为100;n‑top的值为15,即每个主题的前15个概率值最高的词被视为主题词。
[0086] Perplexity被用作主题模型的评价标准。Perplexity是信息论中的一种度量方法,通常用于评估概率模型的优缺点和其泛化能力。概率模型的Perplexity被定义为基于概率模型的熵的能量。Perplexity越小,模型的泛化能力越强,生成的主题将具有更高的性能。为了找到最佳的主题数目,模型在主题数目从10到140的范围内进行训练。值的跨度是10。LDA模型中的最优Perplexity主题数目,选择LDA作为基线,证明了W‑LDA模型具有更好的泛化能力。
[0087] 本发明的一种构建电力敏感信息主题识别LDA模型方法通过获取电力系统中基本的敏感词汇;根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表;根据预设的划分规则对所述敏感词汇列表的敏感词进行主题划分,得到多个不同主题的敏感词集合;将每个主题的敏感词集合作为一个子集输入LDA模型进行学习训练,生成具有电力敏感信息主题识别输出的主题识别LDA模型。本发明通过对电力行业文本数据的深度挖掘和分析,结合LDA模型的主题识别算法,可以更加准确地识别和提取出敏感信息主题,为电力行业的安全发展和信息管理提供强有力的支持,保证了电力行业的信息安全,推动电力行业的智能化。
[0088] 优选的,本申请的一种优选实施方式中,所述计算预设的目标类别敏感词汇和所述敏感词汇的每个敏感词的词嵌入之间的相似性,根据相似性的得分结果筛选出预设数量的种子词,整理得到敏感词汇列表包括:
[0089] 步骤S21、通过选定Word2vec词嵌入模型分别训练所述目标类别敏感词汇和所述敏感词汇的每个敏感词,得到所述目标类别敏感词汇的词嵌入向量和所述敏感词汇的每个敏感词的嵌入向量;
[0090] 使用Google的word2vec模型进行词嵌入训练。word2vec的主要参数包括Size(词嵌入维度)指定词嵌入向量的维度大小。每个词将被表示为一个具有Size维度的向量。较大的Size值可以捕捉更多的语义信息,但也会增加计算复杂度和内存消耗。Window(上下文窗口大小)指定当前词汇与上下文词汇之间的最大距离。即,在训练时,将考虑窗口大小范围内的词作为上下文词汇。较大的Window值可以捕捉更广泛的上下文信息,但可能会引入更多噪声。较小的Window值则更侧重于局部上下文信息。、Min_count(词频最小阈值)Negative(负样本数量)在负采样(Negative Sampling)中指定每个正样本对应的负样本数量。负采样是一种加速训练过程的方法,通过减少更新的词对数量。适中的Negative值可以提高模型性能和训练效率。Iter(迭代次数)指定模型训练的迭代次数,即模型对整个语料库进行多少次训练。更多的迭代次数可以提高模型的准确性,但也会增加训练时间。
[0091] 本实施例中将Window(上下文窗口大小)设置为3,将Min_count(词频最小阈值)设置为4,轮次设置为100,Negative(负样本数量)设置为6。采用Skip‑gram结合负采样的模型来训练词嵌入。通过Word2vec对文本进行训练,所有单词都用R维向量表示。然后,将每个文本的内容映射到R维向量中。因此,文本的语义相似度可以通过空间向量的相似性表示。通过word2vec训练后,获得了词嵌入。
[0092] 步骤S22、计算所述目标类别敏感词汇的词嵌入向量与所述敏感词汇的每个敏感词的嵌入向量之间的余弦相似性;
[0093] 通过计算所述目标类别敏感词汇的词嵌入向量与所述敏感词汇的每个敏感词的嵌入向量之间的余弦相似度,相似度越小,距离越大,相似度越大,距离越小。
[0094] 步骤S23、根据所述余弦相似性的得分情况,筛选出与所述目标类别敏感词汇对应的预设数量的新种子词,整理得到敏感词汇列表。
[0095] 根据所述余弦相似性的得分情况,过滤出与每个敏感词语义距离最近的预设数量的种子词。在相似度计算之后,一些敏感词得到了有效的扩展。在获取了词嵌入之后,基于基本的敏感词汇计算出每个敏感词的最接近的10个词,但也发现了一些非敏感词。因此,需要对计算结果进行进一步的手动过滤,整理得到最终敏感词汇列表,确保扩展的敏感词汇的可靠性。
[0096] 与神经语言模型相比,word2vec的主要优势在于丢弃了繁琐计算的隐藏层,并支持向语言模型添加额外信息。基于词嵌入在语义计算中的优势,采用计算词嵌入之间距离的方法来扩展敏感词汇表。
[0097] 在另一些实施例中,词嵌入模型除了Word2Vec模型还可以采用GloVe词嵌入模型、FastText词嵌入模型和ELMO(Embeddings from Language Model)词嵌入模型等,每种模型都有其独特的特点和优势。在实际应用中,可以根据具体任务的需求选择合适的词嵌入模型。
[0098] 优选的,本申请的一种优选实施方式中,所述根据所述余弦相似性的得分情况,筛选出与所述目标类别敏感词汇对应的预设数量的新种子词,整理得到敏感词汇列表包括:
[0099] 步骤S201、对所述余弦相似性的得分结果进行降序排序;
[0100] 通过降序排序,将余弦相似度得分较高的词汇排在前面。这样做可以确保在后续步骤中,首先考虑的是与给定标准或查询最相似的词汇。
[0101] 提高筛选效率:排序后的列表使得筛选过程更加高效,因为只需要关注列表顶部的高相似度词汇,而无需对整个词汇集进行无差别的检查。
[0102] 步骤S202、根据预设的余弦相似度阈值,筛选出大于所述余弦相似度阈值,且位于排序靠前的预设数量的种子词;
[0103] 预设的余弦相似度阈值用于区分词汇与给定标准或查询的相似程度。只有那些相似度高于阈值的词汇才会被进一步考虑,这有助于排除不相关的词汇,减少噪声。通过预设数量限制,可以确保最终筛选出的种子词数量在可控范围内,避免过多或过少的词汇对后续分析造成影响。同时,这也使得筛选过程更加精确和高效。
[0104] 步骤S203、整理所述种子词得到敏感词汇列表。
[0105] 将筛选出的种子词进行汇总整理,形成最终的敏感词汇列表。整理过程包括去除重复词汇、调整词汇顺序等操作,以确保列表的准确性和可读性。敏感词汇列表是后续分析和应用的基础。通过这一步骤,可以清晰地呈现出哪些词汇被认为是敏感的,便于后续进行舆情监测、信息安全管理等操作。
[0106] 本申请实施例还提供一种构建电力敏感信息主题识别LDA模型系统,应用于前述的一种构建电力敏感信息主题识别LDA模型方法,包括:
[0107] 词汇获取单元,用于获取电力系统中基本的敏感词汇;
[0108] 词汇列表整合单元,用于根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表;
[0109] 主题分类单元,用于根据预设的划分规则对所述敏感词汇汇表进行主题划分,得到多个不同主题的敏感词集合;
[0110] 主题识别模型生成单元,用于将每个主题的敏感词集合作为一个子集输入LDA模型进行学习训练,生成具有电力敏感信息主题识别输出的主题识别LDA模型。
[0111] 在本实施例中,各单元对应的功能解释如前述的一种构建电力敏感信息主题识别LDA模型方法解释相同,在此不在重复赘述。
[0112] 本发明的一种构建电力敏感信息主题识别LDA模型系统通过词汇获取单元获取电力系统中基本的敏感词汇;词汇列表整合单元根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表;主题分类单元根据预设的划分规则对所述敏感词汇列表的敏感词进行主题划分,得到多个不同主题的敏感词集合;主题识别模型生成单元将每个主题的敏感词集合作为一个子集输入LDA模型进行学习训练,生成具有电力敏感信息主题识别输出的主题识别LDA模型。本发明通过对电力行业文本数据的深度挖掘和分析,结合LDA模型的主题识别算法,可以更加准确地识别和提取出敏感信息主题,为电力行业的安全发展和信息管理提供强有力的支持,保证了电力行业的信息安全,推动电力行业的智能化。
[0113] 本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行前述的一种构建电力敏感信息主题识别LDA模型方法。
[0114] 该实施例的技术效果与实施例的一种构建电力敏感信息主题识别LDA模型方法的技术效果相同,在此不再重复赘述。
[0115] 本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0116] 本申请实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前述的一种构建电力敏感信息主题识别LDA模型方法。
[0117] 该实施例的技术效果与实施例一种构建电力敏感信息主题识别LDA模型方法的技术效果相同,在此不再重复赘述。
[0118] 在本实施例的处理器可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、或其他数据处理芯片。
[0119] 与现有技术相比,本发明的有益效果为:
[0120] 本发明的一种构建电力敏感信息主题识别LDA模型方法通过获取电力系统中基本的敏感词汇;根据预设的目标类别敏感词和所述敏感词汇中的每个敏感词的相似性分析,得到敏感词汇列表;根据预设的划分规则对所述敏感词汇列表的敏感词进行主题划分,得到多个不同主题的敏感词集合;将每个主题的敏感词集合作为一个子集输入LDA模型进行学习训练,生成具有电力敏感信息主题识别输出的主题识别LDA模型。本发明通过对电力行业文本数据的深度挖掘和分析,结合LDA模型的主题识别算法,可以更加准确地识别和提取出敏感信息主题,为电力行业的安全发展和信息管理提供强有力的支持,保证了电力行业的信息安全,推动电力行业的智能化。
[0121] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0122] 在本发明所提供的实施例中,应该理解到,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元可结合为一个单元,一个单元可拆分为多个单元,或一些特征可以忽略等。
[0123] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0124] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑0nlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0125] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页 第1页 第2页 第3页
相关技术
介质处理器相关技术
信息主题相关技术
艾徐华发明人的其他相关专利技术