首页 / 一种基于录波文件的同源录波数据匹配方法

一种基于录波文件的同源录波数据匹配方法实质审查 发明

技术领域

[0001] 本发明涉及同源录波数据匹配技术领域,具体为一种基于录波文件的同源录波数据匹配方法。

相关背景技术

[0002] 为保证智能变电站的安全稳定运行,继电保护系统往往遵循双重化配置原则,并且规定按电压等级和网络配置故障录波装置,要求能够完成继电保护开关量和电气量的采集和记录。这种冗余配置会在电网发生故障或扰动时产生大量的同源录波数据。然而,不同生产厂家制造的保护装置与故障录波装置的型号种类多样。不同时期的录波数据记录标准也有所不同,导致录波文件的通道名称和索引号存在个性化差异,难以进行同源录波数据的准确匹配。因此,亟须研究同源录波数据匹配方法,增强对海量录波数据的整合利用,帮助现场运行人员进行事故分析。
[0003] 目前,录波文件的记录格式主要采用IEEE制定的电力系统暂态数据交换通用格式(common format for transient data exchange for power systems,COMTRADE)标准,用于规范电力数字记录设备在进行故障录波时的存储格式,便于第三方解析软件的分析和处理。COMTRADE的标准版本共有1991版、1999版和2013版。其中,1999版在1991版的基础上增加了信息文件,并在配置文件中给出互感器变比、字段格式等扩展信息。2013版又在1999版的基础上进一步修订和完善配置文件格式,并允许使用单文件COMTRADE格式(.CFF)代替4个独立文件。另外,电力系统的建设年代长久,存在大量规格型号不一,性能不同的保护和录波装置分布在各变电站。以录波装置为例,当前国内主要有9个制造厂商、25个主流型号,且均是根据厂家自身对标准的解读去定义录波文件格式,存在多种版本和不同程度的差异。而传统的人工通道匹配方法工作量大,所需时间长,且易发生同源通道匹配错误。
[0004] 为此,本发明提出一种基于录波文件的同源录波数据匹配方法。

具体实施方式

[0051] 下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052] 请参阅图1‑6,本发明提供了一种基于录波文件的同源录波数据匹配方法,包括以下步骤:
[0053] 步骤一,同源录波数据匹配技术框架:读取双重化配置的保护装置或者同一间隔下的保护装置与故障录波装置产生的同源录波文件,提取出同源配置文件与数据文件;然后,构建核查信息表分别对配置文件与数据文件进行校核;若两文件均校核成功则利用Sentence‑MacBERT模型进行同源通道名称匹配,并提取出同源通道的录波数据完成数据匹配;若校核失败,则根据核查信息表中对应的错误类型发出相应告警信息;
[0054] 步骤二,录波文件格式分析:录波文件包括四个子文件:头标文件、配置文件、数据文件和信息文件;其中,配置文件与数据文件是录波文件集中的必选文件,也是提取录波数据的关键性文件,需对其格式特点进行分析;对其格式特点进行分析具体如下:
[0055] (1)、配置文件标准格式:配置文件采用ASCII文本格式编写,用于供工作人员或计算机程序读取和分析数据文件中的录波数据;
[0056] (2)、数据文件标准格式:数据文件用于记录采样得到的录波数据,包含每次采样的采样序号、时标和每个采样通道的数据值;数据文件格式类型为ASCII格式或二进制格式,应与配置文件中定义的类型保持一致;对于ASCII格式的数据文件,每行的行尾仍使用作为结束符,数据之间使用逗号分隔符隔离;而对于二进制格式的数据文件,行尾不再使用标注,数据之间相互连续,无逗号分隔符,若任意元素缺失,变量的序列也将被破坏,用于供工作人员或计算机程序读取和分析数据文件中的录波数据,所包含的信息如下:
[0057] 1)厂站名、装置标识和COMTRADE标准版本年号;
[0058] 2)通道总数和类型;
[0059] 3)通道名称、单位和转换因子;
[0060] 4)标称电网频率;
[0061] 5)采样率信息;
[0062] 6)第一个数据点的日期和时间;
[0063] 7)触发点的日期和时间;
[0064] 8)数据文件的类型;
[0065] 9)时标倍率因子;
[0066] 10)时间编码和当地编码;
[0067] 11)采样的时间品质;
[0068] 配置文件的信息由若干行组成,行尾使用作为每一行的结束符,每行的各个数据域以逗号分隔符“,”进行隔离;对于没有信息输入的数据域,也需保留逗号分隔符[0069] 步骤三,录波文件自动校核:由于在读取录波文件时会出现乱码、数据缺失情况,导致文件解析失败,无法进行后续的同源录波数据匹配;对此,根据配置文件和数据文件的格式特点以及时常发生的错误类型构建录波文件核查信息表,利用Python语言编程实现录波文件的自动校核;配置文件与数据文件的核查信息表分别如表1、2所示。
[0070] 表1配置文件核查信息表
[0071]
[0072] 表2数据文件核查信息表
[0073]
[0074] 表1、2中列出了错误类型对应的编号以及校核方案。其中,编号为A2、A3、A4、A8、B6、B7的错误类型认为文件无法校核,文件解析失败,发出相应错误信息的告警信息;编号为A1、A5、A7、B1、B2、B4、B5的错误类型认为文件校核成功,可进行后续的同源录波数据匹配;编号为A6与B3的错误类型需进行联合判断是否校核成功。
[0075] 步骤四,同源通道名称匹配:由于各类制造厂家根据自身理解进行通道命名,导致在智能变电站不同建设时期配置的录波通道名称具有个性化差异,且通道的排列顺序不一致;在进行同源录波数据匹配时需要匹配各个通道名称及对应的录波数据;对此,根据通道名称的短文本特性,利用文本相似度匹配技术对同源通道名称自动匹配,并根据匹配得到的通道索引号提取同源数据文件中的对应录波数据;提取同源数据文件中的对应录波数据具体如下:
[0076] (1)、BERT预训练模型:进行文本相似度匹配首先应利用语言模型将通道名称转化为词向量的表示形式,以便计算机能够进行识别和处理;BERT模型的普适性强,具有Word2Vec、ELMo以及GPT模型的优点,由双向Transformer的encoder结构组成;如附图2所示:
[0077] 附图2中的[CLS]是用来作为输入文本开始的标志,[SEP]用来作为句子间分隔或文本结束的标志。输入信息经过双向Transformer编码器进行特征提取后,最终得到具有文本特定信息的动态特征向量。BERT模型的预训练任务由掩码语言模型(Masked Language Model,MLM)和下句预测(Next Sentence Prediction,NSP)两个子任务构成。MLM通过随机掩码词汇来学习上下文信息特性,从而进行词汇预测,同时赋予BERT模型一定的纠错能力;NSP则通过学习句子间的特征关系来预测句子之间的位置是否相连。BERT模型将MLM与NSP任务进行联合训练,使得BERT模型输出的特征向量能够表示输入文本的整体信息。
[0078] (2)、Sentence‑MacBERT通道匹配模型构建:MacBERT是在BERT模型基础上提出的改进预训练语言模型,其通过设计更巧妙的MLM任务来缓解BERT模型在预训练任务和下游微调任务存在的不一致问题,能够提高模型的训练效果与计算速度,具体改进策略如下:
[0079] 1)提出MLM校正策略,利用相似词替代被掩码的字符,减轻了预训练和微调阶段之间误差,并随机替换没有近义词的字词;
[0080] 2)采用全词掩码策略来代替随机掩码,同时利用N‑gram掩码策略来决定需要掩码的字词;
[0081] 3)提出利用句子顺序预测任务来代替NSP任务,让模型去预测两个句子的前后顺序,帮助模型获取更多的文本语义信息;
[0082] 然而,仅使用MacBERT模型生成的特性向量进行文本相似度计算会造成巨大的计算开销,且其句子表征效果不理想;对此,构建Sentence‑MacBERT模型,利用孪生网络结构对MacBERT模型进行微调,生成具有语义信息的句子嵌入向量,增强通道名称匹配模型的特征提取能力,提高其计算效率;模型结构如附图3所示:
[0083] 由附图3可看出Sentence‑MacBERT使用孪生网络结构,将录波通道名称A、B传入给两个相同的MacBERT中进行编码,MacBERT共享相同的权重参数,并且在MacBERT层后加入Pooling层进行平均池化操作,本发明采用均值池化策略计算每个字词输出向量的平均值,生成两个固定维度的句子嵌入向量u和v。通过计算两向量之间的余弦相似度cosθ来度量录波通道名称的相似性,计算公式如式(1)所示。
[0084]
[0085] 余弦相似度的绝对值越大代表通道名称越相似,本发明选择相似度最高的匹配项作为最终结果,并从数据文件中提取对应的录波数据进行数据匹配。
[0086] 步骤五,案例实施:利用Python编程语言进行同源录波数据匹配实验,实验环境如下:操作系统为Windows 11,处理器为Intel(R)Core(TM)i5‑13500HX,显卡为NVIDIA GeForce RTX 4060,内存大小为16GB,编程平台为PyCharm,编程语言环境为Python 3.7.1,建模环境为Pytorch 1.10.0;具体实施如下:
[0087] (1)、录波文件自动校核实验:为检验录波文件的自动校核效果,从智能变电站中抽取解析失败的录波文件,并选取部分正确录波文件人为制造其他错误类型;根据核查信息表利用Python编程语言搭建实验环境,进行录波文件自动校核实验;各种错误类型及其实验结果如表3所示:
[0088] 表3录波文件自动校核实验结果
[0089]
[0090]
[0091] 由表3可知,错误类型的校核结果均与核查信息表的校核方案一致,能够完成录波文件的自动校核,并对无法校核的录波文件发出相应的错误告警。
[0092] (2)、同源通道名称匹配实验:为验证基于Sentence‑MacBERT模型的通道名称匹配效果,从智能变电站中抽取录波文件中的通道名称构建数据集进行模型训练;构建的样本总量为3440条,以8:1:1的比例划分训练集、测试集和验证集;部分数据集示例如表4所示。
[0093] 表4部分数据集示例
[0094]通道名称A 通道名称B 标签
218XXⅡ线电流A相Ia 218XX2线a相电流Ia 1
线路7电流B相Ib 线路7电流‑IB 1
线路4零序电流3Io 线路4电流I0 1
218XXⅡ线电压A相Ua 218XX2线b相电压Ub 0
218XXⅡ线零序电流3I0 218XXⅠ线零序电流 0
线路7电流B相Ib 线路4电流IB 0
[0095] 其中,正样本为同源录波通道名称文本,对应的标签为1;负样本为非同源录波通道名称文本,对应的标签为0。
[0096] 本发明利用准确率A和F1值作为通道名称匹配模型的评估指标。其中,准确率为预测结果正确的样本数据占总样本个数的百分比,计算公式如式(2)所示。
[0097]
[0098] TP代表实际值与预测值都为1的样本比例;FN代表实际值为1但预测值为0的样本比例;FP代表实际值为0但预测值为1的样本比例;TN代表实际值与预测值都为0的样本比例。
[0099] 然而,仅依靠准确率难以全面衡量通道名称匹配模型的识别性能,因此引入F1值评估指标,F1值为精确率P和召回率R的调和均值,其值越高表示通道名称匹配模型的综合识别效果越优。计算公式如式(3)、(4)、(5)所示。
[0100]
[0101] 为验证本文提出的通道名称匹配模型的识别效果,本发明利用构建的通道名称数据集分别训练Sentence‑BERT模型和Sentence‑MacBERT模型,对模型进行微调,保存最优模型进行通道名称匹配实验。其中,Sentence‑MacBERT模型的训练参数设置如表5所示。
[0102] 表5Sentence‑MacBERT模型的训练参数
[0103]训练参数 设置值 参数含义
Epoch 20 训练次数
Batch_size 16 批处理尺寸
evaluation_steps 100 评估步长
warmup_steps 150 预热步长
[0104] 使用准确率和F1值作为Sentence‑BERT模型和Sentence‑MacBERT模型在训练过程中的监控指标,训练结果如附图4、附图5所示。
[0105] 由附图4和附图5可以看出,Sentence‑BERT和Sentence‑MacBERT模型在训练初期就取得较高的准确率和F1值。此外,随着训练次数的增加,两种监控指标的变化趋势均为先增高然后趋于稳定。Sentence‑BERT模型在训练第11个epoch时取得最优模型,准确率和F1值在87.5%左右;Sentence‑MacBERT模型在训练第16个epoch模型时取得最优模型,准确率和F1值均在95%以上。表明本发明提出的Sentence‑MacBERT模型的训练效果要优于Sentence‑BERT模型。
[0106] 为进一步验证本发明所提Sentence‑MacBERT模型的优越性,本发明使用原始BERT、MacBERT模型针对测试集直接进行通道名称匹配实验,然后利用微调训练后保存的最优模型Sentence‑BERT和Sentence‑MacBERT模型,针对同一测试集进行比对实验,四种模型的实验结果如表6所示。
[0107] 表6不同模型的实验结果
[0108] 模型 准确率A F1值BERT 67.08% 72.47%
MacBERT 74.17% 75.17%
Sentence‑BERT 85.42% 87.80%
Sentence‑MacBERT 95.83% 96.09%
[0109] 由表6可知,经过微调之后的Sentence‑BERT模型相比于BERT模型,其准确率提升了18.34%,F1值提升了15.33%;Sentence‑MacBERT模型相比于MacBERT模型,其准确率提升了21.66%,F1值提升了20.92%。Sentence‑MacBERT模型的准确率能够达到95.83%,相比于Sentence‑BERT模型提升了10.41%,且其F1值达到了96.09%,相比于Sentence‑BERT模型提升了8.29%。表明了本发明所提的Sentence‑MacBERT模型在通道名称匹配方面具有更好的识别效果,能够有效地完成同源录波通道名称匹配任务
[0110] (3)、同源录波数据匹配实验:利用训练好的Sentence‑BERT模型匹配同源通道名称与通道索引号,然后根据录波通道索引号定位提取出同源数据文件中的对应录波数据,完成同源录波数据匹配;以智能变电站导出的某同源录波文件为例,进行同源录波数据匹配实验,实验结果如表7,附图6所示:
[0111] 表7同源通道索引号匹配结果
[0112]
[0113] 由表7可看出,同源录波文件的同源通道均能被正确匹配。附图6是根据通道索引号提取出的部分录波数据,实现了录波数据的同源匹配,验证了本发明方法的有效性。
[0114] 综上所述,本发明提出一种基于录波文件的同源录波数据匹配方法。首先,分析录波文件的记录格式和文件解读时易发生的错误问题,构建核查信息表对录波文件进行自动校核。然后,利用Sentence‑MacBERT模型获取通道名称的特征向量,通过计算余弦相似度实现同源通道匹配。最后,根据同源通道定位提取出同源录波数据,提供给运行人员进行综合分析判断,提升智能变电站故障分析水平和效率。
[0115] 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页