技术领域
[0001] 本发明涉及电子系统故障诊断技术领域,特别是涉及一种故障诊断方法。
相关背景技术
[0002] 随着新一代信息技术快速发展,大型装备电子系统的综合化、模块化特征日益显著,电子部件之间交联关系复杂,故障模式多样且相互耦合性强,这对复杂电子系统故障诊断和定位提出了更高的要求。随着信息感知、采集、传输、压缩、存储等技术发展,在机载、舰载、车载、星载等条件下可获得海量的扩展内建自测试(BITE)时间序列数据,如何根据这些BITE数据并融合网络拓扑、使用时间、可靠性等多源信息,快速、准确地对故障进行定位并进行修复,成为了目前亟待研究的问题。
具体实施方式
[0033] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的优选实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反的,提供这些实施方式的目的是为了对本发明的公开内容理解得更加透彻全面。
[0034] 需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“前”、“后”、“周向”以及类似的表述是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0035] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0036] 随着新一代信息技术快速发展,大型装备电子系统的综合化、模块化特征日益显著,电子部件之间交联关系复杂,故障模式多样且相互耦合性强,这对复杂电子系统故障诊断和定位提出了更高的要求。本发明基于机载、舰载、车载、星载等条件下较易获得的复杂电子系统拓扑连接关系、故障传播效应、异常事件信息、使用时间和平均无故障工作时间等多源诊断信息,提出一种适用于复杂电子系统的故障诊断方法,在空间上和时间上实现对复杂电子系统各部件的多源诊断信息综合,降低故障诊断对专用测试设备的依赖性,为复杂电子系统快速准确的故障隔离定位和部件维修更换提供依据。
[0037] 图1为本发明其中一实施例的故障诊断方法的方法流程图,所述故障诊断方法应用于电子系统中,该电子系统为复杂电子系统包括n个部件,n为大于1的正整数。在其中一个实施例中,所述故障诊断方法包括如下步骤S100至S500。
[0038] S100:根据电子系统中各部件之间的信息交互关系建立故障传播模型。
[0039] S200:在n个部件中选择m个部件作为故障监测点,m为小于等于n的正整数,分别获取各个故障监测点的实时监测数据;实时监测数据包括多个测试值。
[0040] S300:当电子系统发生故障时,根据故障传播模型依次计算故障分别从n个部件传播至各故障监测点,导致各故障监测点的测试值出现异常现象的期望发生异常事件数量。
[0041] S400:根据实时监测数据依次计算故障分别从n个部件传播至各故障监测点,导致各故障监测点的测试值出现异常现象的实际发生异常事件数量。
[0042] S500:根据期望发生异常事件数量、实际发生异常事件数量、各部件平均无故障工作时间和各部件的累计工作时间获取各部件的故障诊断指标,将故障诊断指标作为依据对电子系统进行故障推理。
[0043] 在不同层次的电子系统中,部件可以是以系统、设备、模块、可更换单元或功能电路等为单位进行划分的。根据复杂电子系统中各部件间的拓扑连接关系以及各部件之间的信息交互关系,获取复杂电子系统中的故障传播效应,从而建立起该复杂电子系统的故障传播模型。当复杂电子系统中出现故障时,由于各部件之间相互耦合性强,一个部件出现故障可能传播至其他的部件,从而导致系统中多个部件出现异常情况。因此,任意选取m个部件作为复杂电子系统的故障监测点,m≤n,且m也为正整数。对故障监测点进行实时监测,记录各个故障监测点的实时监测数据。其中,实时监测数据中包括多个测试值。当一个测试值的数据出现异常时,判定为一次异常事件。
[0044] 当复杂电子系统在实际应用中发生故障时,假设某一器件中出现了故障,根据建立的故障传播模型计算故障从该器件传播至各故障监测点,从而导致各故障监测点出现异常事件的实际发生异常事件数量。同时,根据实时监测数据计算故障从该器件传播至各故障监测点,从而导致各故障监测点出现异常事件的实际发生异常事件数量。重复上述步骤,直至获取电子系统中所有部件的期望发生异常事件数量和实际发生异常事件数量。
[0045] 根据期望发生异常事件数量、实际发生异常事件数量、各部件平均无故障工作时间和各部件的累计工作时间获取电子系统中各部件的故障诊断指标,将故障诊断指标作为判断依据,对电子系统中哪一部件发生了故障件推理判断。本发明提供的故障诊断方法通过建立故障传播模型,实现了在空间上对复杂电子系统各部件异常事件的综合,同时也实现了拓扑连接关系、故障传播效应、异常事件信息、使用时间和平均无故障工作时间等多源信息融合。综合多源信息对电子系统发生故障的器件进行故障推理,可为复杂电子系统快速准确的故障隔离定位和部件维修更换提供依据,降低故障诊断对专用测试设备的依赖性。
[0046] 图2为本发明其中一实施例的故障传播模型的获取方法流程图,在其中一个实施例中,根据电子系统中各部件之间的信息交互关系建立故障传播模型,包括如下步骤S110至S130。
[0047] S110:根据各部件间的连接关系获取电子系统中相邻两部件的故障传播能力指数。
[0048] S120:列举电子系统中其中一部件连接至另一部件的所有连接通路,并根据涉及部件间的故障传播能力指数计算各连接通路上的故障传播能力指数。
[0049] S130:根据电子系统中所有连接通路的故障传播能力指数,获取电子系统的故障传播模型。
[0050] 由于电子系统中各部件之间的耦合关系复杂,在出现故障时,器件间故障传播的情况也较为复杂,因此在进行故障分析时,需要首先对电子系统中具有直接连接关系的部件之间的故障直接传播能力进行分析。然后分析两个通过中间部件实现连接的部件之间的故障间接传播能力,最后综合两部件之间的故障直接传播能力和故障间接传播能力来建立起整个电子系统的故障传播模型。
[0051] 根据电子系统中各部件间的连接关系,以及部件之间的直接故障效应传播能力,来获取电子系统中相邻两部件的故障直接传播能力指数。列举电子系统中部件vi连接至部件vj的所有连接通路。连接通路指的是部件vi与部件vj之间通过一个或多个中间部件实现了间接连接,其中涉及到的所有部件之间都是两两直接连接的。根据所有涉及到的部件两两之间的故障传播能力指数,获取部件vi与部件vj间每一条连接通路上的故障传播能力指数。综合部件vi与部件vj间所有连接通路的的故障传播能力指数,获取电子系统的故障传播模型。
[0052] 图3为本发明其中一实施例的故障传播能力指数的获取方法流程图,在其中一个实施例中,根据各部件间的连接关系获取电子系统中相邻两部件的故障传播能力指数,包括如下步骤S111至S117。
[0053] S111:将n个部件分别定义为n个节点,获取电子系统的节点集。
[0054] S113:根据各部件间的连接关系获取电子系统的有向边集。
[0055] S115:节点集V和有向边集E构成了电子系统的有向图,使用邻接矩阵来标识电子系统的有向图。
[0056] S117:根据邻接矩阵获取电子系统的故障传播能力指数矩阵。
[0057] 将电子系统中的n个部件分别定义为n个节点,将电子系统描述为一个图的节点集V={vi},其中,i=1,2,3,…,n,n为电子系统的部件数。图4为本发明其中一实施例的电子系统部件有向图,部件和部件之间的连接关系描述为图的有向边集E={eij},有向边集E表示节点集V中各部件之间的故障传输路径,其中,传播方向由部件vi指向部件vj。例如,e13即为由部件v1指向部件v3。
[0058] 在获取了电子系统的节点集V和有向边集E后,即可构成该电子系统的有向图G={V,E}。使用邻接矩阵A来标识有向图G,邻接矩阵A为一个n×n的矩阵,A=(aij)n×n,i,j=1,2,...,n,邻接矩阵A为:
[0059]
[0060] 其中,邻接矩阵A中的元素aij的取值方式为:
[0061]
[0062] 元素aij的值根据电子系统中部件和部件之间的连接关系确定,以图4所示的电子系统中部件连接关系为例,对邻接矩阵A中各元素的取值方式进行说明。如图4所示,部件v1与部件v2之间不存在直接有向边连接,则a12=0;而部件v1与部件v3之间存在直接有向边连接,则a13=1。
[0063] 为描述部件之间故障效应传播能力,需要将邻接矩阵A转换为故障传播能力指数矩阵P。通过将邻接矩阵A中所有元素aij转换为pij,以获取故障传播能力指数矩阵P。故障传播能力指数矩阵P中的各元素pij是用于定义部件vi的故障向部件vj直接传播的能力的,因此故障传播能力指数矩阵P是用于描述电子系统中所有部件之间的直接故障传播能力的。所述故障传播能力指数矩阵P为:
[0064]
[0065] 其中,元素pij的取值方式与元素aij不同,并不是以部件之间是否存在直接有向边连接为取值条件简单地将取值划分为1或0。pij的取值可以通过物理分析或经验确定,其取值范围为0≤pij≤1。pij的取值可以认为是部件vi上的故障直接传递到部件vj的概率大小。在一些特别情况下,例如对于部件vi与部件vj存在直接连接的因果关系的情形下,即在部件vi出现故障时必然会导致部件vj出现故障的必然事件,则此时定义故障传播能力指数为1,即pij=1;如果两个部件之间不存在直接连接边,且不存在必然的因果关系,则其故障效应传播能力为0,即pij=0。
[0066] 在其中一个实施例中,故障传播模型包括故障传播综合能力指数。根据电子系统中所有部件vi与部件vj间的故障传播能力指数,获取电子系统的故障传播综合能力指数,用以描述各部件之间的综合故障传播能力。
[0067] 以图4所示的电子系统中部件连接关系为例,对综合故障传播能力的建立过程进行说明。首先,搜索部件vi到达部件vj的所有通路。在此,不妨假设部件vi到达部件vj间具有r条通路。可以列举出如下所示的r条通路:
[0068]
[0069] 由于连接通路中各相邻两部件必然是两两之间连接的,那么相邻两部件之间的故障直接传播能力也是已知的,因此,可以根据上述实施例中获取的故障传播能力指数矩阵P,对于部件vi故障传递至部件vj的各条通路,分别计算各通路上故障传播的综合能力指数,综合能力指数的计算方式如下:
[0070]
[0071] 重复上述步骤,直至完成电子系统中所有部件两两组合之间的所有通路,并计算获取所有通路上故障传播的综合能力指数。
[0072] 如图4中所示,虽然部件v1与部件v8之间没有直接连接,但是可以通过例如部件v3等一个或多个中间部件实现连接。将部件v1与部件v8之间所有可能的通路都列举出来,可得:
[0073]
[0074] 根据上述实施例中获取的故障传播能力指数矩阵P,对于部件v1故障传递至部件v8的各条通路,分别计算r条通路上故障传播的综合能力指数,可得:
[0075]
[0076] 在其中一个实施例中,根据电子系统中所有连接通路的故障传播能力指数,获取电子系统的故障传播模型,包括对电子系统上各部件与另一个部件之间所有连接通路的故障传播能力指数进行加权平均,以获取获取电子系统的故障传播综合能力指数矩阵。
[0077] 在获取了部件vi与部件vj之间所有通路故障传播的综合能力指数后,对其进行进行加权平均以获取部件vi与部件vj之间的故障传播综合能力指数。加权平均计算式如下:
[0078]
[0079] 其中,qij为部件vi与部件vj之间的故障传播综合能力指数, 分别为第1条通路的加权系数、第2条通路的加权系数、...、第r条通路的加权系数,
分别为第1条通路的综合能力指数、第2条通路的综合能力指数、...、第r
条通路的综合能力指数。其中, 在实际应用时,一种最简单的加权平均
方式为算术平均。由此得到故障传播的综合能力指数矩阵Q=(qij)n×n,所述故障传播综合能力指数Q为:
[0080]
[0081] 在其中一个实施例中,可以使用一种简单赋值方法来获取部件vi与部件vj之间的故障传播综合能力指数qij,部件vi上的故障向部件vj的传播能力随着两个部件之间距离大小以指数级别递进。例如,将该指数设定为常数x,x的取值范围为0<x≤1,x可根据实际应用进行取值,取例如1、0.9、0.8或0.5等的数值。当部件vi上的故障向部件vj传播只有一条通路且距离为1时,则qij=x。如果部件vi上的故障向部件vj传播只有一条通路且距离为2时,2
则qij=x。在本实施例中,在建立电子系统的故障传播模型时,通过利用部件vi与部件vj之间随着距离增加故障传播效应不断减弱的赋值机制,可实现在空间上对复杂电子系统各部件异常事件的综合。
[0082] 图5为本发明其中一实施例的期望发生异常事件数量的获取方法流程图,在其中一个实施例中,当电子系统发生故障时,根据故障传播模型依次计算故障分别从n个部件传播至各故障监测点,导致各故障监测点的测试值出现异常现象的期望发生异常事件数量,包括如下步骤S310至S320。
[0083] S310:当电子系统发生故障时,获取故障监测点在数据采样时刻的期望发生异常事件数量。
[0084] S320:根据故障传播模型和期望发生异常事件数量,依次计算n个部件的期望发生异常事件数量。
[0085] 从部件v1,v2,v3,…,vn等n个部件中选择m个部件作为故障监测点,m≤n,将上述m个部件称之为故障监测器,分别记为vj1,vj2,...,vjm。
[0086] 当电子系统发生故障时,假定在数据采样时刻t,获得监测器vjk,k=1,2,...,m的实时监测数据,实时监测数据中包括 个测试值。例如,当监测器为通用处理板卡时,获取该监测器的实时监测数据,实时监测数据中包括温度、频率、占用率、IO电压、锁相环电压等内建自测试(BIT)值。
[0087] 在数据采样时刻t时,假设部件vk,k=1,2,...,n出现故障,故障会从部件vk传播至上述选定的m个监测器中,使得其测试值出现异常,其期望发生异常事件数量记为
[0088] 通过代入下述计算式,以计算获取与该部件vk,k=1,2,...,n相关的期望发生异常事件数量,期望发生异常事件数量计算式为:
[0089]
[0090] 重复上述步骤,直至完成电子系统中对所有的n个部件的期望发生异常事件数量的计算。
[0091] 图6为本发明其中一实施例的实际发生异常事件数量的获取方法流程图,在其中一个实施例中,根据实时监测数据依次计算故障分别从n个部件传播至各故障监测点,导致各故障监测点的测试值出现异常现象的实际发生异常事件数量,包括如下步骤S410至S420。
[0092] S410:获取故障监测点在数据采样时刻的实际发生异常事件数量。
[0093] S420:根据故障传播模型和实际发生异常事件数量,依次计算n个部件的实际发生异常事件数量。
[0094] 根据数据采样时刻t获取的m个监测器上的实时监测数据,计算在数据采样时刻t,当部件vk,k=1,2,...,n上发生故障从而传输至监测器导致的实际发生异常事件数量,实际发生异常事件数量计算式为:
[0095]
[0096] 重复上述步骤,直至完成电子系统中对所有的n个部件的实际发生异常事件数量的计算。
[0097] 在其中一个实施例中,上述故障诊断方法还包括针对一段预设的时间范围内[t‑t0,t]上,选取多个采集时间点,根据不同时间点上采集到的监测器的实时监测数据,分别对不同时间点所有的n个部件的期望发生异常事件数量和实际发生异常事件数量进行计算,并统计上述期望异常事件数量和发生异常事件数量指标:
[0098]
[0099] 由于在实际应用中,通常情况下随着采样时间推移,最新的异常数据更能表征部件的最新故障状态信息,因此对于最近发生异常的数据赋予较大的权重,更早发生异常的数据赋予较小的权重。针对这些异常数据,采用以往因子对这些数据进行加权,以体现最近发生异常的数据在故障诊断中作用,从而对上述期望异常事件数量和发生异常事件数量指标进行修正,修正表达式如下:
[0100]
[0101] 其中,λ的取值范围为0<λ≤1,λ根据实际应用中的测试需求进行取值,可取例如1、0.95、0.9、0.8等数值。特别地,当λ=1时,则表明对预设的时间范围内[t‑t0,t]内所有采样时刻的数据都赋予相同权重。本发明通过使用“遗忘因子”对测试值出现异常的异常事件进行加权处理,对于最近发生异常的数据赋予较大的权重,更早发生异常的数据赋予较小的权重,从而实现了在时间轴上对长时间采集的BITE数据的综合。
[0102] 图7为本发明其中一实施例的故障推理的方法流程图,在其中一个实施例中,根据期望发生异常事件数量、实际发生异常事件数量、各部件平均无故障工作时间和各部件的累计工作时间获取电子系统的故障诊断指标,将故障诊断指标作为依据对电子系统进行故障推理,包括如下步骤S510至S550。
[0103] S510:根据各个部件的期望发生异常事件数量和各个部件的实际发生异常事件数量计算各个部件的可信度指标和鲁棒性指标。
[0104] S520:根据各个部件的平均无故障工作时间和各个部件的累计工作时间计算各个部件的寿命剩余度指标。
[0105] S530:根据各个部件的可信度指标、鲁棒性指标和寿命剩余度指标获取各个部件的故障诊断指标。
[0106] S540:将各个部件的故障诊断指标分别与预设阈值进行对比。
[0107] S550:当部件的故障诊断指标大于预设阈值时,则判断部件出现故障。
[0108] 在获取了各个部件的期望发生异常事件数量和实际发生异常事件数量后可以计算获取各个部件的可信度指标和鲁棒性指标。同时,可以根据部件性能指标获取各个部件的平均无故障工作时间,根据各个部件的平均无故障工作时间和累计工作时间计算获取各个部件的寿命剩余度指标,综合考虑上述三个指标作为故障诊断推理决策依据。
[0109] 根据可信度指标、鲁棒性指标和寿命剩余度指标获取各个部件的故障诊断指标。根据故障诊断指标判断哪一部件出现故障的可能性最高,为复杂电子系统快速准确的故障隔离定位和部件维修更换提供依据。本发明综合利用复杂电子系统的拓扑连接关系、故障传播效应、异常事件信息、使用时间和平均无故障工作时间等多源信息,与当前复杂电子系统中出现的故障数据条件进行匹配,从而推断获知出现故障的器件,可以有效降低故障诊断对专用测试设备的依赖性。
[0110] 在其中一个实施例中,假定部件vi,i=1,2,...,n出现故障,可行度指标为由该假设部件vi故障引发的实际异常事件数量与总的实际异常事件数量的比值表示。所述可信度指标的计算式为:
[0111]
[0112] 其中,Pi为第i个部件的可信度指标,Ni为第i个部件的实际发生异常事件数量,∑i=1Ni为所有部件的实际发生异常事件数量之和,其中,i为小于等于n的正整数。利用上述可信度指标作为故障推理的依据时,由该假设部件vi故障引发的实际异常事件数量在总的实际异常事件数量中占比越大,则该部件vi发生故障可能性就越大。
[0113] 假定部件vi出现故障,鲁棒性指标为由该假设部件vi故障引发的实际异常事件数量与期望异常事件数量的比值表示。所述鲁棒性指标的计算式为:
[0114]
[0115] 其中,Ri为第i个部件的鲁棒性指标,Ni0为第i个部件的期望发生异常事件数量。利用上述鲁棒性指标作为故障推理的依据时,该指鲁棒性指标可以用于表明实际异常事件数量与期望事件数量之间的偏差。
[0116] 假定部件vi的平均无故障工作时间为MTBFi。同时,部件vi的累计工作时间为Ti,则所述寿命剩余度指标为:
[0117]
[0118] 其中,Li为第i个部件的寿命剩余度指标,Ti为第i个部件的累计工作时间,MTBFi为第i个部件的平均无故障工作时间。利用上述寿命剩余度指标作为故障推理的依据时,部件vi累计工作时间与寿命剩余度指标越接近时,则表明部件vi发生故障可能性就越大。
[0119] 在其中一个实施例中,对上述三个指标进行加权综合并进行故障推理,从而为实现有效故障隔离提供依据,将加权综合后的指标作为各部件的故障诊断指标。所述故障诊断指标的计算式为:
[0120] Di=αPi+βRi+γLi;
[0121] 其中,Di为第i个部件的故障诊断指标,Pi为第i个部件的可信度指标,Ri为第i个部件的鲁棒性指标,Li为第i个部件的寿命剩余度指标,α、β、γ为系数,且α+β+γ=1,0≦α,β,0
γ≦1。设定一预设阈值D 作为故障评判标准,分别将各个部件vi的故障诊断指标Di与预设
0 0
阈值D进行比较。判定大于预设阈值D的故障诊断指标Di所对应的部件vi发生了故障。对所有可能发生了故障的故障诊断指标Di高到低进行排序,则数值越大的故障诊断指标Di所对应的部件vi出现故障的可能性越大。
[0122] 特别地,当α=1,β=0,γ=0时,则表明在判断电子系统中哪一部件出现故障时,主要从可信性指标作为判据进行故障推理。当α=0,β=1,γ=0时,则表明在判断电子系统中哪一部件出现故障时,主要从鲁棒性指标作为判据进行故障推理。当α=0,β=0,γ=1时,则表明在判断电子系统中哪一部件出现故障时,主要从寿命剩余度指标作为判据进行故障推理。而当 时,表明在判断电子系统中哪一部件出现故障时,主要从寿命剩余度指标作为判据进行故障推理,是综合考虑可信性指标、鲁棒性指标和寿命剩余度指标,从三个方面进行综合故障推理。
[0123] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0124] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。