电池热失控预测方法、装置、存储介质及电子设备

电池热失控预测方法、装置、存储介质及电子设备公开发明

技术领域

[0001] 本发明涉及电池化学，机器学习算法领域，具体而言，涉及一种电池热失控预测方法、装置、存储介质及电子设备。

具体实施方式

[0022] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0023] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0024] 为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

[0025] LightGBM(Light Gradient Boosting Machine)，轻量级梯度提升机是一种基于梯度提升框架的高效机器学习算法，旨在处理大规模数据集，同时保持较高的计算速度和模型准确性。

[0026] ROC(Receiver Operating Characteristic Curve)，ROC曲线用于评估二分类模型的性能。通过绘制不同分类阈值下的真阳性率(TPR，True Positive Rate)和假阳性率(FPR，False Positive Rate)来展示模型的分类能力。TPR，也称为灵敏度或召回率，表示在所有实际为正类的样本中，被正确分类为正类的样本的比例。FPR表示在所有实际为负类的样本中，被错误分类为正类的样本的比例。ROC曲线的横轴是FPR，纵轴是TPR，理想的分类器表现为ROC曲线接近左上角，表明高的TPR和低的FPR。

[0027] 根据本发明实施例，提供了一种电池热失控预测的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0028] 图1是根据本发明实施例提供的一种可选的电池热失控预测方法的流程图，如图1所示，该方法包括如下步骤：

[0029] 步骤S102，获取目标电池组对应的运行数据；

[0030] 可以理解，获取目标电池组对应的运行数据，为后续的分析和预测算法提供数据支撑。通过收集全面、准确的运行数据，可以确保预测模型的训练和验证基于真实情况，提高预测的可靠性。

[0031] 可选地，上述获取运行数据的方法可以为多种，例如，从大数据平台获取新能源车辆三元锂电池的电压、充放电状态等原始特征数据，对异常数据进行处理，如缺失值、默认发送的默认值等。对于缺失值，整行为空的直接删除，其余缺失占比较少的特征采用均值、众数、中位数等与缺失值记录相似记录上的值来填充。对于异常值，数据中出现254、255、65535等预定形式的异常数据，以均值、众数、中位数等值进行填充。

[0032] 步骤S104，基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；

[0033] 可以理解，基于运行数据，确定目标电池组的无序化程度，即分析电池组中各电池单元的电压分布，来衡量电池组整体状态的有序性或无序性，通过量化无序化程度，可以客观、定量地评估电池组的健康状况，识别出可能存在的问题，为后续的预警和决策提供依据。

[0034] 在一种可选的实施例中，基于运行数据，确定目标电池组的无序化程度，包括：针对多个采集帧中包括的第一帧，基于目标电池组对应的运行数据，确定在第一帧，目标电池组的电压熵，电压最值，以及电压偏差信息，运行数据为基于多个采集帧采集到的电池数据得到的；基于目标电池组的电压熵，电压最值，以及电压偏差信息，确定第一帧的单帧特征；采用确定第一帧的单帧特征的方式，得到多个采集帧分别对应的单帧特征；依据多个采集帧分别对应的单帧特征，确定无序化程度。

[0035] 可以理解，基于目标电池组对应的运行数据，确定在某一特定采集帧(第一帧)中的电压熵、电压最值以及电压偏差信息，即这些数据是由多个采集帧采集的电池数据得到的。电压熵可以为电压香农熵，电压最值可以包括电压最小值，电压最大值，电压偏差信息可以为电压方差、电压均值和压差。利用确定的电压熵、电压最值和电压偏差信息，确定每一帧的单帧特征，依据多个采集帧分别对应的单帧特征，综合评估目标电池组的无序化程度。通过计算方法实现了对电池组无序化程度的定量评估，无序化程度的高低直接反映了电池组中电压分布的均匀性，是评估电池组健康状态和预测热失控风险的重要指标。

[0036] 可选地，上述无序化计算方式可以为多种，例如，选择用香农熵指标反映一个系统的无序化(有序化)程度，一个系统越有序，信息熵就越低，反之就越高。因此通过机器学习的方法，可以有效的找出香农熵对于三元锂电池热失控现象的表征。对于一个离散随机变量X及其概率分布p(x)，香农熵H(x)定义为：

[0037] H(x)＝‑∑p(x)logp(x)。

[0038] 在一种可选的实施例中，依据多个采集帧分别对应的单帧特征，确定无序化程度，包括：依据多个采集帧分别对应的单帧特征，确定多个采集帧分别对应的电压熵最值，以及电压熵偏差特征；基于多个采集帧分别对应的电压熵最值，以及电压熵偏差特征，确定无序化程度。

[0039] 可以理解，基于多个采集帧的单帧特征，计算每个采集帧的电压熵最值和电压熵偏差特征，电压熵最值和电压熵偏差特征作为综合评估无序化程度的依据，确定无序化程度。通过细化无序化程度的评估方法，为提高热失控预测的精度提供了有力支持。

[0040] 在一种可选的实施例中，该方法还包括：确定目标电池组的充放电状态；基于充放电状态，确定多个采集帧的帧数量。

[0041] 可以理解，确定目标电池组的充放电状态，判断电池当前处于充电、放电还是静置状态。基于确定的充放电状态，确定用于分析和预测的多个采集帧的帧数量。通过确定充放电状态并基于此调整采集帧数量，优化了数据采集策略，提高了热失控预测模型的整体性能，

[0042] 步骤S106，基于无序化程度，确定目标电池组进入热失控状态的概率。

[0043] 可以理解，基于计算出的无序化程度，评估目标电池组进入热失控状态的概率。将热失控风险从定性描述转化为定量的概率评估，便于进行风险管理和决策。

[0044] 在一种可选的实施例中，基于无序化程度，确定目标电池组进入热失控状态的概率，包括：基于无序化程度，采用目标模型进行处理，得到目标电池组进入热失控状态的概率，其中，目标模型为基于热失控样本和正常样本训练得到，热失控样本为经过数据增强的样本，以使得热失控样本与正常样本的比例符合预定比例。

[0045] 可以理解，基于无序化程度，采用目标模型进行处理，得到目标电池组进入热失控状态的概率，其中，目标模型为基于热失控样本和正常样本训练得到，热失控样本为经过数据增强的样本，数据增强是通过在原始数据的基础上生成新的数据点，可以增加模型对数据多样性的适应能力，以使得热失控样本与正常样本的比例符合预定比例。通过使用基于数据增强的样本训练目标模型，显著提高了热失控风险预测的准确性。

[0046] 可选地，上述构建目标模型的方法可以为多种，例如，基于LightGBM算法的三元锂电池热失控预测的方法，选择已发生热失控行为车辆为正样本，并随机选取一定数量没有故障的车辆为负样本，确定好样本数据后进行特征工程，由于热失控事件属于恶性事件，所以在保证覆盖率的情况下需要尽可能的提升精确率来缩小范围，因此初步确定以模型F1值作为评价指标。其中，模型的F1值，即F1分数，F1分数是精确率(Precision)和召回率(Recall)的调和平均值。确定好样本后进行数据加工。利用LightGBM算法搭建模型，对整个数据集按照70％、30％划分训练集和验证集，利用训练集进行模型训练和参数调整，以模型F1值作为评价指标。利用验证集对模型进行验证，确保模型不会欠拟合或者过拟合，保证模型达到最优效果。

[0047]

[0048] 可选地，上述参数调整可以为多种，例如，参数调整主要包含boosting_type、objective、learning_rate、metric、min_child_samples、scale_pos_weight、min_child_weight、num_leaves、max_depth、reg_lambda、reg_alpha、feature_fraction、bagging_fraction、bagging_freq等，保证模型达到最优效果。其中，boosting_type指定使用的提升方法，可以为梯度增强决策树；objective定义学习任务和相应的损失函数，例如回归任务等；learning_rate指梯度提升中的学习速率，控制每次迭代更新对模型的影响大小，值越小模型收敛越慢但可能更稳定；metric用于评估模型性能的指标，例如均方误差、平均绝对误差；min_child_samples为叶子节点分裂所需的最小样本数，用以防止过拟合；scale_pos_weight是在解决不平衡数据集时，正类权重与负类权重的比例，适用于二分类问题；min_child_weight是树节点分裂所需的最小样本权重和，防止树过生长；num_leaves指每棵树的叶子节点数，是模型复杂度的直接体现，影响模型的泛化能力；max_depth指树的最大深度，限制树的深度可以避免过拟合；reg_lambda指L2(Ridge Regression)正则化项系数，用于减少模型复杂度，防止过拟合；reg_alpha指L1正则化(Lasso Regression)项系数，可以用于特征选择；feature_fraction指每棵树随机采样特征的比例，用于增加模型的稳健性；bagging_fraction指每棵树随机采样数据的比例，也称为子采样，用于降低模型的方差；bagging_freq是执行bagging的频率，例如设置为k，则每k次迭代执行一次bagging。

[0049] 可选地，上述判断欠拟合的方法可以为多种，例如，当模型在训练集上的性能就较差，同时在验证集上的性能也较差时，模型存在欠拟合问题。意味着模型过于简单，不足以捕获数据中的复杂模式。例如训练集上精确率为30％，验证集上精确率为29％，对于预测热失控恶性事件来说，30％的精确率太低，性能较差。

[0050] 可选地，上述解决欠拟合的方法可以为多种，例如，调整模型参数，增大正则化参数，允许模型学习更多的特征；增加特征，添加或者衍生更多特征，以提供更多信息供模型学习。

[0051] 可选地，上述判断过拟合的方法可以为多种，例如，如果模型在训练集上的性能非常好，但在验证集上的性能却远低于训练集，那么模型就存在过拟合问题。这意味着模型过度学习了训练集中的细节和噪声，导致其无法很好地泛化到新数据上。例如训练集上精确率为90％，验证集上精确率为70％，远低于训练集上的90％，此时模型就是过拟合。

[0052] 可选地，上述解决过拟合的方法可以为多种，例如，调整模型参数，调整num_leaves、max_depth参数，降低树的复杂度；增加正则化，加入lambda_l1和lambda_l2参数，增加L1和L2正则化项，防止模型过拟合；提前停止训练(Early Stopping)，在训练过程中监控验证集上的性能，如果验证集上的性能不再提升，可以提前停止训练，防止过拟合；增大数据量，获取并添加更多样本数据，有助于提高模型的泛化能力。

[0053] 在一种可选的实施例中，该方法还包括：确定发生热失控的参考电池组；基于参考电池组的历史数据进行数据切片，得到不同充放电状态的数据片段，其中，充放电状态包括以下至少之一：充电状态，放电状态，静置状态；在参考电池组为多个的情况下，基于多个参考电池组分别对应的数据片段进行交叉，得到热失控样本。

[0054] 可以理解，从已知发生过热失控的电池组中挑选一个或多个作为研究对象，基于历史数据进行数据切片，从选定的参考电池组的历史运行数据中，根据电池的不同运行状态将数据分割成不同的数据片段，运行状态包括充电状态、放电状态和静置状态，每种状态下的数据片段都可能包含导致热失控的特征和模式。如果使用了多个参考电池组，那么将不同电池组的数据片段进行交叉，得到热失控样本。通过切片的方式，增加样本的多样性和丰富性，确保模型能够从多角度学习热失控的特征。

[0055] 可选地，上述获取热失控样本的方法可以为多种，例如，剔除热失控车辆样本中已经发生热失控行为后的数据，然后对所有样本数据计算每一帧电池包中所有电芯的电压香农熵、电压方差、电压最小值、电压最大值、电压均值和压差，接着按照充电、放电和静置三种状态对数据进行切片，需要指出的是每片数据都是连续的数据，接着统计每个切片中的电压香农熵最小值、电压香农熵最大值、电压香农熵方差、电压香农熵均值、压差均值、压差最大值等特征。图2是根据本发明实施例提供的一种可选的电池热失控预测方法的第一示意图，如图2所示，对每辆车切片数据中针对充电、放电和静置切片各挑出1个数据组合成一个新样本，和分别表示对不同片段的排列组合计算，以此方法来解决烧车样本不足的问题。

[0056] 在一种可选的实施例中，基于无序化程度，采用目标模型进行处理，得到目标电池组进入热失控状态的概率，包括：确定目标电池组的目标电池类型；在预定的多个候选模型中，确定与目标电池类型匹配的目标模型，其中，多个候选模型分别用于预测不同电池类型的电池组发生热失控的概率；基于无序化程度，采用目标模型进行处理，得到目标电池组进入热失控状态的概率。

[0057] 可以理解，识别出目标电池组的电池类型，在预定的多个候选模型中，选择与目标电池类型相匹配的模型。模型是针对不同电池类型专门训练的，用于预测各自的热失控概率。使用适用于特定电池类型的模型，根据目标电池组的无序化程度等特征，采用目标模型进行处理，输出其进入热失控状态的概率。通过专门针对不同类型的电池训练模型，考虑了不同电池材料、结构和特性对热失控的影响，从而提高了热失控概率预测的精度。

[0058] 可选地，上述目标电池组的电池类型可以为多种，例如，三元锂电池和磷酸铁锂电池，这两种电池类型具有不同的化学成分和性能特点，三元锂电池具有较高的能量密度和较好的低温性能，而磷酸铁锂电池则具有较高安全性和较低的成本。在构建预测模型时，考虑电池的热失控行为和响应操作条件，三元锂电池由于其对温度的敏感性，需要构建与温度相关的特征，如温度梯度、温度变化率等，磷酸铁锂电池需要构建与循环次数、充放电速率相关的特征，以及长期性能衰减指标，以捕捉可能预示热失控的长期趋势。

[0059] 通过上述步骤S102，获取目标电池组对应的运行数据；步骤S104，基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；步骤S106，基于无序化程度，确定目标电池组进入热失控状态的概率。可以实现提高电池的安全性的目的，实现了有效、精确地预测电池热失控的概率的技术效果，进而解决了相关技术中存在的电池热失控预测准确率低的技术问题。

[0060] 基于上述实施例和可选实施例，本发明提出一种可选实施方式，图3是根据本发明实施例提供的一种可选的电池热失控预测方法的第二示意图，如图3所示，本实施例提出了一种基于香农熵和LightGBM算法的三元锂电池热失控预测的方法。首先，依据云端的电压和充放电状态等原始特征数据进行异常值数据预处理；然后在确定正负样本数据的情况下，按照充电、放电和静置三种状态对数据进行切片后交叉组合对正负样本数据进行数据加工；然后划分训练集、验证集，方便模型的训练和调参；接下来搭建LightGBM算法模型，并进行模型的训练和调参；最后通过训练好的模型预测三元锂电池会不会热失控。

[0061] 步骤S1，获取数据与预处理，从大数据云平台获取新能源汽车三元锂电池包的电压和充放电状态等原始特征数据，数据的采样间隔10‑30秒之间，图4是根据本发明实施例提供的一种可选的电池热失控预测方法的第三示意图，如图4所示，横坐标为时间，纵坐标为电压，显示了电池的电压变化。对数据中缺失值进行处理，整行为空的直接删除，其余缺失占比较少的特征采用均值、众数、中位数等与缺失值记录相似记录上的值来填充；对数据中异常值进行处理，数据中出现254、255、65535等异常数据以均值、众数、中位数等值进行填充。

[0062] 步骤S2，样本选择与数据加工，样本选择已发生热失控行为车辆近7天的数据为正样本，并随机选取一定数量的没有故障的车辆近2天的数据为负样本，建议选取无故障车辆数是热失控车辆数的300倍以上以保证样本的多样性，例如热失控车辆7辆车，选取无故障车辆2100辆车；剔除热失控车辆样本中已经发生热失控行为后的数据，然后对每辆车数据的事件进行排序，计算每一帧电池包中所有电芯的电压香农熵、电压方差、电压最小值、电压最大值、电压均值和压差等特征；根据充放电状态标识对样本进行切片，统计每个切片中的电压香农熵最小值、电压香农熵最大值、电压香农熵方差、电压香农熵均值、压差均值、压差最大值等特征；对每辆车切片数据中针对充电、放电和静置切片各挑出1个数据组合成一个新样本，以此来增强样本的数量。样本增强后对所有热失控车辆样本全部标签为1，无故障车辆样本全部标签为0。

[0063] 步骤S3，LightGBM分类模型的构建、训练和调参，采用LightGBM分类算法搭建模型，对整个数据集按照70％、30％划分训练集、验证集；利用训练集进行模型训练和参数调整，由于热失控事件属于恶性事件，所以在保证覆盖率的情况下需要尽可能的提升精确率来缩小范围，因此初步确定以模型F1值作为评价指标。

[0064] 参数调整主要包含boosting_type、objective、learning_rate、metric、min_child_samples、scale_pos_weight、min_child_weight、num_leaves、max_depth、reg_lambda、reg_alpha、feature_fraction、bagging_fraction、bagging_freq等，由于模型的特殊性，对其中几个参数做了限定，不需要进行调整，比如boosting_type选择gbdt，boosting_type参数用于指定使用的梯度提升框架，gbdt(Gradient Boosting Decision Tree)表示使用梯度提升决策树方法。在每一次迭代中，gbdt会添加一个新的决策树来修正前一棵树的残差，以逐步减小损失函数。objective选择binary，objective参数指定了模型的目标函数,binary表示这是一个二分类问题。在二分类中，模型的目标是预测每个样本属于正类(1)或负类(0)的概率。metric选择auc，metric参数用于指定用于评估模型性能的度量标准。auc(Area Under the Curve)表示使用ROC曲线下的面积作为评估指标。auc是一个常用的评估分类器性能的指标，特别是在正负样本不均衡的情况下，能反映模型的分类能力。scale_pos_weight选择值为正负样本的实际比例，scale_pos_weight参数用于处理正负样本不均衡问题。当正负样本比例失衡时，如果不加以调整，模型会倾向于预测多数类。设置scale_pos_weight为正负样本的实际比例，可以调整模型对正负样本的重视程度，使得模型在训练中对正样本给予更多权重，提高对正类的识别能力。

[0065] 利用网格搜索(Grid Search)在给定的参数范围内搜索最佳参数组合，具体步骤如下：定义参数网格；初始化LightGBM模型；初始化GridSearchCV，GridSearchCV是一个用于执行网格搜索的工具，通过在预定义的参数网格中搜索最优超参数组合来工作；执行网格搜索；输出最佳参数和模型性能。

[0066] 其中，定义要搜索的参数网格。可以根据经验或文献选择合适的参数范围：

[0067] param_grid＝{

[0068] 'num_leaves':[31,50,70],

[0069] 'learning_rate':[0.01,0.05,0.1],

[0070] 'n_estimators':[100,200,500],

[0071] 'max_depth':[‑1,10,20],

[0072] 'min_child_samples':[20,30,50]

[0073] }

[0074] num_leaves参数决定了树的最大叶子节点数，值[31,50,70]意味着网格搜索将评估31、50和70个叶子节点数的模型性能。learning_rate参数控制每次迭代更新的权重大小，较小的学习率意味着模型训练更慢但可能得到更优解，值[0.01,0.05,0.1]意味着搜索将评估这三个不同学习率下的模型收敛速度和性能。n_estimators表示模型中的树的数量，值[100,200,500]意味着模型将分别构建100、200和500棵树，以评估树数量对模型性能的影响。max_depth指树的最大深度，‑1表示树可以无限深(实际上会由num_leaves控制)，10和20则分别代表树的最大深度限制，影响了模型的复杂度和过拟合风险。min_child_samples：树的一个叶子节点至少需要的样本数量，值[20,30,50]意味着搜索将评估模型在不同最小样本数限制下的性能，以找到一个既能保持模型复杂度又能避免过拟合的平衡点。

[0075] 初始化LightGBM的回归模型：lgbm＝lgb.LGBMClassifier()

[0076] 使用GridSearchCV来搜索最佳参数组合：

[0077] grid_search＝GridSearchCV(estimator＝lgbm,param_grid＝param_grid,[0078] cv＝5,n_jobs＝‑1,verbose＝2,scoring＝'accuracy')

[0079] 通过上述处理，初始化了一个GridSearchCV对象，用于对LightGBM模型的超参数进行优化。lgbm是之前初始化的LightGBM模型实例。estimator参数指明了要进行超参数优化的模型。param_grid＝param_grid是超参数的网格搜索空间，定义了所有要尝试的超参数组合。cv＝5指定了交叉验证的折数，这里是5折交叉验证，数据将被分为5个相等的子集，每次将其中4个子集用于训练模型，剩下的1个子集用于验证，这个过程将重复5次，每个子集都会作为验证集一次。n_jobs＝‑1控制了网格搜索中并行运行的作业数。‑1表示使用所有可用的处理器，即并行化地执行网格搜索，加速超参数搜索过程verbose参数控制输出信息的详细程度，值为2时，GridSearchCV将输出详细的进度信息，包括每次折的训练和验证分数。scoring＝'accuracy'是一个评价指标，用于评估模型的性能。

[0080] 在训练数据上执行网格搜索：grid_search.fit(X_train,y_train)[0081] X_train是训练数据的特征矩阵，由所有训练样本的特征组成，是一个二维数组或数据框，其中行表示样本，列表示特征。y_train是训练数据的目标向量，包含每个样本的真实标签或目标值。

[0082] 找到最佳参数组合后，输出结果并评估模型性能：

[0083] print("Best parameters found:",grid_search.best_params_)

[0084] print("Best accuracy found:",grid_search.best_score_)

[0085] grid_search.best_params是在网格搜索过程中找到的最佳超参数组合。grid_search.best_score是使用best_params参数设置时，在交叉验证过程中模型的平均性能。

[0086] 使用最佳参数预测验证集：

[0087] best_model＝grid_search.best_estimator_

[0088] y_pred＝best_model.predict(X_test)

[0089] accuracy＝accuracy_score(y_test,y_pred)

[0090] print(f"Test accuracy:{accuracy}")

[0091] best_model是最终被选中用于预测的模型实例。grid_search.best_estimator是GridSearchCV对象的一个属性，返回使用找到的最佳参数训练的模型实例。y_pred是模型对测试集X_test的预测结果，是一个数组或列表，包含模型对每个测试样本的预测值。best_model.predict(X_test)用于对新的数据进行预测，返回预测结果。accuracy是一个变量，存储模型在测试集上的准确率(分类问题)或性能指标(回归问题)的值。accuracy_score(y_test,y_pred)用于计算模型预测结果y_pred与实际标签y_test之间的准确率。
print(f"Test accuracy:{accuracy}")是一个格式化字符串的输出语句，其中f"Test accuracy:{accuracy}"表示将accuracy的值插入到字符串的{accuracy}位置，最终输出模型在测试集上的准确率。

[0092] 利用验证集对模型进行验证，确保模型不会欠拟合或者过拟合，保证模型达到最优效果。可选地，上述判断欠拟合的方法可以为多种，例如，当模型在训练集上的性能就较差，同时在验证集上的性能也较差时，模型存在欠拟合问题。意味着模型过于简单，不足以捕获数据中的复杂模式。例如训练集上精确率为30％，验证集上精确率为29％，对于预测热失控恶性事件来说，30％的精确率太低，性能较差。

[0093] 为了解决欠拟合可以调整模型参数，增大正则化参数，允许模型学习更多的特征；增加特征，添加或者衍生更多特征，以提供更多信息供模型学习。

[0094] 判断过拟合的方法可以为，如果模型在训练集上的性能非常好，但在验证集上的性能却远低于训练集，那么模型就存在过拟合问题。这意味着模型过度学习了训练集中的细节和噪声，导致其无法很好地泛化到新数据上。例如训练集上精确率为90％，验证集上精确率为70％，远低于训练集上的90％，此时模型就是过拟合。

[0095] 为了解决过拟合的方法可以调整模型参数，调整num_leaves、max_depth参数，降低树的复杂度；增加正则化，加入lambda_l1和lambda_l2参数，增加L1和L2正则化项，防止模型过拟合；提前停止训练(Early Stopping)，在训练过程中监控验证集上的性能，如果验证集上的性能不再提升，可以提前停止训练，防止过拟合；增大数据量，获取并添加更多样本数据，有助于提高模型的泛化能力。

[0096] 步骤S4，导入实时数据到模型中进行预测，并加工实时数据，利用已经训练好的模型对实时数据进行预测，预测三元锂电池热失控的概率。

[0097] 由上述可选实施方式至少实现以下效果：充分利用了大规模真实数据，并采用机器学习集成算法学习样本中的特征，有效、精确地预测出电池热失控的概率，提高了电池的安全性，以及降低了电池相关事故的风险。

[0098] 需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0099] 在本实施例中还提供了一种电池热失控预测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

[0100] 根据本发明实施例，还提供了一种用于实施电池热失控预测方法的装置实施例，图5是根据本发明实施例提供的一种可选的电池热失控预测装置的示意图，如图5所示，上述电池热失控预测装置，包括获取数据模块502、确定程度模块504、确定概率模块506，下面对该装置进行说明。

[0101] 获取数据模块502，用于获取目标电池组对应的运行数据；

[0102] 确定程度模块504，与获取数据模块502连接，用于基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；

[0103] 确定概率模块506，与确定程度模块504连接，用于基于无序化程度，确定目标电池组进入热失控状态的概率。

[0104] 本发明实施例提供的一种电池热失控预测装置中，通过设置获取数据模块502，用于获取目标电池组对应的运行数据；确定程度模块504，与获取数据模块502连接，用于基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；确定概率模块506，与确定程度模块504连接，用于基于无序化程度，确定目标电池组进入热失控状态的概率。达到了提高电池的安全性的目的，实现了有效、精确地预测电池热失控的概率的技术效果，进而解决了相关技术中存在的电池热失控预测准确率低的技术问题。

[0105] 需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

[0106] 此处需要说明的是，上述获取数据模块502、确定程度模块504、确定概率模块506对应于实施例中的步骤S102至步骤S106，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

[0107] 需要说明的是，本实施例的可选或优选实施方式可以参见实施例中的相关描述，此处不再赘述。

[0108] 上述电池热失控预测装置还可以包括处理器和存储器，获取数据模块502、确定程度模块504、确定概率模块506等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0109] 处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

[0110] 本发明实施例提供了一种非易失性存储介质，其上存储有程序，该程序被处理器执行时实现电池热失控预测方法。

[0111] 本发明实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取目标电池组对应的运行数据；基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；基于无序化程度，确定目标电池组进入热失控状态的概率。本文中的设备可以是服务器、PC等。

[0112] 本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标电池组对应的运行数据；基于运行数据，确定目标电池组的无序化程度，其中，无序化程度表示目标电池组中电压分布无序化的程度；基于无序化程度，确定目标电池组进入热失控状态的概率。

[0113] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0114] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0115] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0116] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0117] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0118] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

[0119] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0120] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0121] 本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0122] 以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页