首页 / 一种融合改进蛇搜索算法和互补性测度集成修剪的工具识别方法

一种融合改进蛇搜索算法和互补性测度集成修剪的工具识别方法实质审查 发明

技术领域

[0001] 本发明涉及测井曲线工具识别技术领域,特别涉及一种融合改进蛇搜索算法和互补性测度集成修剪的工具识别方法。

相关背景技术

[0002] 工具识别作为同位素注水剖面测井资料解释过程中不可或缺的环节,是对各分层注水量精确解读的前提,是后续流量计算和综合解释的有力保障。精确的工具识别可以帮助解释人员提高测井解释结果的精度和工作效率。油田开发至成熟阶段,油层压力因开采而失衡,注水成为维持地层能量、实现有效驱油的关键手段。然而,油藏非均质特性增加了动态预测与高效开发难度。为此,精准的注入剖面测井至关重要,尤其是同位素注水剖面测井技术,其应用广泛且权威,占有率超90%,对油田开发效果及技术水平起决定作用。同位素注水剖面测井中,井下工具如接箍、配水器、封隔器常遭放射性沾污,精准定位其分布对提高解释准确性至关重要。目前主要依赖经验丰富的技术人员通过综合观察与分析识别,但此过程易受主观因素影响,导致解释结果的不确定性和准确性波动,尤在复杂地质环境下问题凸显。以大庆油田为例,超过40%的井需精确识别井下工具,所以为降低井下工具在识别时的人力、物力投入,降低人为主观因素的影响,智能化进行井下工具的识别已成为一种必然的趋势。
[0003] 随着计算机技术的发展和识别任务的日益繁重,工具识别逐渐由定性识别转向定量识别,模糊识别,人工神经网络,集成学习,机器学习等方法已经被应用到利用测井曲线进行工具识别的任务中。但是利用集成学习方法应用到测井领域时,未考虑到模型的数量问题;而集成修剪方法在现有的众多个体学习器中进行有选择性的集成,而非一味追求数量,反而能够实现更为出色的性能提升。
[0004] 目前普遍采用的集成修剪方法大多独立运用差异性测度或启发式搜索算法进行模型修剪,然而,仅依赖差异多样性度量准则进行修剪,虽能够在一定程度上去除一些性能不足且特性相似度较高的基础分类器,但却难以实现精细且精准的修剪优化;仅仅依赖启发式的方法,在处理庞大基数的基分类器子集时,由于不能进行深入的全面搜索,常常难以找到性能最优的子集成,因此,结合差异多样性度量准则与启发式搜索算法的集成修剪策略成为未来研究的重点发展方向。

具体实施方式

[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 如图1所示,一种融合改进蛇搜索算法和互补性测度集成修剪的工具识别方法,包括以下步骤:
[0051] S1:特征选择,选择流量曲线、伽马曲线、压力曲线、磁定位曲线、自然电位曲线、当前测井点温度曲线、相邻测井点温度差值曲线和零流曲线共八条曲线特征;
[0052] S2、数据预处理和数据集划分,将经过预处理的数据集合划分为训练集、验证集和测试集;
[0053] 如图2所示,图2展示了特征数据预处理的过程,原始测井数据中普遍存在噪声现象,导致测井曲线呈现出非目标地质体特征的统计性起伏现象,并且有时由于各种不确定因素,部分测井记录可能会出现异常尖峰或毛刺干扰,这些扰动信息无法直接用于模型训练之前,因此,对测井数据进行滤波预处理是必不可少的步骤,测井曲线所反映出的响应值在大小上存在显著差异,将这些响应值通过转换或标准化处理至可比较的范围,能够确保特征数据具有相同的量纲和一致的分布范围,从而有效地消除量纲对模型性能评估的影响,进而提升模型训练效率和效果,此外,为了确保不同模型间的对比结果更具有一致性和可靠性,对原始数据进行标准化处理以生成标准形式的数据也是至关重要的步骤;
[0054] 中值滤波作为一种非线性信号处理技术,具有显著的噪声抑制能力,通过选取信号局部领域内的中值替代原采样点值,中值滤波能够在很大程度上滤除噪声等异常干扰,同时保留信号的重要特征,所以中值滤波技术在图像处理、信号处理以及众多相关领域中发挥了重要作用,中值滤波的基本思想是:利用滑动窗口遍历信号或图像,对窗口内像素点的邻域数据进行排序,以中间值替换窗口中心点的原始值,实现噪声抑制,这一过程不断迭代直至遍历整个信号或图像的所有像素点,如此一来,经过中值滤波处理后,输出的结果相较于原始信号或图像将更加平滑和连续,有效抑制了噪声干扰并保留了图像的主要结构特征;
[0055] 最大最小值归一化,是一种线性变换技术,它把原始测井信号绘制在0~1范围之内;标准化方法通过对原始测井信号依据其均值与标准差进行转换处理,以生成符合正态分布特性特征的新数据集;
[0056]
[0057] 将预处理得到的数据集合合理划分能够很好加速模型的收敛速度,这里将其按照8:1:1的比例划分为训练集、验证集和测试集,其中训练集用来训练模型,验证集用来调整并寻找最佳参数,最后在测试集上进行测试以验证模型的泛化性能及准确率。
[0058] S3、模型训练与验证,搭建集成修剪模型,使用训练集训练LSOCEP模型,使用验证集进行误差计算和基学习器更新;
[0059] 搭建集成修剪模型具体步骤如下:
[0060] S31:构建基分类器池;
[0061] 为了构建一个包含多个基分类器的集合,采用Baggi ng集成学习方法中bootstrap抽样技术,从而形成了共计N个独立且各具代表性的训练样本集,对于每一个这样的训练样本集,都应用相同的基分类器算法进行单独且并行的训练,确保每个基分类器的学习过程相互独立,不受其他基分类器的影响,经过上述流程后,成功地从原始数据集中衍生出了N个独立训练并得到的基分类器,构成了基分类器池;
[0062] S32:预修剪;
[0063] 基于互补性测度原理,识别并剔除那些性能较差、预测误差高或者与其他基分类器预测结果相似度过高的个体分类器,以此大幅度降低集成系统的维度,减轻后续优化任务的计算负担,互补性度量准则选择基分类器的过程如下:
[0064] 假设有M个样本,X={x1,x2,…xM},其实际类别Y={y1,y2,…yM},所有样本类别C={c1,c2,…cS},N个基分类器集合F={f1,f2,…fN},采用多数投票法,对N个基分类器集合F进行集成过程为:
[0065]
[0066] 其中,x表示样本,c(c∈C)表示所有样本类别C中的一种,EF(x)表示对样本x的集成结果,fi(x)表示基分类器fi样本x上的分类结果,I(·)为指示函数(若·为真,则I(·)=1;否则,I(·)=0),argmax(f(x))表示使得f(x)最大的x;
[0067] S33:二次修剪;
[0068] 通过bootstrap抽样方法得到的N个基分类器X={x1,x2,…xN},在预修剪后,保留了N′个基分类器,记为X′={x1′,x′2,…x′N′};
[0069] 本发明采用了二进制编码方案,其中“1”和“0”分别代表是否选择相应的基分类器,蛇个体X={x1,x2,…xN′},xi=1表示选择第i个基分类器;xi=0则表示不选择基分类器;
[0070] S34:使用投票法将选取的基分类器进行集成。
[0071] 实施例1:
[0072] 如图3‑图5所示,本发明实验使用的数据来自中国大庆油田某工区数据,共包含10口生产井的测井数据,其中,数据集按照0.125米作为采样间隔,主要的井下工具分类为:接箍、配水器和封隔器,总共三种井下工具。
[0073] S1、特征选择,选择流量曲线、伽马曲线、压力曲线、磁定位曲线、自然电位曲线、当前测井点温度曲线、相邻测井点温度差值曲线和零流曲线共八条曲线特征;
[0074] S2、数据预处理及数据划分将经过预处理的数据集合划分为训练集、验证集和测试集;
[0075] 针对测井曲线噪声问题,一种有效的解决方案是采用中值滤波技术,中值滤波作为一种新兴的非线性处理手段,以其计算简便鲁棒性强等特点脱颖而出,该特别擅长于凸显并保持测井曲线上的重要波峰和波谷信息,从而实现对噪声的有效抑制与信号质量的显著提升,测井曲线所反映出的响应值在大小上存在显著差异,将这些响应值通过转换或标准化处理至可比较的范围,能够确保特征数据具有相同的量纲和一致的分布范围,从而有效地消除量纲对模型性能评估的影响,进而提升模型训练效率和效果,此外,为了确保不同模型间的对比结果更具有一致性和可靠性,对原始数据进行标准化处理以生成标准形式的数据也是至关重要的步骤,本发明主要探讨了两种常用的变换方法:最大最小值归一化,是一种线性变换技术,它把原始测井信号绘制在0~1范围之内;标准化方法通过对原始测井信号依据其均值与标准差进行转换处理,以生成符合正态分布特性特征的新数据集,这里将其按照8:1:1的比例划分为训练集、验证集和测试集,其中训练集用来训练模型,验证集用来调整并寻找最佳参数,最后在测试集上进行测试以验证模型的泛化性能及准确率;
[0076] S3、模型训练与验证,搭建集成修剪模型,使用训练集训练LSOCEP模型,使用验证集进行误差计算和基学习器更新;
[0077] 搭建集成修剪模型具体步骤如下:
[0078] S31:基分类器的生成;
[0079] 在本发明的研究过程中,采用了Baggi ng集成学习方法中bootstrap抽样技术,对初始数据集执行带放回的随机抽样过程,构建一组各具差异性的训练子集,具体来说,进行了多次这样的bootstrap抽样过程,每轮抽样都会构建一个新的、大小与原始数据集相同的训练样本集合;
[0080] 为了构建一个包含多个基分类器的集合,反复执行上述抽样步骤,从而形成了共计N个独立且各具代表性的训练样本集,对于每一个这样的训练样本集,都应用相同的基分类器算法进行单独且并行的训练,确保每个基分类器的学习过程相互独立,不受其他基分类器的影响,经过上述流程后,成功地从原始数据集中衍生出了N个独立训练并得到的基分类器,构成了基分类器池;
[0081] S32:预修剪;
[0082] 在处理大规模集成学习问题时,尤其当面对一个包含N个独立基分类器的庞大集合时,由于组合优化问题的复杂性,选取最优子集成为一个典型的NP难题,这意味着,理论上准确找到具有最高集成性能的非空子集需要指数级的时间复杂度,这在实际应用中往往是不可行的,尤其是当N值较大时,鉴于此,针对基分类器集合过大导致的优化难题,本发明首先对整个基分类器池实施预修剪操作,基于互补性测度原理,识别并剔除那些性能较差、预测误差高或者与其他基分类器预测结果相似度过高的个体分类器,以此大幅度降低集成系统的维度,减轻后续优化任务的计算负担;
[0083] 预修剪步骤之后,本发明进一步运用启发式算法,在预修剪后的较小规模基分类器集合中进行搜索,旨在找出一组既能体现个体多样又能最大程度实现集体精度的最优基分类器子集,从而最大限度提升集成模型的整体预测精确度和泛化能力;
[0084] S33:二次修剪;
[0085] 编码方式:
[0086] 通过bootstrap抽样方法得到的N个基分类器X={x1,x2,…xN},在预修剪后,保留了N′个基分类器,记为X′={x1′,x′2,…x′N′},本发明采用了二进制编码方案,其中“1”和“0”分别代表是否选择相应的基分类器,蛇个体X={x1,x2,…xN′},xi=1表示选择第i个基分类器;xi=0则表示不选择基分类器;
[0087] 适应度函数构造:
[0088] Fn=S
[0089]
[0090] 其中,S表示集成精度, 表示在第i个测试样本上集成模型预测的结果,yi表示该样本的实际类别标签,n表示样本的数目,适应度值越高,意味着集成模型在所有测试样本上的整体预测准确性就越高;
[0091] 不可行解处理方式:
[0092] 在利用SO算法探寻最优基分类器子集的过程中,有时可能出现两种极端情况:一种情况是所得到的解向量中所有元素均为0,这意味着在集成模型中没有选择任何一个基分类器,显然这样的解并不符合实际需求,因为它不能形成有效的集成模型;另一种情况则是所有元素均为1,这意味着选择了所有的基分类器,尽管看似充分利用了资源,但在某些情况下也可能导致过拟合或冗余,反而不利于提升集成模型的综合性能;
[0093] 针对以上所述可能出现的两种不可行解,本发明提出了针对性的解决方案,具体而言,当算法在搜索过程中检测到解空间中出现了这两种极端数据时,系统将自动触发重新初始化机制,即回归至初始状态或按照某种预设策略重新生成初始解,以避免陷入局部最优或无效解区域,并继续在可行解空间中寻找真正能够提升集成模型性能的最优基分类器子集,这一策略确保了SO算法在迭代求解过程中始终保持在可行解空间内进行有效探索,从而有助于寻找到更为理想的集成模型构建方案;
[0094] 改进蛇搜索算法:
[0095] 智能搜索算法在求解优化问题时,常常遭遇位置更新过程中的局部最优陷阱,即算法容易停滞在非全局最优解上,为克服这一挑战,研究者引入了Levy飞行策略,该策略改变了传统算法的移动规则,通过模拟Levy飞行的随机步长特性,其分布遵循Levy分布规律,从而实现对搜索空间的高效探索;
[0096] 改进蛇搜索算法,在位置更新阶段融入了Levy飞行机制,这不仅增强了算法在范围内寻优的能力,而且还提升了在临近最优解区域内的精细局部搜索效率,因此,经过改进后的蛇搜索算法能够更有效地均衡全局寻优与局部搜索进程,加速收敛速度;
[0097] L=λ×Levy(γ)
[0098] 其中,λ为从0到1的随机数,γ为Levy飞行扰动因子;因此,蛇位置更新公式如下:
[0099] Xi,m(t+1)=Xrand,m(t)±c2×Am×((Xmax‑Xmin)×rand+Xmin)+L
[0100]
[0101]
[0102]
[0103] 为了验证模型在未经过模型训练的盲井上的工具识别结果,选取某单井数据进行数据预处理并输入模型验证,该井的测试样本同训练集相同,数据预处理完成后,最终得到8000条同位素注水剖面测井数据,其中接箍数据样本2180条,封隔器数据样本2070条,配水器数据1330样本条,正常数据样本2420条作为模型输入,模型的输出为一维向量,其中向量中的每个值代表对应测试样本的预测值,如图6给出了模型对某测试井的工具识别可视化结果,前8列为训练特征,其中包含流量曲线、伽马曲线、压力曲线、磁定位曲线、自然电位曲线、当前测井点温度曲线、相邻测井点温度差值曲线和零流曲线,后两列的柱状图分别代表人工标定的工具标签以及本发明模型对该井的工具识别结果,对比发现,本方法的工具识别结果,与地质专家人工标定的结果比较相似,具有良好的泛化性能,能够很好地识别不同工具。
[0104] 需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0105] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页