首页 / 一种气测录井数据解释方法及装置

一种气测录井数据解释方法及装置实质审查 发明

技术领域

[0001] 本公开涉及大数据挖掘和石油天然气录井解释技术领域,特别涉及一种气测录井数据解释方法及装置。

相关背景技术

[0002] 气测录井是一种用于测量地下储层中气体含量和性质的地球物理勘探技术,随着油田勘探工作的深入及开发节奏的加快,为快速评价油气层,并为下一步的开发部署提供建设性意见,气测录井资料的重要性更为突出。
[0003] 受气测录井资料噪声、异常值和缺失数据的影响,利用研究区试油层气测录井数据建立的传统气测图板,解释评价效果较差,符合率较低。基于机器学习、深度学习等技术手段,可以对大规模的录井数据进行分析和建模,发现数据内在的规律与特征。通过对海量数据的学习和训练,录井智能解释模型可以识别异常值、趋势变化、地质特征等,辅助工程师更准确的进行地质解释和风险评估。为此,前人建立了相应的气测录井解释方法,其中比较典型的有两类:
[0004] (1)气测图版法:气测图版法是对气测组分数值(C1、C2、C3、iC4、nC4、iC5、nC5)直接计算、交会建立,不同的计算方法形成不同的解释图版。常用的气测图版法包括:双对数法、正规化法、轻烃比率法、三角形法、皮克斯勒法、气体评价法等。
[0005] (2)人工智能解释:随着机器学习的迅猛发展,将常规气测录井资料与神经网络相结合是储层流体识别研究的热点。以气测录井资料和试油结果作为模型输入,经过训练后对目的段预测其储层流体性质。
[0006] 现有技术存在以下缺点:
[0007] (1)气测录井在油气勘探领域是非常重要的技术,但受气测录井受环境影响大,钻井采用的钻井液类型不同、地层压力不同、操作人员技术水平不同,会导致气测录井数据存在一定误差,使得气测定量解释准确度低。
[0008] (2)以往利用机器学习进行储层流体识别时,常常将气测录井数据作为独立单一的样本,没有考虑气测录井曲线在深度上与储层流体之间的动态关联性,即没有考虑到气测录井曲线形态。目前主流的机器学习算法以函数式为主,在储层流体识别应用过程中难以考虑气测录井曲线在深度上的关联性,导致储层识别研究中容易出现错识、漏识等情况,从而影响储层识别的准确率。

具体实施方式

[0059] 为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0060] 井场录井信息工作是整个油气田勘探开发过程中的重要组成部分,能够为油气田勘探开发工作奠定重要的数据分析基础。随着我国油气田勘探开发的不断深入,且准噶尔盆地地下流体及含油性特征不断变化,近年来智能化、信息化、计算机技术等多个领域的不断创新发展,为录井智能解释工作带来了新的机遇。录井智能解释是旨在为油气勘探开发提供准确、高效的录井资料解释成果。录井数据是在油气勘探和开发过程中收集的关键数据,包含地下地层的物理、化学和地质特征。通过对录井数据的解释,可以帮助石油工程师和地质学家更好地理解地下岩性及含油气性,从而指导油气勘探和开发工作。
[0061] 气测录井数据因其本身存在缺失值、异常值和噪声等问题,不能直接拿来做为机器学习算法的输入内容,需要对数据进行处理。且常规机器学习算法无法直接学习到气测录井曲线形态等信息,需要结合已有专家经验和数理统计理论进行数据预处理,增加可以表征曲线形态以及代表曲线深度关联的特征。
[0062] 如图1所示,一种气测录井数据解释方法,所述方法包括:
[0063] S101,对气测录井数据进行标准化处理,得到适用于数据分析的规范数据;
[0064] S102,根据规范数据,计算用于表述气测录井曲线特征的增维属性;
[0065] S103,计算增维属性的相关性,保留相关性小于相关性阈值K的增维属性,得到相关增维特征;
[0066] S104,将相关增维特征进行重要性评价,计算每个相关增维特征的基尼指数,并按基尼指数从大到小排序,选择排序靠前的M个相关增维特征作为敏感参数,并采用敏感参数进行录井解释。
[0067] 具体实施时,介绍如下:
[0068] 本公开处理气测录井数据过程基于录井专家经验、数理统计理论,挖掘气测敏感参数、气测地质特征、处理原始气测录井数据,处理气测异常值、缺失值。增维参数包括:湿度比、平衡比、特征比、机械比能、曲线段峰值个数、峰值分布标准差、周期相关性分析、曲线曲率等。
[0069] 气测录井数据挖掘及解释方法包括以下步骤:
[0070] (1)首先检测气测录井数据中是否有缺失值,对缺失值做如下处理:检测存在气测缺失值相邻深度点是否存在数据,如果存在数据将采用线性插值法将缺失值进行补充:
[0071]
[0072] 如果相邻深度点不存在数据,则删除本条数据。本方法不对乙烷、丙烷、正丁烷、异丁烷、正戊烷、异戊烷处理。
[0073] (2)气测录井数据中存在非数值型数据,如岩性、二级构造单元、层位等,该类型数据缺失优先使用临近深度点对应值作为补充值填充。
[0074] (3)对于类型数据岩性、含油级别、区块、层位等,由于其类型多样,过多的类型会影响模型的判断,根据岩石性质将32种岩性归纳为砾岩、砂岩、岩浆岩、火山碎屑岩、泥岩、碳酸盐岩、盐岩、煤层8类;将地层按照系划分为第三系、白垩系、侏罗系、三叠系、二叠系、石炭系6类;将区块以二级构造单元划分为31个区块。并对类别型数据进行独热编码。
[0075] (4)判别气测数据中的异常数据。对每个试油段、射孔段的气测录井数据进行分析,如果该段存在多个出至正戊烷的数据,那么未出至正戊烷的数据认定为异常值。同理对未出至乙烷、丙烷、正丁烷、异丁烷、异戊烷的数据做相同处理。最后删除该异常值。
[0076] (5)采用计算增维属性放大气测录井曲线特征、增加可以表征曲线形态以及代表曲线深度关联的特征。
[0077] 根据气测数据显示段计算显示段气测基值:计算距离显示段最近泥岩段的最小值,以此作为该显示段的基值。
[0078] 计算峰基比:
[0079]
[0080] 计算湿度比:
[0081]
[0082] 计算平衡比:
[0083]
[0084] 计算特征比:
[0085]
[0086] 计算气测增维参数:
[0087]
[0088] 计算机械比能:
[0089]
[0090] 计算曲线曲率:
[0091] d(d全烃)=d/dx(d全烃)
[0092] 计算曲线峰值和谷值数量:
[0093]
[0094] 计算峰值分布标准差:其中x是峰值个数数组中的每个元素值,μ是峰值个数数组的平均值,N是峰值个数数组的长度。
[0095]
[0096] 计算功率谱密度:信号的功率谱密度估计使用傅里叶变换的方法来计算功率谱密度,其中P(f)是频率f下的功率谱密度,F(f)是通过傅立叶变换计算得到的频率f下的复信号分量,N是信号长度。
[0097]
[0098] 计算Fisher系数:根据训练集训练得到的Fisher判别模型计算预测井段的Fisher系数,Fisher判别式常数项为‑4.95693490e+14,计算公式如下:
[0099] P(x)=‑1.90019263e‑02*'JS'+‑1.22466368e‑01*'ZS_x'+1.71323025e+00*'QL'+‑1.82781942e+00*'C1'+3.72630023e+01*'C2'+‑9.86540971e+01*'C3'+‑2.26882172e+01*'NC4'+‑9.25889332e+01*'IC4'+8.31293479e+01*'NC5'+4.01691851e+02*'IC5'+
4.87093643e+00*'CKMD'+1.23872397e‑12*'LDZD'+‑8.18029287e‑02*'CKDDL'+‑
1.55319713e+01*'WH'+‑1.25524371e‑01*'BH'+2.25734443e‑01*'CH'+‑3.72275829e+
08*'SJZZBX'+1.53409002e+08*'SJHZBY'+2.56984166e‑02*'EJGZDY'+6.58037244e‑03*'C1/C2'+2.16620206e‑02*'C1/C3'+‑8.97516130e‑03*'C1/C4'+1.56853561e+03*'C1/C5'+
5.23578075e+02*'C2/C'+1.91421217e+03*'C3/C'+‑1.18636484e+02*'C4/C'+
1.55319713e+03*'C3/C1'+1.56853561e+03*'C2/C1'+2.56984166e‑02*'ZC1'+‑
3.52421018e‑02*'ZC2'+1.19736606e‑02*'ZC1/ZC2'+1.10215648e‑12*'Logc1'+
3.67221267e+00*'Logc'+‑7.38963928e+00*'Tz'+5.13790178e+01*'QL_JX'+‑
1.85673144e+02*'C1_JX'+4.34910555e+01*'C2_JX'+9.37633732e+01*'C3_JX'+‑
8.88088613e+01*'IC4_JX'+4.21445833e+02*'NC4_JX'+‑1.69264292e+00*'IC5_JX'+
1.86743159e+00*'NC5_JX'+‑2.11099788e+01*'QL_FJC'+1.49098838e+02*'C1_FJC'+‑
2.32798012e+02*'C2_FJC'+8.45080431e+02*'C3_FJC'+‑6.11160583e+02*'IC4_FJC'+‑
1.21300614e+00*'NC4_FJC'+3.34284322e‑01*'IC5_FJC'+1.92969626e+00*'NC5_FJC'+‑
6.61170581e‑01*'QL_FJB'+‑3.03465828e‑01*'C1_FJB'+4.99653253e‑03*'C2_FJB'+
1.32534761e‑01*'C3_FJB'+3.08648081e‑02*'IC4_FJB'+‑6.96603688e‑03*'NC4_FJB'+‑
3.27941217e‑02*'IC5_FJB'+‑2.01717865e‑03*'NC5_FJB'+5.51674825e‑02*'LYHL'+
2.32871289e‑13*'SYHL'+2.18026006e‑13*'NYHL'+6.78803102e+00*'QT'+6.78803102e+
00*'HYZYXHL'+‑7.24335611e+00*'HYZTLHL'+1.60813205e‑01*'YGSZHL'+1.45255109e+
01*'YGGZHL'+‑1.92049090e‑01*'YGPZHL'+4.87093643e+00*'XLDBJB'+‑8.18029287e‑
02*'ZJYMD'+7.41714000e‑01*'ZJYND'+2.90130447e‑02*'CKZJYMD'+‑1.26311049e‑01*'CKZJYDDL'+6.76325579e+01*'ZS1'+‑3.97807361e+01*'ZS_y'+‑7.33550590e+00*'ZY'+‑
1.32668883e+00*'NJ'+‑8.02721137e‑02*'ZTZJ'+9.47287790e‑02*'DCZS'+‑
6.52964673e‑02*'SIGMAZS'+0.00000000e+00*'DCYLTD'+‑1.00104336e‑01*'SIGMAYLTD'+‑1.00104336e‑01*'JXBN'+‑1.00104336e‑01*'DJSD1'+‑1.00104336e‑01*'DJSD2'‑
4.95693490e+14
[0100] (6)挖掘敏感参数。原始数据和增维过后的数据维度过高,会存在一定的冗余信息,冗余维度会干扰模型判断,降低模型解释符合率。首先采用皮尔逊相关性分析计算增维属性的相关性,保留非线性相关的特征,剔除线性重合的特征。如对于增维特征乙烷、丙烷、正丁烷、异丁烷、正戊烷、异戊烷相关系数为1,乙烷和甲烷相关系数为0.99,即这些特征接近线性相关,且地质角度上通常也只使用全烃和甲烷的基线、峰基比,综合考虑只保留全烃、甲烷的基线和峰基比、峰基差,剔除其余冗余高相关性数据。
[0101] 将采用皮尔逊降维之后的数据进行重要性评价。采用随机森林和XGBoost模型对数据进行建模并计算每个特征的基尼指数来表征其重要性,其公式为:
[0102]
[0103] 其中,GI是基尼指数,有J个特征,I棵决策树,C个类别,Pqc表示节点q中类别C所占的比例。将所有特征按照重要性进行排序,选择前50个重要性最大的特征作为敏感参数。
[0104] (7)智能录井解释评价。智能录井解释是利用计算机算法和人工智能技术对处理后的数据进行分析和解释,以从中提取地质信息并进行自动化解释。将上述提取出的敏感参数作为随机森林模型输入。随机森林模型由多个决策树组成,每个决策树都是根据特征选择的结果和样本数据进行构建的。决策树的构建过程包括选择最佳的特征划分点、划分样本数据、递归地构建子树等步骤,每个决策树都是独立训练的,彼此之间没有依赖性。在数据进入随机森林模型之后,模型会根据特征选择的策略,从所有输入特征中随机选择一部分特征用于构建多个决策树。随机森林模型通过集成每个决策树的预测结果来得出最终的预测。对于分类问题采用投票的方式,即每个决策树投票选择的类别最多的作为最终预测结果,将准确率作为智能解释模型的解释符合率。
[0105] 如图2所示,一种气测录井数据解释装置,其特征在于,包括:规范单元201、增维单元202、相关性分析单元203和特征筛选单元204;
[0106] 规范单元201,用于对气测录井数据进行标准化处理,得到适用于数据分析的规范数据;
[0107] 增维单元202,用于根据规范数据,计算用于表述气测录井曲线特征的增维属性;
[0108] 相关性分析单元203,用于计算增维属性的相关性,保留相关性小于相关性阈值K的增维属性,得到相关增维特征;
[0109] 特征筛选单元204,用于将相关增维特征进行重要性评价,计算每个相关增维特征的基尼指数,并按基尼指数从大到小排序,选择排序靠前的M个相关增维特征作为敏感参数,并采用敏感参数进行录井解释。
[0110] 如图3所示,本公开提供了一种电子设备,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信;
[0111] 存储器303,存储有计算机程序;
[0112] 处理器301,用于执行存储器303上所存储的计算机程序时,实现上述的方法。
[0113] 本公开提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
[0114] 该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0115] 根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0116] 为使本领域的技术人员能更好的理解本公开,结合附图对本公开的原理阐述如下:
[0117] MH54井等15口井储层气测录井数据挖掘解释过程如下:
[0118] (1)首先将该井数据库中目标段的气测、工程参数、岩性、荧光、钻井液性能数据、试油数据提取整合为一个数据文件。
[0119] 气测录井原始数据如表1所示:
[0120] 表1
[0121]
[0122] (2)按照公开中的计算公式,计算储层样本点中的异常数据、处理空缺值数据。
[0123] 异常处理算法如表2所示:
[0124] 表2
[0125]
[0126] (3)如图4所示,将数据按照公开中的数据挖掘方法和公式进行数据挖掘,计算增维属性等。
[0127] 气测录井增维属性如表3所示:
[0128] 表3
[0129]
[0130]
[0131] 计算fisher系数算法如表4所示:
[0132] 表4
[0133]
[0134] (4)如图5所示,得到敏感参数,将计算所得数据,作为随机森林算法的输入数据,将气测录井数据段的流体性质作为输出。经试油验证,解释结论符合率78%;未使用本公开数据挖掘方法的数据作为随机森林算法的输入数据,解释符合率为59%。
[0135] (5)应用过程中,不同区块敏感参数不同,提取的敏感参数也不尽相同,该公开仅对准噶尔盆地部分区块有效,对其他区块可能需要重新挖掘敏感参数。
[0136] 尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

当前第1页 第1页 第2页 第3页