首页 / 岩土工程勘察大数据归档方法及系统

岩土工程勘察大数据归档方法及系统有效专利 发明

技术领域

[0001] 本发明涉及岩土工程勘察技术领域,尤其涉及一种岩土工程勘察大数据归档方法及系统。

相关背景技术

[0002] 起初,岩土工程勘察数据记录通常以纸质形式存在,存档和检索都相对繁琐。随着计算机技术的发展,勘察数据开始电子化记录。采用电子表格和数据库等工具,数据管理变得更为便捷,但仍然面临存储容量受限和数据互操作性的挑战,随着大数据技术的兴起,岩土工程勘察进入了大数据时代。传感器、无人机等先进技术的应用大幅增加了数据量。云计算、分布式存储和处理技术为大规模数据提供了解决方案,机器学习和人工智能应用于数据挖掘和预测分析,加速了数据处理和决策过程,岩土工程勘察大数据归档方法的发展历程呈现出从传统到现代、从手工记录到自动化处理的演变过程,推动了岩土工程领域的科技进步和工作效率的提升。但是,大规模数据的采集涉及多个源头,可能导致数据质量和一致性的问题。确保数据的准确性和一致性仍然是一个挑战,在不同的数据采集设备和平台之间,缺乏统一的技术标准和互操作性会导致数据集成和共享的困难。并且监测所产生大量的数据,对数据的高效管理和存储是一个挑战。存储这些海量数据需要庞大的计算和存储资源。

具体实施方式

[0023] 下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。
[0025] 应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
[0026] 为实现上述目的,请参阅图1至图4,一种岩土工程勘察大数据归档方法,包括以下步骤:
[0027] 步骤S1:获取初始岩土工程勘察数据;对初始岩土工程勘察数据进行勘察数据分区处理,生成分组岩土工程勘察数据;对分组岩土工程勘察数据进行数据重编码处理,得到岩土工程勘察数据;
[0028] 步骤S2:对岩土工程勘察数据进行复制增殖处理,得到岩土工程勘察数据副本;利用岩土工程勘察数据副本对岩土工程勘察数据进行哈希碰撞消重处理,得到消重岩土工程勘察数据;
[0029] 步骤S3:对消重岩土工程勘察数据进行元数据分析,得到岩土工程勘察数据元数据;
[0030] 步骤S4:基于岩土工程勘察数据元数据对消重岩土工程勘察数据进行存储结构设计,得到岩土工程勘察存储结构数据;
[0031] 步骤S5:根据岩土工程勘察存储结构数据对消重岩土工程勘察数据进行大数据归档,得到初始岩土工程勘察大数据归档库;对初始岩土工程勘察大数据归档库进行动态优化,生成岩土工程勘察大数据归档库。
[0032] 本发明的有益效果在于通过对初始岩土工程勘察数据的分区处理、数据重编码、复制增殖、哈希碰撞消重等步骤,实现了对数据的优化和整合。这有助于提高数据质量、减少冗余,使得岩土工程勘察数据更加规范和高效,通过对消重岩土工程勘察数据进行元数据分析,并基于分析结果进行存储结构设计,有助于更好地组织和管理数据。这可以提高数据的可读性、可维护性,并为后续的查询和分析提供更有效的支持,利用存储结构设计,对消重岩土工程勘察数据进行大数据归档,形成初始岩土工程勘察大数据归档库。进一步,对该归档库进行动态优化,有助于提升大数据处理的效率和性能,通过复制增殖和哈希碰撞消重处理,有助于确保岩土工程勘察数据的一致性和完整性。复制增殖可以创建数据副本,用于备份和保护数据,可以增加哈希碰撞消重的效果,避免因为数据量不足而导致哈希碰撞出现错误,而哈希碰撞消重则有效地清除重复的数据,避免了不必要的冗余,元数据分析使得可以深入了解岩土工程勘察数据的特性和结构,有助于更好地理解数据的含义、来源和关系,为后续的存储结构设计提供了有力支持,大数据归档是在考虑存储结构的基础上进行的,通过对消重岩土工程勘察数据进行大数据归档,初始岩土工程勘察大数据归档库得以形成。动态优化进一步确保了这一库的性能。这种协同作用保证了数据在长期存储和管理中的可靠性和效率。因此,本发明通过数据处理、安全性、效率优化、元数据分析、存储结构设计以及动态优化方面,从数据的采集到存储,都考虑到了提高数据质量、降低冗余、提升存储和处理效率等方面,从而提高岩土工程勘察数据管理的效率和质量。
[0033] 本发明实施例中,参考图1所述,为本发明岩土工程勘察大数据归档方法的步骤流程示意图,在本实例中,所述岩土工程勘察大数据归档方法包括以下步骤:
[0034] 步骤S1:获取初始岩土工程勘察数据;对初始岩土工程勘察数据进行勘察数据分区处理,生成分组岩土工程勘察数据;对分组岩土工程勘察数据进行数据重编码处理,得到岩土工程勘察数据;
[0035] 本发明实施例中,使用合适的勘察方法和工具,收集相关岩土工程勘察数据,包括地质、地形、水文等方面的信息,将获取的初始数据按照地理区域、地层特性等因素进行划分,形成不同的数据分区,在每个数据分区内,将相关数据按照特定标准进行分组,分组可以基于地质特征、勘察方法、深度范围等因素进行,对每个分组的数据进行重编码,其中涉及数据格式、单位转换、数据标准化等操作。
[0036] 步骤S2:对岩土工程勘察数据进行复制增殖处理,得到岩土工程勘察数据副本;利用岩土工程勘察数据副本对岩土工程勘察数据进行哈希碰撞消重处理,得到消重岩土工程勘察数据;
[0037] 本发明实施例中,通过数据复制工具、脚本或软件复制岩土工程勘察数据,生成数据的副本,使用哈希函数对数据副本进行处理,将数据映射为哈希值,通过比较哈希值,识别是否存在哈希碰撞(多个不同的数据映射到相同的哈希值),针对发生碰撞的情况,采取适当的方法解决,例如使用不同的哈希函数、增加哈希位数等,直至达到较低的冲突概率,针对哈希值冲突的数据集,进行完整的数据比对,比对可以涉及数据的各个字段,确保数据的一致性和准确性,生成比对结果数据,记录冲突的具体信息,包括哪些数据项发生了冲突,根据比对结果,确定如何处理冲突的数据,选择一个数据项保留,对哈希值冲突的数据集进行唯一化处理,确保最终的数据集中不存在重复的数据,根据哈希碰撞的处理结果,得到去除重复数据的消重岩土工程勘察数据。
[0038] 步骤S3:对消重岩土工程勘察数据进行元数据分析,得到岩土工程勘察数据元数据;
[0039] 本发明实施例中,定义岩土工程勘察数据中的关键属性,包括物理性质、地质特征、工程参数方面,对原始数据进行清洗,处理缺失值、异常值问题,进行必要的数据预处理,如标准化、归一化,确保数据质量,使用数据挖掘或统计分析方法,从清洗后的数据中提取关键属性,确定关系分析的目标,了解属性之间的相互影响、依赖关系,确定勘察数据的依赖关系梯度,即属性之间的数据依赖程度,基于依赖关系梯度数据,定义元数据存储结构,包括属性之间的关系、数据类型、长度等信息,利用定义好的元数据存储结构数据,建立元数据存储系统,确保对关键属性数据的有效管理,制定元数据的更新策略,确保元数据与实际数据的一致性,基于建立的元数据存储系统,生成岩土工程勘察数据的元数据文档。
[0040] 步骤S4:基于岩土工程勘察数据元数据对消重岩土工程勘察数据进行存储结构设计,得到岩土工程勘察存储结构数据;
[0041] 本发明实施例中,确定不同用户或系统对岩土工程勘察数据的访问模式需求,包括读取、写入、更新操作,根据访问模式需求和岩土工程勘察数据元数据,选择适当的存储引擎,以满足性能、可扩展性和数据一致性的要求,根据预设的访问模式和存储引擎的特性,进行数据分区和存储设计,以提高数据的访问效率,制定岩土工程存储引擎数据的备份和恢复策略,确保数据的安全性和可靠性,分析岩土工程勘察数据的查询需求,确定需要建立的索引类型和结构,根据元数据信息,为关键属性建立索引,以提高数据检索效率,优化索引结构,确保在满足查询需求的同时最小化对存储空间和性能的影响,基于已选定的存储引擎和建立的索引,设计岩土工程勘察数据的存储结构,包括表结构、字段类型,进行存储结构的性能优化,以提高数据的读写速度和响应时间,生成岩土工程勘察存储结构的文档,包括表定义、索引说明。
[0042] 步骤S5:根据岩土工程勘察存储结构数据对消重岩土工程勘察数据进行大数据归档,得到初始岩土工程勘察大数据归档库;对初始岩土工程勘察大数据归档库进行动态优化,生成岩土工程勘察大数据归档库。
[0043] 本发明实施例中,根据岩土工程勘察存储结构数据,设计数据库模型,包括表、字段、关系,确定各个实体之间的关系,如一对一、一对多、多对多,并将其映射到数据库模型中,为每个字段定义合适的数据类型,以确保数据存储的有效性和一致性,确定主键和外键,以维护数据的完整性和关系的准确性,根据业务需求添加必要的约束条件,如唯一约束、非空约束,收集数据库查询日志,包括查询语句、执行时间、频率信息。分析查询日志,识别频繁执行的查询操作和可能存在性能瓶颈的情况,根据分析结果,提取查询疲劳数据,即频繁执行的查询语句和相关信息,根据查询疲劳数据,选择合适的分区键,以提高查询性能,根据选定的分区键,重新建立索引结构,优化存储布局,以降低查询成本,根据最优浮动分区键索引数据,对初始数据库进行索引重建,应用新的索引结构,将重建后的数据库作为基础,生成岩土工程勘察大数据归档库,在实施变更之前,进行数据库备份,并验证重建后的数据库是否满足性能和查询需求。
[0044] 优选的,步骤S1包括以下步骤:
[0045] 步骤S11:利用专业采集设备获取初始岩土工程勘察数据;
[0046] 步骤S12:对初始岩土工程勘察数据进行数据归一化处理,得到标准岩土工程勘察数据;
[0047] 步骤S13:对标准岩土工程勘察数据进行勘察数据分区处理,生成分组岩土工程勘察数据;
[0048] 步骤S14:对分组岩土工程勘察数据进行数据重编码处理,得到岩土工程勘察数据。
[0049] 本发明利用专业采集设备采集初始岩土工程勘察数据可以提高数据的准确性和可靠性,数据归一化处理有助于消除不同采集设备或方法引入的差异,使得数据更为一致和可比,数据归一化处理将初始岩土工程勘察数据转化为标准格式,有助于消除单位不同、量纲不同等问题,提高数据的可理解性和可比性,勘察数据分区处理可以根据特定需求将数据分为不同的区域或组,有助于更有针对性地分析和处理数据,分组可以基于地理位置、特定特征等,便于后续的工程决策和分析,数据重编码处理可以进一步规范和优化数据,使得数据更适应后续的岩土工程应用,重编码有助于减少数据维度、简化数据结构,提高数据的处理效率和可用性,通过操作得到的岩土工程勘察数据更为准确、一致,并且已经经过标准化和分组,有助于提高工程决策的准确性和效果,每个步骤都有有助于建立清晰的数据管理流程,使得数据的来源、处理过程和结果可追溯,提高数据的可信度和可管理性。
[0050] 作为本发明的一个实例,参考图2所示,在本实例中所述步骤S1包括:
[0051] 步骤S11:利用专业采集设备获取初始岩土工程勘察数据;
[0052] 本发明实施例中,确保专业岩土工程勘察采集设备处于良好状态,定位勘察区域,并确保场地安全,根据勘察需求,设置测量点和布置采集设备,制定数据采集计划,包括采集时间、频率、采样点分布,确定合适的采样深度和间隔,在数据采集过程中,进行实时监控,确保采集设备正常运行,记录每个采样点的坐标、时间信息,将采集到的原始数据进行存储。将采集到的数据传输至后续处理系统。
[0053] 步骤S12:对初始岩土工程勘察数据进行数据归一化处理,得到标准岩土工程勘察数据;
[0054] 本发明实施例中,将采集到的初始岩土工程勘察数据导入数据处理系统,进行数据清理,处理可能存在的异常值或缺失数据,对数据进行预处理,例如去除噪声、平滑曲线,确保数据质量,对于每个特征(测量项),将其进行最小‑最大归一化,使得数据范围在指定范围内(通常是0到1),存储归一化后的数据,以备后续使用,对归一化后的数据进行验证,确保数据处理的正确性和一致性,记录用于归一化的参数,如最小值、最大值、均值、标准差,生成标准岩土工程勘察数据报告,包括归一化处理的详细步骤和结果。
[0055] 步骤S13:对标准岩土工程勘察数据进行勘察数据分区处理,生成分组岩土工程勘察数据;
[0056] 本发明实施例中,将标准岩土工程勘察数据导入数据处理系统或软件,按地理位置、工程特性、岩土层次等进行分组,定义数据分区的目标,选择用于分组的关键特征或属性,根据分区目标和选择的特征,使用决策树、支持向量机、神经网络等方法,根据选定的特征将数据分为不同的类别,根据分区方法的结果,设定每个分组的标准和范围,根据选定的方法和标准,对标准岩土工程勘察数据进行分组处理,生成分组岩土工程勘察数据,验证分组结果的合理性和准确性,可以通过可视化手段、统计分析等方法进行验证。
[0057] 步骤S14:对分组岩土工程勘察数据进行数据重编码处理,得到岩土工程勘察数据。
[0058] 本发明实施例中,确定数据重编码的目标,制定数据重编码的规则,包括对每个特征或属性的重编码方式、范围映射,根据制定的规则,对分组岩土工程勘察数据进行重编码处理,确保重编码后的数据格式统一,包括统一单位、保留有效数字,进行数据质量检查,确保重编码后的数据质量符合要求。
[0059] 优选的,步骤S13包括以下步骤:
[0060] 步骤S131:利用数据调用依赖程度计算公式对标准岩土工程勘察数据进行依赖程度计算,得到所有岩土工程勘察数据依赖关系数据;
[0061] 步骤S132:根据所有岩土工程勘察数据依赖关系数据对标准岩土工程勘察数据进行依赖梯度分析,得到勘察数据依赖关系梯度数据;
[0062] 步骤S133:基于勘察数据依赖关系梯度数据对标准岩土工程勘察数据进行勘察数据分区处理,得到初始分组岩土工程勘察数据;
[0063] 步骤S134:根据勘察数据依赖关系梯度数据对初始分组岩土工程勘察数据进行优先级排序,生成分组岩土工程勘察数据。
[0064] 本发明利用数据调用依赖程度计算公式和依赖关系数据的分析,可以帮助理解标准岩土工程勘察数据之间的依赖关系。这有助于识别数据之间的相互关联和影响,通过依赖梯度分析,可以更深入地了解不同数据之间的依赖程度。这有助于确定哪些数据对工程决策或分析更为关键,从而优先考虑处理这些数据,基于依赖关系梯度数据进行勘察数据分区处理,可以将数据划分为更为有针对性的区域。这有助于更有效地管理和处理数据,特别是在大规模勘察数据集的情况下,优先级排序基于依赖关系梯度数据,可以帮助确定处理数据的优先级。这使得在处理数据时可以有目标地先处理对整体工程更为重要的数据,通过了解数据的依赖关系和梯度,可以更有效地组织和处理数据。这有助于提高数据处理的效率,减少不必要的处理步骤,从而加速整个工程流程,生成的分组岩土工程勘察数据可以更有针对性地用于工程决策。通过考虑数据的依赖关系和优先级,可以提供更为可靠和有力的数据支持,促使更明智的决策。
[0065] 作为本发明的一个实例,在本实例中所述步骤S13包括:
[0066] 步骤S131:利用数据调用依赖程度计算公式对标准岩土工程勘察数据进行依赖程度计算,得到所有岩土工程勘察数据依赖关系数据;
[0067] 本发明实施例中,收集标准岩土工程勘察数据,分析标准岩土工程勘察数据集中的数据之间的调用关系,包括数据之间的输入输出关系、函数调用关系、表格关联关系。利用数据调用依赖程度计算公式,对标准岩土工程勘察数据进行依赖程度计算,根据公式,计算每个数据和其他数据之间的依赖程度得分,将计算得到的数据依赖程度得分整理,生成岩土工程勘察数据的依赖关系数据,用一个矩阵或图形表示,包含数据之间的依赖关系和依赖程度得分。
[0068] 步骤S132:根据所有岩土工程勘察数据依赖关系数据对标准岩土工程勘察数据进行依赖梯度分析,得到勘察数据依赖关系梯度数据;
[0069] 本发明实施例中,使用岩土工程勘察数据依赖关系数据作为输入数据,根据具体需求和分析目的,定义依赖梯度分析的指标,包括数据依赖的级别、依赖路径的长度、依赖关系的密度。基于岩土工程勘察数据依赖关系数据,进行依赖梯度分析,根据定义的指标,通过遍历依赖关系数据、计算路径长度等方法计算每个标准岩土工程勘察数据的依赖梯度值,将计算得到的勘察数据依赖梯度值整理,生成勘察数据依赖关系梯度数据,根据生成的勘察数据依赖关系梯度数据,进行进一步的分析和应用,根据梯度值的高低判断数据的重要性和依赖程度,对数据进行分类和优化决策。
[0070] 步骤S133:基于勘察数据依赖关系梯度数据对标准岩土工程勘察数据进行勘察数据分区处理,得到初始分组岩土工程勘察数据;
[0071] 本发明实施例中,使用勘察数据依赖关系梯度数据作为输入数据,根据具体需求和分析目的,定义分区处理的指标,包括梯度值的阈值、分组的个数、分组的均衡性,根据定义的分区处理指标,对标准岩土工程勘察数据进行初始的分组划分,根据梯度值的高低、阈值的设定进行分组的划分过程,评估初始分组的均衡性,确保每个分组内的数据在梯度值上相对均衡,使用统计方法或可视化工具来分析每个分组的梯度值分布情况,根据评估结果,对初始分组进行优化,调整分组的划分方式、调整阈值,以达到更好的分组均衡性和数据关联性,根据最终优化的分组结果,生成初始分组岩土工程勘察数据。
[0072] 步骤S134:根据勘察数据依赖关系梯度数据对初始分组岩土工程勘察数据进行优先级排序,生成分组岩土工程勘察数据。
[0073] 本发明实施例中,使用勘察数据依赖关系梯度数据作为输入数据,根据具体需求和分析目的,定义优先级排序的指标,包括梯度值、数据重要性、依赖程度,根据定义的优先级排序指标,对初始分组岩土工程勘察数据进行排序,根据梯度值的高低、数据重要性的评估等进行排序过程,根据排序结果,生成最终的分组岩土工程勘察数据。
[0074] 优选的,步骤S131中的数据调用依赖程度计算公式如下所示:
[0075]
[0076] 式中,D为岩土工程勘察数据之间的依赖关系程度,N为岩土工程勘察数据的数量,M为积分项的数量值,i为数据项的索引值,j为积分项的索引值,t1为对被积函数进行积分的下限值,t2为对被积函数进行积分的上限值,f(x,y,z,t)为岩土工程勘察数据在特定时间点的调用依赖程度,x为土壤密度值,y为岩石强度值,z为地层压缩模量,t为时间变化值,u为地层应力值,v为土壤含沙量。
[0077] 本发明构建了一种数据调用依赖程度计算公式,其中, 为外层求和,外层求和表示对所有的岩土工程数据项进行求和操作,N为岩土工程勘察数据的数量,M为积分项的数量值,i为数据项的索引值。 为内层求和,内层求和表示对积分项进行求和操作,其中M为积分项的数量值,j为积分项的索引值,t1为对被积函数进行积分的下限值,t2为对被积函数进行积分的上限值,f(x,y,z,t)为岩土工程勘察数据在特定时间点的调用依赖程度。 中不同的岩土工程
数据项代表了不同的特征或属性,例如土壤密度、岩石强度、地层压缩模量、时间变化、地层应力、土壤含沙量。
[0078] 通过综合考虑不同的数据项,可以更全面地评估岩土工程的依赖关系,积分项的数量值M可以用于控制对被积函数的积分精度,通过增加积分项的数量,可以更准确地估计被积函数的积分值,从而提高对岩土工程数据依赖关系的度量准确度,岩土工程数据的数量N可以用于控制对不同数据项的加权影响。通过增加数据项的数量,可以更充分地考虑到不同数据项之间的依赖关系,从而提高对岩土工程数据依赖关系的评估准确度,本公式通过综合考虑多个岩土工程数据项和时间变量的影响,以及对被积函数的积分和求平均操作,从而评估岩土工程数据之间的依赖关系程度,通过调整参数和增加数据项的数量,可以提高度量的准确性和可靠性,为岩土工程项目的设计和分析提供有益的效果因此,通过应用本发明提供的数据调用依赖程度计算公式,能够更好地评估和理解数据之间的依赖关系,从而优化数据处理流程,提高数据质量和可靠性。
[0079] 优选的,步骤S2包括以下步骤
[0080] 步骤S21:对岩土工程勘察数据进行复制增殖处理,得到岩土工程勘察数据副本;
[0081] 步骤S22:利用岩土工程勘察数据副本对岩土工程勘察数据进行多轮哈希碰撞,得到哈希值冲突数据集;
[0082] 步骤S23:对哈希值冲突数据集进行完整数据比对,生成比对结果数据;
[0083] 步骤S24:根据比对结果数据对哈希值冲突数据集进行唯一化处理,生成消重岩土工程勘察数据。
[0084] 本发明通过对岩土工程勘察数据进行复制增殖处理,可以创建数据的副本。这有助于在后续的处理步骤中进行比对和分析,同时确保原始数据的安全性和完整性,利用岩土工程勘察数据副本进行多轮哈希碰撞,可以生成哈希值冲突数据集。这种碰撞技术可以有效地识别在数据集中存在重复或相似的数据项,为后续的数据处理提供基础,对哈希值冲突数据集进行完整数据比对,可以生成比对结果数据。有助于识别和记录数据集中的重复项,提供了关于数据重复性和一致性的重要信息,根据比对结果数据,对哈希值冲突数据集进行唯一化处理,生成消重岩土工程勘察数据。这意味着最终的数据集中不再存在重复的数据项,提高了数据的质量和可靠性,能够有效地处理岩土工程勘察数据中的重复项,确保数据的一致性和准确性。通过消除重复数据,可以提高数据处理和分析的效率,并减少不必要的重复工作。此外,该方法还有助于数据集成和管理,为岩土工程领域的决策制定提供更可靠的基础。
[0085] 作为本发明的一个实例,参考图3所示,在本实例中所述步骤S2包括:
[0086] 步骤S21:对岩土工程勘察数据进行复制增殖处理,得到岩土工程勘察数据副本;
[0087] 本发明实施例中,复制包含原始数据的数据集合,例如文件夹或文件集合,使用文件操作工具(如操作系统的文件管理器)将包含原始数据的数据集合(如文件夹)复制到新的目标位置,生成副本数据集合,对生成的岩土工程勘察数据副本进行验证,确保复制增殖处理的准确性和完整性。比较副本数据与原始数据的关键属性和特征,以确认数据复制过程中的一致性。
[0088] 步骤S22:利用岩土工程勘察数据副本对岩土工程勘察数据进行多轮哈希碰撞,得到哈希值冲突数据集;
[0089] 本发明实施例中,将数据保存在一个安全的位置,以便进行哈希碰撞处理,根据需求和应用场景,选择适合的哈希算法,包括MD5、SHA‑1、SHA‑256,根据需求和实际情况,确定进行哈希碰撞的轮数,对每个岩土工程勘察数据副本应用选择的哈希算法,并得到初始的哈希值,对初始哈希值进行迭代,重复多轮哈希操作,以生成新的哈希值,在每一轮哈希操作后,检查生成的哈希值是否与其他数据的哈希值发生冲突。如果发生冲突,将冲突的数据标记为哈希值冲突数据,并记录相应的信息,将所有发生哈希值冲突的数据收集起来,形成哈希值冲突数据集。可以将这些冲突数据保存到一个单独的文件或数据库中,对生成的哈希值冲突数据集进行验证,确保冲突数据的准确性和一致性。
[0090] 步骤S23:对哈希值冲突数据集进行完整数据比对,生成比对结果数据;
[0091] 本发明实施例中,根据实际需求,确定数据比对的方法和比对规则。这些规则包括字段匹配、数值比较、字符串比较、日期比较等,具体取决于数据的类型和比对目的,针对哈希值冲突数据集中的每个数据项,从数据来源中查找相应的数据项进行比对,根据比对规则逐一比较相关字段或属性的值,判断是否存在差异或冲突,记录比对结果,包括比对的数据项、比对规则和比对结果(如匹配、不匹配、差异等),将比对的结果数据整理和汇总,生成比对结果数据集。可以将比对结果保存为一个单独的文件、报告或数据库,以便后续处理和分析。
[0092] 步骤S24:根据比对结果数据对哈希值冲突数据集进行唯一化处理,生成消重岩土工程勘察数据。
[0093] 本发明实施例中,根据比对结果数据,确定唯一化的规则。可以根据比对结果中的匹配程度、冲突类型和其他相关信息,制定唯一化的规则和策略,例如选择匹配程度最高的一条数据作为唯一数据。在比对结果中,根据匹配程度的值或分数,选择匹配程度最高的一组数据中的一条作为唯一数据,通过比对结果数据,识别出存在重复的数据项。根据唯一化规则,确定哪些数据项需要被视为重复数据,对于重复的数据项,确定保留策略。选择保留最匹配的一条数据,或者根据其他指标来选择保留具体数据,根据比对结果数据中的唯一标识符或其他关键信息,对冲突数据集中的重复项进行标记或删除,经过唯一化处理后,生成消重的岩土工程勘察数据。
[0094] 优选的,步骤S3包括以下步骤:
[0095] 步骤S31:对消重岩土工程勘察数据进行关键属性提取,得到岩土工程勘察关键属性数据;
[0096] 步骤S32:对岩土工程勘察关键属性数据进行关系分析,得到岩土工程勘察关键属性数据关系数据;
[0097] 步骤S33:基于勘察数据依赖关系梯度数据对岩土工程勘察关键属性数据关系数据进行元数据存储结构定义,得到元数据存储结构数据;
[0098] 步骤S34:基于元数据存储结构数据对岩土工程勘察关键属性数据进行元数据存储系统构建,生成岩土工程勘察数据元数据。
[0099] 本发明通过对消重岩土工程勘察数据进行关键属性提取,可以将复杂的原始数据转化为具有实际应用价值的关键属性数据。这有助于简化数据分析和处理过程,提高数据的可理解性和可应用性,通过对岩土工程勘察关键属性数据进行关系分析,可以揭示数据之间的关联和依赖关系。这有助于深入理解岩土工程数据的内在规律和特征,并为后续的数据处理和决策提供依据,基于勘察数据依赖关系梯度数据,对岩土工程勘察关键属性数据关系数据进行元数据存储结构定义。通过定义合适的元数据存储结构,可以有效组织和管理岩土工程勘察数据,提高数据的可访问性和可维护性,基于元数据存储结构数据,构建元数据存储系统,用于存储和管理岩土工程勘察数据的元数据。这将有助于数据的组织、查询和分析,提高数据的整体价值和利用效率,通过以上步骤,可以生成岩土工程勘察数据的元数据。元数据提供了对属性数据的描述和解释,包括属性的含义、单位、数据范围等,有助于用户理解和正确使用数据。有助于在优化岩土工程勘察数据的处理和管理过程,提高数据的质量和价值。通过关键属性提取、关系分析、元数据存储结构定义和元数据存储系统构建,可以更好地理解和利用岩土工程勘察数据,支持决策和实践中的岩土工程工作。
[0100] 本发明实施例中,根据项目需求和目标,确定需要提取的关键属性,使用适当的数据处理工具和方法,对原始数据进行清洗、转换和计算,提取所需的关键属性,生成岩土工程勘察关键属性数据集,确保数据的准确性和完整性,对岩土工程勘察关键属性数据进行统计分析,计算各属性的描述性统计量,探索属性之间的相关性和关联性,选择使用相关系数、散点图、热力图等方法进行分析,分析岩土工程勘察关键属性数据之间的依赖关系和梯度变化,根据依赖关系和梯度数据,定义合适的元数据存储结构,包括属性的命名、数据类型、单位、范围,使用数据库、表格或其他合适的方式进行存储,根据元数据存储结构数据,建立相应的元数据存储系统,确保元数据的可访问性和可管理性,将岩土工程勘察关键属性数据按照定义好的元数据存储结构进行组织和存储,生成岩土工程勘察数据的元数据,包括属性的描述、定义、数据范围等信息。
[0101] 优选的,步骤S4包括以下步骤:
[0102] 步骤S41:基于预设的访问模式需求和岩土工程勘察数据元数据对消重岩土工程勘察数据进行存储引擎筛选,得到岩土工程存储引擎数据;
[0103] 步骤S42:根据岩土工程勘察数据元数据对消重岩土工程勘察数据进行索引建立,生成岩土工程存储索引数据;
[0104] 步骤S43:基于岩土工程存储引擎数据和岩土工程存储索引数据对消重岩土工程勘察数据进行存储结构设计,得到岩土工程勘察存储结构数据。
[0105] 本发明通过对岩土工程勘察数据进行存储引擎筛选,可以选择适合特定需求的存储引擎,如关系型数据库、NoSQL数据库等。这有助于提高数据的存储效率和查询性能,并满足用户对数据存储和访问的要求,通过对岩土工程勘察数据进行索引建立,可以加快数据的检索速度和查询效率。索引可以根据元数据中定义的属性,建立相应的数据索引结构,提高数据的访问性能和响应时间,通过对消重岩土工程勘察数据进行存储结构设计,可以合理组织和管理数据,提高数据的存储效率和可维护性。存储结构设计可以考虑数据的分区、分表、压缩等技术手段,以优化数据的存储和查询性能,有助于优化岩土工程勘察数据的存储和管理过程,提高数据的存储效率、查询性能和可维护性。通过存储引擎筛选、索引建立和存储结构设计,可以更好地满足用户对数据的访问需求,提升岩土工程勘察数据的整体价值和利用效率。
[0106] 作为本发明的一个实例,参考图4所示,在本实例中所述步骤S4包括:
[0107] 步骤S41:基于预设的访问模式需求和岩土工程勘察数据元数据对消重岩土工程勘察数据进行存储引擎筛选,得到岩土工程存储引擎数据;
[0108] 本发明实施例中,明确用户对岩土工程勘察数据的访问方式和需求,例如数据的读取频率、写入频率、并发访问量,仔细审查岩土工程勘察数据的元数据,包括属性名称、数据类型、数据大小等信息,根据预设的访问模式需求和元数据分析结果,选择适合的存储引擎。常见的存储引擎包括关系型数据库(如MySQL、Oracle)、NoSQL数据库(如MongoDB、Cassandra)、分布式文件系统(如Hadoop HDFS),根据选择的存储引擎,对消重岩土工程勘察数据进行筛选和转换,确保数据格式和结构符合存储引擎的要求,将筛选后的消重岩土工程勘察数据导入到选定的存储引擎中,对导入的岩土工程存储引擎数据进行验证,确保数据的正确性和可用性。
[0109] 步骤S42:根据岩土工程勘察数据元数据对消重岩土工程勘察数据进行索引建立,生成岩土工程存储索引数据;
[0110] 本发明实施例中,审查岩土工程勘察数据的元数据,包括属性名称、数据类型、数据大小等信息,根据数据的访问模式和查询需求,选择需要建立索引的属性。选择作为查询条件或经常被用于筛选、排序和分组的属性,根据属性的特点和查询需求,选择适合的索引类型,如B树索引、哈希索引、全文索引,根据选择的索引类型,对消重岩土工程勘察数据进行索引建立,包括创建索引文件、生成索引结构,并将索引与数据关联起来,根据实际情况,对索引进行优化,包括调整索引参数、压缩索引、重新组织索引,对建立的岩土工程存储索引数据进行验证。
[0111] 步骤S43:基于岩土工程存储引擎数据和岩土工程存储索引数据对消重岩土工程勘察数据进行存储结构设计,得到岩土工程勘察存储结构数据。
[0112] 本发明实施例中,审查岩土工程存储引擎数据的特点和存储方式,了解数据的组织结构、存储格式和存储约束,审查岩土工程存储索引数据的特点和索引结构,了解索引的组织方式、索引类型和索引字段,据数据的访问模式和查询需求,确定存储结构设计的目标,如提高数据的存储效率、简化数据的访问路径、优化查询性能等,根据存储引擎数据和存储索引数据的分析结果,设计合适的存储结构。这包括确定数据表的划分方式、选择适当的数据类型和字段约束、定义表之间的关系等,根据存储引擎的支持和数据的特点,考虑将数据进行分区和分表存储,以提高数据的查询效率和管理灵活性。根据时间、地理位置等因素进行分区分表,根据数据的特点和存储需求,对数据进行压缩和加密处理,对设计的岩土工程勘察存储结构数据进行验证。
[0113] 优选的,步骤S42包括以下步骤:
[0114] 步骤S421:对消重岩土工程勘察数据进行分区键定位,得到岩土工程勘察数据分区键数据;
[0115] 步骤S422:对岩土工程勘察数据分区键数据进行可调整分区键索引构建,得到浮动分区键索引数据;
[0116] 步骤S423:基于浮动分区键索引数据对消重岩土工程勘察数据进行复合索引构建,生成复合岩土工程存储索引数据;
[0117] 步骤S424:根据岩土工程勘察数据元数据对复合岩土工程存储索引数据进行索引调优处理,得到岩土工程存储索引数据。
[0118] 本发明通过分区键定位可以根据消重岩土工程勘察数据的特点和查询需求,确定合适的分区键,将数据划分为逻辑上相对独立的分区。这有助于提高数据的查询效率和管理灵活性,同时减少了数据操作的范围,提升了系统的性能,可调整分区键索引构建可以根据岩土工程勘察数据的变化情况,动态地调整分区键的选择和分区的划分。这样可以在数据变动较大的情况下,保持索引的有效性和查询性能,减少数据重分布的成本,复合索引构建可以根据不同的查询需求和访问模式,将多个属性组合成复合索引,提高多条件查询的效率。复合索引可以减少数据的扫描量,加快查询速度,并且可以更好地满足复杂查询的需求,索引调优处理可以根据岩土工程勘察数据的特点和查询模式,对复合岩土工程存储索引数据进行优化。通过调整索引参数、重新组织索引结构等操作,可以提升索引的查询性能,减少资源占用,并且确保索引的正确性和有效性。
[0119] 作为本发明的一个实例,在本实例中所述步骤S42包括:
[0120] 步骤S421:对消重岩土工程勘察数据进行分区键定位,得到岩土工程勘察数据分区键数据;
[0121] 本发明实施例中,审查消重岩土工程勘察数据的特点和属性,了解数据的内容、结构和分布情况,根据数据的特点和查询需求,选择合适的分区键,根据数据的特点和存储引擎的支持,确定分区的策略和方式,根据选择的分区键和分区策略,对消重岩土工程勘察数据进行分区划分。将数据按照分区键的值范围或分区函数进行分组,将相同分区键值的数据放入同一个分区中,根据分区划分的结果,生成岩土工程勘察数据分区键数据。这些数据包含了每条数据所属的分区信息。
[0122] 步骤S422:对岩土工程勘察数据分区键数据进行可调整分区键索引构建,得到浮动分区键索引数据;
[0123] 本发明实施例中,审查岩土工程勘察数据分区键数据,了解各个分区键的取值范围和分布情况,根据数据的变化情况和查询需求,选择可以动态调整的分区键,可调整分区键是指在数据变动时,可以重新划分分区的键值,根据分区键数据,构建初始的分区键索引,这是一个基于初始分区划分的索引结构,用于快速定位数据所属的分区,监控岩土工程勘察数据的变动情况,包括新增数据、修改数据和删除数据,通过触发器、定时任务或者其他方式实现,当数据发生变动时,检测变动的数据并进行记录,根据检测到的数据变动信息,动态调整分区键索引根据新增数据的分区键值,添加新的索引项;根据修改数据的分区键值,更新相关索引项;根据删除数据的分区键值,删除相应的索引项,根据动态调整后的分区键索引,更新浮动分区键索引数据。
[0124] 步骤S423:基于浮动分区键索引数据对消重岩土工程勘察数据进行复合索引构建,生成复合岩土工程存储索引数据;
[0125] 本发明实施例中,审查消重岩土工程勘察数据的属性和查询需求,了解需要构建的复合索引的属性组合,根据查询需求,选择需要组合的属性作为复合索引的属性,包括常用于查询条件的属性,根据选择的复合索引属性,构建复合索引,复合索引是由多个属性组合而成的索引结构,利用浮动分区键索引数据,对消重岩土工程勘察数据进行复合索引构建,根据浮动分区键索引数据中记录的分区信息,将相同分区的数据进行组合,并为每个组合生成相应的复合索引,根据复合索引的构建结果,生成复合岩土工程存储索引数据,包括复合索引的索引项和索引指针。
[0126] 步骤S424:根据岩土工程勘察数据元数据对复合岩土工程存储索引数据进行索引调优处理,得到岩土工程存储索引数据。
[0127] 本发明实施例中,通过分析岩土工程勘察数据的索引查询需求,了解查询频率、查询类型、查询条件等信息,评估当前的复合岩土工程存储索引的性能,包括查询效率、存储空间占用等方面,使用数据库系统提供的索引性能评估工具或自定义的评估方法,根据岩土工程勘察数据元数据和索引查询需求,优化复合岩土工程存储索引的结构,调整索引属性的顺序、选择适当的索引类型(如B+树、哈希等),以及调整索引的填充因子,根据优化后的索引结构,重新构建岩土工程存储索引数据,对优化后的岩土工程存储索引数据进行性能测试,评估索引的查询效率和存储空间占用情况,使用实际的查询场景或模拟的负载测试数据进行测试,根据测试结果,进行迭代优化。根据性能指标和查询需求,继续调整索引结构、属性顺序或其他参数,直到达到预期的索引性能。
[0128] 优选的,步骤S5包括以下步骤:
[0129] 步骤S51:基于岩土工程勘察存储结构数据进行数据库建模,得到初始岩土工程勘察数据库;
[0130] 步骤S52:对初始岩土工程勘察数据库进行日志分析,得到查询疲劳数据;
[0131] 步骤S53:利用查询疲劳数据对岩土工程勘察存储结构数据进行分区键索引重构建,得到最优浮动分区键索引数据;
[0132] 步骤S54:根据最优浮动分区键索引数据对初始岩土工程勘察数据库进行索引重建,生成岩土工程勘察大数据归档库。
[0133] 本发明基于岩土工程勘察存储结构数据进行数据库建模,可以将实际的岩土工程勘察数据组织成一个数据库,提供统一的数据管理和查询接口。这样可以方便数据的存储、检索和更新,提高数据的可管理性和可维护性,对初始岩土工程勘察数据库进行日志分析,可以了解用户的查询行为和查询模式。通过分析查询日志,可以获取查询疲劳数据,即经常被查询的数据,或者查询频率高的数据。这有助于优化数据库的性能,针对高频查询数据进行索引优化和存储结构调整,利用查询疲劳数据对岩土工程勘察存储结构数据进行分区键索引重构建,可以根据查询疲劳数据重新设计分区键和索引结构。通过分析高频查询数据的特点,确定合适的分区键和索引组合,提高查询效率和响应速度,根据最优浮动分区键索引数据对初始岩土工程勘察数据库进行索引重建,生成岩土工程勘察大数据归档库。通过重新构建索引,可以提高数据库的查询性能和数据访问效率。大数据归档库可以存储大量的岩土工程勘察数据,方便长期存档和备份,支持后续的数据分析和决策。
[0134] 本发明实施例中,分析收集到的数据,了解数据的属性、关系和业务需求。根据数据的特点和需求,进行数据建模的规划,根据数据分析的结果,设计初始岩土工程勘察数据库的模式。这包括确定表格和表格之间的关系,定义表格的属性和约束,根据数据库模式,创建数据库对象,包括表格、索引、视图,将岩土工程勘察存储结构数据导入到初始数据库中,收集初始岩土工程勘察数据库的查询日志,对查询日志进行分析,了解哪些数据经常被查询,以及查询的频率和模式。从中提取查询疲劳数据,即经常被查询的数据,分析查询疲劳数据,了解高频查询数据的特点和属性,根据查询疲劳数据的分析结果,设计合适的分区键,根据分区键,重构岩土工程勘察存储结构数据的索引,根据最优浮动分区键索引数据的结果,重新设计初始岩土工程勘察数据库的索引结构,包括选择合适的索引类型、确定索引属性和顺序,根据重新设计的索引结构,对初始岩土工程勘察数据库进行索引重建,这涉及删除旧索引,创建新索引,并确保索引的完整性和有效性,根据索引重建的结果,生成岩土工程勘察大数据归档库,这个归档库将包含优化后的索引结构和相关的存储对象,以支持后续的数据管理和分析。
[0135] 在本说明书中,提供了一种岩土工程勘察大数据归档系统,用于执行如上所述的岩土工程勘察大数据归档方法,包括:
[0136] 数据获取模块,用于获取初始岩土工程勘察数据;对初始岩土工程勘察数据进行勘察数据分区处理,生成分组岩土工程勘察数据;对分组岩土工程勘察数据进行数据重编码处理,得到岩土工程勘察数据;
[0137] 数据消重模块,用于对岩土工程勘察数据进行复制增殖处理,得到岩土工程勘察数据副本;利用岩土工程勘察数据副本对岩土工程勘察数据进行哈希碰撞消重处理,得到消重岩土工程勘察数据;
[0138] 元数据分析模块,用于对消重岩土工程勘察数据进行元数据分析,得到岩土工程勘察数据元数据;
[0139] 数据库设计模块,用于基于岩土工程勘察数据元数据对消重岩土工程勘察数据进行存储结构设计,得到岩土工程勘察存储结构数据;
[0140] 数据库优化模块,用于根据岩土工程勘察存储结构数据对消重岩土工程勘察数据进行大数据归档,得到初始岩土工程勘察大数据归档库;对初始岩土工程勘察大数据归档库进行动态优化,生成岩土工程勘察大数据归档库。
[0141] 本发明的有益效果在于通过对初始岩土工程勘察数据的分区处理、数据重编码、复制增殖、哈希碰撞消重等步骤,实现了对数据的优化和整合。这有助于提高数据质量、减少冗余,使得岩土工程勘察数据更加规范和高效,通过对消重岩土工程勘察数据进行元数据分析,并基于分析结果进行存储结构设计,有助于更好地组织和管理数据。这可以提高数据的可读性、可维护性,并为后续的查询和分析提供更有效的支持,利用存储结构设计,对消重岩土工程勘察数据进行大数据归档,形成初始岩土工程勘察大数据归档库。进一步,对该归档库进行动态优化,有助于提升大数据处理的效率和性能,通过复制增殖和哈希碰撞消重处理,有助于确保岩土工程勘察数据的一致性和完整性。复制增殖可以创建数据副本,用于备份和保护数据,可以增加哈希碰撞消重的效果,避免因为数据量不足而导致哈希碰撞出现错误,而哈希碰撞消重则有效地清除重复的数据,避免了不必要的冗余,元数据分析使得可以深入了解岩土工程勘察数据的特性和结构,有助于更好地理解数据的含义、来源和关系,为后续的存储结构设计提供了有力支持,大数据归档是在考虑存储结构的基础上进行的,通过对消重岩土工程勘察数据进行大数据归档,初始岩土工程勘察大数据归档库得以形成。动态优化进一步确保了这一库的性能。这种协同作用保证了数据在长期存储和管理中的可靠性和效率。因此,本发明通过对岩土工程勘察数据的分区处理、数据重编码处理、数据消重处理、元数据分析和存储结构设计、大数据归档和动态优化,使得岩土工程勘察数据的存储和管理更加高效、经济,并提高了数据的可用性和查询效率,为岩土工程领域的数据处理和决策提供了有力支持。
[0142] 因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。
[0143] 以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

当前第1页 第1页 第2页 第3页