技术领域
[0001] 本发明涉及数据处理和人工智能技术领域,尤其涉及一种基于人工智能的设备数据提取方法及系统。
相关背景技术
[0002] 在电网系统的运行过程中,实时监测电网中各个设备的运行状态,及时发现异常状态的设备并进行预警,对于电网的安全稳定运行具有重大意义。现有的设备监测预警系统通常是根据设备上的传感器获取设备的各项运行数据,并传输至指定的控制管理中心。控制管理中心集中管理各个设备的实时运行数据,根据实时运行数据以及各个设备对应的安全阈值对所有的设备进行监测预警,同时将各个设备的实时运行数据分类存入不同的数据库进行备份。当需要监测预警的设备数量较少时,这套预警方案是十分有效的,可以同时对多个设备进行监测预警,并根据实际需求对不同的设备设置不同的安全阈值,保证了安全性与便利性;但随着电网系统的发展,设备的数量与种类与日俱增,传统的设备数据提取方法往往需要处理海量的数据,存在着运算任务繁重、系统资源占用较大导致系统运行缓慢等问题,使得监测系统无法及时进行预警。此外,当运维人员需要远程查询指定设备的某项数据时,需要通过移动设备远程访问指定数据库,从数据库中的海量数据中查询指定数据,同样存在查询效率低的问题,当花费较长时间查询到某项数据后,该数据已经不是实时数据,丧失了数据的时效性。
[0003] 另一方面,随着人工智能技术的发展,人工智能技术开始与各行各业紧密结合,通过在传统技术中结合人工智能技术,可以有效减少重复劳动,提升工作效率。在设备数据提取方面,结合预训练的语音识别模型识别用户的数据提取任务,进而根据数据提取任务从海量数据流中提取目标数据,提高数据提取的便捷性。此外,可以考虑在数据流汇总存入数据库之前将目标数据提取出来,避免直接访问数据库查询,既降低了数据库的运算压力,同时也能及时获取实时数据,提高数据获取的时效性。
具体实施方式
[0066] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0067] 需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。在本申请的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
[0068] 贯穿本说明书,本说明书中所述的隐马尔可夫模型(HMM)是一种概率模型,用于描述语音序列生成过程。在语音识别中,隐马尔可夫模型可以用于建模发音人的不同状态,并根据这些状态生成观测符号(如MFCC、波形长度等)。隐马尔可夫模型的主要优势在于它可以处理语音序列中的时间顺序信息,并且可以通过参数估计和解码来实现语音识别。
[0069] 实施例一:
[0070] 如图1所示,实施例一提供一种基于人工智能的设备数据提取方法,包括步骤S1‑S5:
[0071] 步骤S1、获取用户的语音信息;
[0072] 步骤S2、将所述语音信息输入至预设的语音识别模型,以使所述语音识别模型将所述语音信息转换为文本信息;
[0073] 步骤S3、判断所述文本信息中是否包含预设的数据提取条件,若不包含所述数据提取条件,则向所述用户输出第一提示信息,并等待获取用户的语音信息;
[0074] 步骤S4、若所述文本信息中包含预设的数据提取条件,则将所述文本信息输入至预设的设备数据提取模型,以使所述设备数据提取模型根据所述文本信息中的数据提取条件从数据流中提取对应的目标数据;
[0075] 步骤S5、将所述目标数据存入预设的存储设备,并向所述用户输出第二提示信息。
[0076] 本发明实施例提供一种基于人工智能的设备数据提取方法,通过获取用户的语音信息并使用语音识别模型进行识别转换,得到对应的文本信息。进一步的,为了保证数据提取的准确性和效率,先对文本信息进行条件判断,确认文本信息中是否包含预设的数据提取条件,因为后续的数据提取过程是完全根据数据提取条件进行的。若文本信息中不包含所述数据提取条件,则表明用户的语音输入有误,通过第一提示信息提示用户重新输入符合要求的语音信息并重新进行语音识别。若文本信息中包含预设的数据提取条件,则通过设备数据提取模型根据数据提取条件从数据流中提取对应的目标数据,并存入指定的存储设备,完成用户的数据提取任务。在本发明中,当用户需要提取某设备的相关数据时,不需要进行复杂的搜索和筛选操作,可以直接通过语音信息发布数据提取任务,提高了设备数据提取的便捷性。同时,本发明结合了人工智能技术,通过语音识别模型识别用户的语音信息,并对所识别的内容进行条件判断,提高了设备数据提取的准确性,最后根据所识别的内容通过设备数据提取模型从数据流中进行数据提取,提高了设备数据提取的效率。
[0077] 其中,在步骤S1中,本发明实施例可通过用户的可移动智能通讯设备获取用户的语音信息,例如智能手机、平板电脑以及笔记本电脑等。远程数据管理系统通过所述可移动智能通讯设备对用户进行身份验证后,确认用户具备提取设备数据的权限,即可通过所述可移动智能通讯设备的麦克风获取用户的语音信息,其中,所述身份验证的方法包括但不限于密码验证、人脸识别验证、指纹验证等。
[0078] 在一种可能实现的方式中,在步骤S2中,所述语音识别模型将所述语音信息转换为文本信息,包括:
[0079] 对所述语音信息进行预处理,得到待识别语音信息,其中,所述预处理包括去除噪声处理、降低回声处理以及语音头尾节点检测;
[0080] 通过短时傅里叶变换对所述待识别语音信息进行特征提取,获得与所述语音信息对应的特征向量;
[0081] 将所述特征向量输入至预训练的隐马尔可夫模型,以使所述隐马尔可夫模型根据所述特征向量从预设的语音模板集合中进行模板匹配,确定对应的语音模板;
[0082] 根据所述特征向量和对应的语音模板生成所述文本信息。
[0083] 本发明实施例提供了一种语音识别方法,首先对语音信息进行预处理,保障语音信息的清晰度和完整性,提供后续语音识别的准确性。然后通过短时傅里叶变换从语音信息中提取出特征向量,用于后续的模板匹配。根据所述特征向量,通过隐马尔可夫模型进行模板匹配。隐马尔可夫模型已经根据大量的语料训练数据进行过预训练并生成了多个语音模板,因此会根据所述特征向量输出一个概率矩阵,概率矩阵中包含所述特征向量属于各个语音模板的对应概率,选择概率矩阵中最大的概率即为与所述特征向量对应的语音模板。最后,根据所选择的语音模板将所述语音信息转换为文本信息,完成所述语音识别。
[0084] 进一步的,在步骤S3中,所述判断所述文本信息中是否包含预设的数据提取条件,如图2所示,包括步骤S301‑S303:
[0085] 步骤S301、使用分词工具对所述文本信息进行分词处理,得到对应的分词文本集;
[0086] 步骤S302、根据预设的停词表对所述分词文本集进行停词处理,去除所述分词文本集中的停用词,得到多个关键词信息;
[0087] 步骤S303、根据所述关键词信息判断所述文本信息中是否包含预设的数据提取条件,其中,所述数据提取条件包括目标数据的数据类型、目标数据对应的设备型号以及目标数据的提取时间段。
[0088] 在本发明实施例中,通过对文本信息进行分词处理和停词处理,提炼出多个关键词信息,进而根据关键词信息判断所述文本信息中是否包含预设的数据提取条件。数据提取条件是后续提取设备数据的重要信息,如果文本信息中缺失某项数据提取条件,则后续无法准确提取到目标数据,影响数据提取的准确性。因此需要对文本信息进行关键词提取和判断,保证后续设备数据提取的效率和准确性。
[0089] 在一个优选的实施例中,步骤S3中所述的第一提示信息为“缺少关键信息,无法进行数据提取,请用户提供待提取数据的设备型号、提取时间段以及所要提取的数据类型”。
[0090] 在一种可能实现的方式中,在步骤S4中,所述设备数据提取模型根据所述文本信息中的数据提取条件从数据流中提取对应的目标数据,包括:
[0091] 获取所述数据提取条件中的目标数据的提取时间段;
[0092] 在所述目标数据的提取时间段内,持续检索数据流中各个数据的数据标签;
[0093] 当数据流中的第一数据的数据标签满足所述数据提取条件中的目标数据的数据类型和目标数据对应的设备型号时,将所述第一数据复制并存入缓存区;
[0094] 当所述检索数据流的过程结束后,所述缓存区内的数据即为所述目标数据。
[0095] 本发明实施例提供一种根据数据提取条件进行设备数据提取的方法,首先根据目标数据的提取时间段确定检索数据流的起始时间,然后在该时间段内持续检索对数据流中的各个数据自身的数据标签,包括数据类型和对应的设备型号,当某个第一数据的数据标签满足提取条件时,将所述第一数据复制并存入缓存区,这样做的好处是在数据提取过程中不会影响数据监测系统的正常运行,第一数据依然可以通过数据流传输至数据监测系统并存入指定的数据库,而本发明将第一数据的复制版本临时存入缓存区,以便在检索数据流的过程结束后将缓存区内的全部数据传输至指定的存储设备,提高设备数据提取的准确性和效率。
[0096] 在一种可能实现的方式中,可以根据各个设备的数据提取的历史记录构建深度学习模型,以使所述深度学习模型输出最有可能进行数据提取的M个时间段以及每个时间段内最有可能进行数据提取的N个设备,并为所述N个设备开辟N个对应的临时缓冲区,所述N个设备在当前时间段所产生的实时数据先进入对应的临时缓冲区,再从临时缓冲区汇入所述数据流,其中M和N为预设值,可根据系统的实际存储空间和运算速度灵活调整。进而在执行步骤S3的过程中,将所述文本信息输入至预设的设备数据提取模型后,所述设备数据提取模型先根据数据提取条件确定目标数据对应的设备是否存在临时缓冲区,若存在临时缓冲区,则直接从目标数据对应的临时缓冲区内进行检索并提取目标数据,从数据流中提取目标数据和从临时缓冲区提取目标数据的示意图分别如图3、图4所示。本发明实施例通过建立深度学习模型,根据各个设备的数据提取的历史记录学习各个用户的数据提取习惯,进而为频繁进行数据提取的设备开辟独立的临时缓冲区,使得后续对该设备进行数据提取时可以直接进入临时缓冲区检索,避免从海量的数据流中进行检索以及提取,进一步提高了设备数据提取的效率,保障了数据的时效性。
[0097] 进一步的,在步骤S5中,所述将所述目标数据存入预设的存储设备,并向所述用户输出第二提示信息,如图5所示,包括步骤S501‑S503:
[0098] 步骤S501、与所述存储设备建立远程通信连接,若所述远程通信连接建立失败,则向用户输出第三提示信息,并等待获取用户的语音信息;
[0099] 步骤S502、若所述远程通信连接建立成功,则基于所述远程通信连接,将所述缓存区内的全部数据传输至所述存储设备;
[0100] 步骤S503、传输完成后,向用户输出第二提示信息,并清空所述缓存区内的数据。
[0101] 其中,在步骤S501中,所述存储设备必须具备远程网络通信能力,这是因为本发明的使用场景是运维人员需要快速便捷地提取目标数据,便于根据目标数据分析判断对应设备的运行状况。若所述存储设备不具备远程网络通信能力,只具备本地连接能力,例如与目标设备连接的硬盘,即使将目标数据存储至该硬盘,也无法进行远程访问,则失去了本发明的实际应用意义。同时,所述存储设备的远程传输速度也需要大于预设阈值,确保目标数据能及时传输至存储设备以及用户可以快速访问到存储设备。进一步,所述存储设备可以是用户输入语音信息的可移动智能通讯设备,例如在一个具体的使用场景中,用户通过智能手机输入语音信息,远程数据管理系统根据用户的语音信息从数据流中提取目标数据并传输至所述智能手机,这样做的优势在于用户可以直接在手机上查看目标数据,不需要再远程访问存储设备,优化了数据访问流程,同时也避免了因存储设备故障或存储设备出现网络问题而导致数据提取失败,进一步提高了设备数据提取的效率。在另一个使用场景中,当用户需要提取大量数据且提取数据的频率较高时,由于智能手机的存储空间较小,则需要指定大容量固定式的存储设备来存储目标数据。
[0102] 在一个具体的实施例中,步骤S5中的第二提示信息为“数据提取成功”,第三提示信息为“与存储设备的远程通信连接建立失败,请重新指定新的存储设备”。
[0103] 在本发明实施例中,在目标数据存储过程中,首先尝试与预设的存储设备建立远程通信连接,确保存储设备能够正常接收目标数据,避免目标数据在传输过程中丢失。当所述远程通信连接建立失败,则表示存储设备自身出现故障或网络环境出现问题,此时向用户输出第三提示信息,提示用户指定其他存储设备并等待获取用户的语音信息,保证了设备数据提取的安全性与灵活性。传输完成后,清空所述缓存区内的数据,释放了存储空间,为下一次数据提取做出准备,同时也避免了数据泄露,提高了设备数据提取的安全性。
[0104] 实施例二:
[0105] 如图6所示,实施例二提供一种基于人工智能的设备数据提取系统,包括获取模块10、语音识别模块20、判断模块30、数据提取模块40以及存储模块50;
[0106] 其中,所述获取模块10用于获取用户的语音信息;
[0107] 所述语音识别模块20用于将所述语音信息输入至预设的语音识别模型,以使所述语音识别模型将所述语音信息转换为文本信息;
[0108] 所述判断模块30用于判断所述文本信息中是否包含预设的数据提取条件,若不包含所述数据提取条件,则向所述用户输出第一提示信息,并等待获取用户的语音信息;
[0109] 所述数据提取模块40用于若所述文本信息中包含预设的数据提取条件,则将所述文本信息输入至预设的设备数据提取模型,以使所述设备数据提取模型根据所述文本信息中的数据提取条件从数据流中提取对应的目标数据;
[0110] 所述存储模块50用于将所述目标数据存入预设的存储设备,并向所述用户输出第二提示信息。
[0111] 在一种可能实现的方式中,所述语音识别模型将所述语音信息转换为文本信息,包括:
[0112] 对所述语音信息进行预处理,得到待识别语音信息,其中,所述预处理包括去除噪声处理、降低回声处理以及语音头尾节点检测;
[0113] 通过短时傅里叶变换对所述待识别语音信息进行特征提取,获得与所述语音信息对应的特征向量;
[0114] 将所述特征向量输入至预训练的隐马尔可夫模型,以使所述隐马尔可夫模型根据所述特征向量从预设的语音模板集合中进行模板匹配,确定对应的语音模板;
[0115] 根据所述特征向量和对应的语音模板生成所述文本信息。
[0116] 进一步的,如图7所示,所述判断模块30包括分词单元301、停词单元302以及判断单元303;
[0117] 其中,所述分词单元301用于使用分词工具对所述文本信息进行分词处理,得到对应的分词文本集;
[0118] 所述停词单元302用于根据预设的停词表对所述分词文本集进行停词处理,去除所述分词文本集中的停用词,得到多个关键词信息;
[0119] 所述判断单元303用于根据所述关键词信息判断所述文本信息中是否包含预设的数据提取条件,其中,所述数据提取条件包括目标数据的数据类型、目标数据对应的设备型号以及目标数据的提取时间段。
[0120] 在一种可能实现的方式中,所述设备数据提取模型根据所述文本信息中的数据提取条件从数据流中提取对应的目标数据,包括:
[0121] 获取所述数据提取条件中的目标数据的提取时间段;
[0122] 在所述目标数据的提取时间段内,持续检索数据流中各个数据的数据标签;
[0123] 当数据流中的第一数据的数据标签满足所述数据提取条件中的目标数据的数据类型和目标数据对应的设备型号时,将所述第一数据复制并存入缓存区;
[0124] 当所述检索数据流的过程结束后,所述缓存区内的数据即为所述目标数据。
[0125] 进一步的,如图8所示,所述存储模块50包括通信单元501、传输单元502以及缓存清理单元503;
[0126] 其中,所述通信单元501用于与所述存储设备建立远程通信连接,若所述远程通信连接建立失败,则向用户输出第三提示信息,并等待获取用户的语音信息;
[0127] 所述传输单元502用于若所述远程通信连接建立成功,则基于所述远程通信连接,将所述缓存区内的全部数据传输至所述存储设备;
[0128] 所述缓存清理单元503用于传输完成后,向用户输出第二提示信息,并清空所述缓存区内的数据。
[0129] 本发明实施例提供一种基于人工智能的设备数据提取系统,通过获取用户的语音信息并使用语音识别模型进行识别转换,得到对应的文本信息。进一步的,为了保证数据提取的准确性和效率,先对文本信息进行条件判断,确认文本信息中是否包含预设的数据提取条件,因为后续的数据提取过程是完全根据数据提取条件进行的。若文本信息中不包含所述数据提取条件,则表明用户的语音输入有误,通过第一提示信息提示用户重新输入符合要求的语音信息并重新进行语音识别。若文本信息中包含预设的数据提取条件,则通过设备数据提取模型根据数据提取条件从数据流中提取对应的目标数据,并存入指定的存储设备,完成用户的数据提取任务。在本发明中,当用户需要提取某设备的相关数据时,不需要进行复杂的搜索和筛选操作,可以直接通过语音信息发布数据提取任务,提高了设备数据提取的便捷性。同时,本发明结合了人工智能技术,通过语音识别模型识别用户的语音信息,并对所识别的内容进行条件判断,提高了设备数据提取的准确性,最后根据所识别的内容通过设备数据提取模型从数据流中进行数据提取,提高了设备数据提取的效率。
[0130] 本实施例更详细的工作原理与步骤流程可以但不限于参见实施例一的相关记载。
[0131] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。