一种混凝土搅拌站的浆液回收设备的语音交互方法及系统

一种混凝土搅拌站的浆液回收设备的语音交互方法及系统实质审查发明

技术领域

[0001] 本发明涉及人机交互技术领域，尤其涉及一种混凝土搅拌站的浆液回收设备的语音交互方法及系统。

具体实施方式

[0019] 现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。例如，所描述的方法可以按照与所描述的顺序不同的顺序来执行，以及各个步骤可以被添加、省略或者组合。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

[0020] 如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

[0021] 如图1所示，本发明实施例提供了一种混凝土搅拌站的浆液回收设备的语音交互方法，包括：步骤S101，检测到语音指令后，对所述语音指令进行预处理，并识别预处理后的语音指令对应的声纹特征，基于所述声纹特征判断所述语音指令是否来自绑定用户。

[0022] 具体地，在混凝土搅拌站的浆液回收设备的运行过程中，通过语音采集传感器检测语音指令，对采集到的语音指令进行预处理，包括噪声抑制、增益控制等步骤，以提高得到的语音信号的质量。然后对预处理后的语音信号进行声纹特征提取，通过提取到的声纹特征判断所述语音指令是否来自绑定用户，比如将提取到的声纹特征与预存的所有工作人员的声纹模板进行比对，根据比对结果判断语音指令是否来自绑定用户，从而决定是否继续执行后续步骤。

[0023] 另外，对语音指令进行预处理，可以包括噪声抑制，比如对语音指令进行滤波、谱减法，减低背景中浆液回收设备运行的噪声，还可以对语音指令进行增益控制、信号增强，使语音指令中的人声保持一定的清晰度，得到处理后的人声语音。但是，对于人声语音，因为工作人员的人声不一定是标准语音（普通话），可以是各种方言，则需要识别人声语音对应的方言语种，基于方言语种确定对应的方言识别模型，其中，方言识别模块是已经对足够的方言数据集进行训练，能够正确地识别各种方言发音的特点的模型，通过方言识别模型识别人声语音，将人声语音转化为标准语音指令。

[0024] 步骤S102，当所述语音指令来自绑定用户时，对所述语音指令进行语义解析，提取所述语义解析后的关键词，通过所述关键词生成对应的控制码，所述控制码包括：地址码、功能码、数据码、校验码。

[0025] 具体地，当检测到预处理后的语音指令来自绑定用户时，对语音指令进行语义解析，其中，语义解析的步骤可以包括，将语音指令对应的语音文本分解成词汇单元，分解句子结构，确定主语、谓语等成分，然后将词汇识别结果与预设的词汇数据库进行对比，其中，混凝土搅拌站的浆液回收设备过程中常用语音指令可以包括“车位加水”、“一键洗料”、“当前故障”“车位洗车”“搅拌池水位高”等，则预定义的词汇数据库可以包括3类数据库，包括设备词汇数据库，比如“浆液回收泵”、“搅拌罐”等，动作词汇数据库，比如“启动”、“停止”、“加速”等，数值词汇数据库，比如“水位设置为50%”、“回收速度调整至每分钟10升”等，通过对比结果，确定语义解析后的关键词，关键词可以包括对应的设备关键词、动作关键词、数值关键词。

[0026] 在确定关键词后，可以根据语音指令的关键词生成对应的控制码，其中，控制码包括地址码、功能码、数据码、校验码。以MODBUS通讯协议为例，表示控制码中地址码、功能码、数据码、校验码的生成步骤和结构：地址码：根据设备关键词确定语音指令指向的从设备，即目标PLC或目标触摸屏，并基于目标PLC或目标触摸屏的编码规则，生成对应的地址码，地址码位于控制码的开头。
用于标识要访问的从设备（Slave）地址，在混凝土搅拌站的网络中，每个从设备都有一个唯一的地址，用于区分不同的设备。在MODBUS协议中，从设备的地址通常从1开始，最大可设置为247（0通常用作广播地址，表示所有从设备）。当主设备发送地址码时，会将目标从设备的地址包含在地址码中。从设备在接收到消息后，会检查地址域中的地址是否与自己的地址相匹配，如果匹配则进行相应的响应。

[0027] 功能码：获取预设的功能编码规则，结合动作关键词，生成对应的功能码，比如功能码 0x02 表示启动浆液回收程序，功能码位于地址域之后，用于指示从设备需要执行的操作类型。MODBUS协议可以定义一系列功能码，每个功能码都对应着一种特定的操作。功能码通常是一个字节（8位）的长度，其值范围根据MODBUS的不同版本和扩展而有所不同。在标准MODBUS协议中，功能码的范围通常是0x01到0xFF，但并非所有值都被定义和使用。功能码告诉从设备需要执行什么操作，例如读取保持寄存器、写入单个寄存器、读取输入状态等。从设备在接收到功能码后，会根据该代码执行相应的操作，并将结果返回给主设备。

[0028] 数据码：基于数值关键词，结合预设的数值长度与数值格式，生成对应的数据码，数据码位于功能码之后，用于包含执行特定操作所需的数据或参数，数据的具体内容和格式取决于功能码的类型和从设备的实现。数据码可以包含要读取或写入的寄存器地址、要写入的值、要读取的数据量等信息。其长度和格式根据功能码的不同而有所变化。数据域为从设备提供了执行操作所需的具体信息。例如浆液回收的时间、模式等。

[0029] 校验码：基于地址码、功能码、数据码，以及预设的校验码计算规则，计算对应的校验码，校验码位于数据码之后，用于检测消息在传输过程中是否发生错误。发送设备在发送消息之前会计算校验码，并将其附加在消息帧的末尾。接收设备在接收到消息后，会重新计算校验码，并将其与接收到的校验码进行比较，以验证消息的完整性，校验码的作用是确保消息在传输过程中未被篡改或损坏。如果接收到的校验码与重新计算的校验码不匹配，则表明消息在传输过程中发生了错误，接收设备可以据此采取相应的错误处理措施。

[0030] 步骤S103，根据所述地址码对应的通信地址，与所述通信地址建立通信连接，将所述控制码发送至目标PLC或目标触摸屏。

[0031] 具体地，在确定语音指令对应的控制码后，确定控制码对应的通信协议，比如 Modbus RTU/ASCII/TCP、EtherCAT、ProfiNET 等，与地址码对应的通信地址的从设备建立连接，其中，从设备可以为PLC或目标触摸屏，通过通信协议对控制码进行封装成帧或消息，并发送至目标PLC或目标触摸屏。PLC从通信接口读取控制码后，检查控制码中的校验码以验证数据完整性，如果控制码指示启动浆液回收程序，则 PLC 将控制阀门打开，启动泵送系统，并调节搅拌器速度，在操作完成后，PLC 向主控设备反馈操作结果。目标触摸屏接收控制码后，可能需要显示相关信息或操作提示，然后可以进一步根据操作将控制码转发给 PLC 进行处理。

[0032] 另外，当接收目标PLC或目标触摸屏的反馈结果后，当反馈结果中，出现校验码错误的情况时，进一步检测地址码、功能码、数据码中是否存在错误，当地址码、功能码、数据码中不存在错误，则可以更换校验码生成规则，重新生成校验码，当地址码、功能码、数据码中存在错误，结合历史操作记录，对地址码、功能码、数据码进行尝试修复，当尝试修复失败时，重新采集语音指令，其中，尝试修复的过程可以比如，当地址码中存在错误时，则获取历史操作记录，根据历史操作记录中上一步或者上几步的操作步骤，确定下一步骤中需要进行操作的从设备，通过从设备的地址码对错误的地址码进行尝试修复，并判断尝试修复结果是否符合当前操作要求，尝试修复的方法也可以比如根据当前的操作时间与历史的操作时间进行经验对比，从而确定尝试修复方案。当尝试修复失败时，则需要重新采集语音指令，进行语音指令的重判断。

[0033] 本发明实施例提供的一种混凝土搅拌站的浆液回收设备的语音交互方法，检测到语音指令后，对语音指令进行预处理，并识别预处理后的语音指令对应的声纹特征，基于声纹特征判断语音指令是否来自绑定用户；当语音指令来自绑定用户时，对语音指令进行语义解析，提取语义解析后的关键词，通过关键词生成对应的控制码，所述控制码包括：地址码、功能码、数据码、校验码；根据地址码对应的通信地址，与通信地址建立通信连接，将控制码发送至目标PLC或目标触摸屏。这样能够实现设备复杂操作的语音控制，降低了操作人员的难度，提高了操作的准确性。

[0034] 请参见图2，图2是本申请实施例提供的一种混凝土搅拌站的浆液回收设备的语音交互系统的结构示意图。如图2所示，所述系统包括：检测模块S201，用于检测到语音指令后，对所述语音指令进行预处理，并识别预处理后的语音指令对应的声纹特征，基于所述声纹特征判断所述语音指令是否来自绑定用户；
控制码模块S202，用于当所述语音指令来自绑定用户时，对所述语音指令进行语
义解析，提取所述语义解析后的关键词，通过所述关键词生成对应的控制码，所述控制码包括：地址码、功能码、数据码、校验码；
通信模块S203，用于根据所述地址码对应的通信地址，与所述通信地址建立通信
连接，将所述控制码发送至目标PLC或目标触摸屏。

[0035] 在其中一个实施例中，所述系统还包括：识别模块，用于对所述语音指令进行词汇识别，并将词汇识别结果与预设的词汇
数据库进行对比，基于对比结果确定关键词中的设备关键词、动作关键词、数值关键词。

[0036] 在其中一个实施例中，所述系统还包括：噪声处理模块，用于对所述语音指令进行噪声抑制、增益控制、信号增强，得到处理后的人声语音；
方言模块，用于识别所述人声语音对应的方言语种，基于所述方言语种确定对应
的方言识别模型，并通过所述方言识别模型，将所述人声语音转化为标准语音指令。

[0037] 本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是现场可编程门阵列（Field－Programmable Gate Array，FPGA）、集成电路（Integrated Circuit，IC）等。

[0038] 本申请实施例的各处理单元和/或模块，可通过实现本申请实施例所述的功能的模拟电路而实现，也可以通过执行本申请实施例所述的功能的软件而实现。

[0039] 参见图3，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施图1所示实施例中的方法。如图3所示，电子设备300可以包括：至少一个处理器301，至少一个网络接口304，用户接口303，存储器305，至少一个通信总线302。

[0040] 其中，通信总线302用于实现这些组件之间的连接通信。

[0041] 其中，用户接口303可以包括显示屏（Display）、摄像头（Camera），可选用户接口303还可以包括标准的有线接口、无线接口。

[0042] 其中，网络接口304可选的可以包括标准的有线接口、无线接口（如WI‑FI接口）。

[0043] 其中，处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个电子设备300内的各个部分，通过运行或执行存储在存储器305内的指令、程序、代码集或指令集，以及调用存储在存储器305内的数据，执行终端300的各种功能和处理数据。可选的，处理器301可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field‑Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器301可集成处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器301中，单独通过一块芯片进行实现。

[0044] 其中，存储器305可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read‑Only Memory）。可选的，该存储器305包括非瞬时性计算机可读介质（non‑transitory computer‑readable storage medium）。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。如图3所示，作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

[0045] 在图3所示的电子设备300中，用户接口303主要用于为用户提供输入的接口，获取用户输入的数据；而处理器301可以用于调用存储器305中存储的基于图像生成的互动应用程序，并具体执行以下操作：检测到语音指令后，对语音指令进行预处理，并识别预处理后的语音指令对应的声纹特征，基于声纹特征判断语音指令是否来自绑定用户；当语音指令来自绑定用户时，对语音指令进行语义解析，提取语义解析后的关键词，通过关键词生成对应的控制码，所述控制码包括：地址码、功能码、数据码、校验码；根据地址码对应的通信地址，与通信地址建立通信连接，将控制码发送至目标PLC或目标触摸屏。

[0046] 本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD‑ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统（包括分子存储器IC），或适合于存储指令和/或数据的任何类型的媒介或设备。

[0047] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

[0048] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0049] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

[0050] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0051] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0052] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器（Read‑Only Memory， ROM）、随机存取存储器（Random Access Memory，RAM）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0053] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器（Read‑Only Memory， ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

[0054] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

查看完整全部详细技术资料

当前第1页第1页第2页第3页