基于对话控制模块的生成式语言模型的音频交互方法、装置、介质、程序产品及终端

基于对话控制模块的生成式语言模型的音频交互方法、装置、介质、程序产品及终端实质审查发明

技术领域

[0001] 本申请涉及语音识别领域，特别是涉及一种基于对话控制模块的生成式语言模型的音频交互方法、装置、介质、程序产品及终端。

具体实施方式

[0018] 以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

[0019] 在对本发明进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释：

[0020] <1>DM：对话管理模块(Dialog Management Module)，是用于聊天机器人或对话系统中的关键组件，负责监控和管理用户交互过程，处理对话状态、跟踪上下文信息，并根据用户输入生成适当的响应，从而确保对话的连贯性和逻辑性。

[0021] <2>LLAMA‑BOT：一种基于大型语言模型(LLAMA，Large Language Model Meta AI)构建的聊天机器人，利用自然语言处理技术进行对话生成，能够理解用户输入，并生成上下文相关的响应，广泛应用于客服、虚拟助手和在线互动平台。

[0022] <3>分句文本信息：指将一段文本按照句子进行拆分和组织的结构化数据形式。每个句子作为一个独立的单位被提取出来，便于后续的分析和处理。该信息在自然语言处理(NLP)和文本分析中具有重要意义，因为这种拆分能够帮助系统理解语义结构、进行情感分析以及支持信息检索等任务。

[0023] <4>分句归属操作：在自然语言处理(NLP)任务中，指将语句或文本中的句子进行分析和分类的过程，旨在识别出句子之间的关系，以实现更深入的语言理解和数据处理，便于语义分析和信息提取。

[0024] <5>时间戳：一种用于记录事件发生具体时间的信息，通常包括日期和时间的表示形式，应用范围广泛，如数据日志、电子邮件、区块链及其他系统中的事件序列，帮助追溯事件过程和确保时间的一致性。

[0025] <6>对话轮次：在对话系统或人工智能聊天机器人中，指完成一个完整的交互过程，包括用户的输入和系统的响应。对话轮次是评估对话质量、用户满意度和系统理解能力的重要指标，对于优化对话模型至关重要。

[0026] <7>SSML：语音合成标记语言(Speech Synthesis Markup Language)，是一种用于控制文本到语音(TTS)系统的标记语言。SSML允许开发者通过特定标记调整语音合成的特性，如音调、速度、停顿和重音，从而提高语音输出的自然性和可理解性。通过详细标注，SSML可以显著改善语音合成的准确性，帮助检测故障。

[0027] <8>TTS播报：文本到语音(Text‑to‑Speech)技术，将书面文本转化为可听的语音，广泛应用于语音助手、导航系统、教育软件等，支持多种语言和语音样式，旨在提供无障碍访问和改善用户体验。

[0028] 为便于理解本申请实施例，首先结合图1详细说明。图1展示了本发明实施例中的一种基于对话控制模块的生成式语言模型的音频交互方法的流程示意图。本实施例中的基于对话控制模块的生成式语言模型的音频交互方法主要包括如下各步骤：

[0029] 步骤S11：接收用户输入的任务请求信息，建立与所述任务请求信息对应的请求ID，并将所述任务请求信息发送至生成式语言模型，以令所述生成式语言模型基于所述任务请求信息生成对应的多个分句文本信息。

[0030] 在本发明一实施例中，对话控制模块DM(Dialogue Management)是指控制对话流程和管理对话状态的组件，DM负责管理对话状态和决定下一步对话动作的组件。具体地，DM负责接收用户输入，分析当前对话状态，并决定如何响应用户的请求或问题。生成式语言模型方面，包括但不限于：Llama‑bot。Llama‑bot是一种基于大型语言模型的对话机器人，利用生成式语言模型来生成人类似的对话回应。Llama‑bot可以通过学习大量的文本数据来学习语言模式和语义相似性，从而生成自然、流畅的对话回应。

[0031] 在本发明一实施例中，当DM向Llama‑bot发送任务请求内容时，会建立一个唯一的请求标识符(request_id)，用于跟踪当前请求的状态和历史记录。该request_id将作为当前请求的唯一标识符，确保当前请求的处理是在正确的上下文中进行的。当DM发送任务请求内容时，请求内容将包括一系列参数，例如用户输入、任务类型等。这些参数将被Llama‑bot接受和处理，以便于生成准确的回应。在这个实施例中，request_id作为当前请求的唯一标识符，将被用来跟踪当前请求的状态和历史记录。

[0032] 值得说明的是，本发明通过接收用户输入的任务请求信息并建立唯一的请求ID，确保每个请求都能被准确追踪和管理。这样，一旦用户发出请求，DM系统能够迅速处理，并实时反馈，从而明显减少响应延迟。通过优先级管理和高效的任务调度，这项技术提升了与用户之间的互动流畅度，解决了用户在交互过程中的等待时间过长的问题。

[0033] 在本发明一实施例中，当前请求的内容中，将增加上一轮次机器人播报的分句详情，所述分句详情包括：TTS播报时间、分句id、分句所归属的request_id等信息。这些信息将作为当前请求的历史记录被传递给Llama‑bot，以便于Llama‑bot理解当前请求的上下文关系并生成更准确的回应。本实施例中，采用输入上一轮机器人播报的分句详情的方式，以便于Llama‑bot更好地理解当前请求的上下文关系，可以生成更准确、更相关的回应，并避免不必要的重复或脱节。通过利用历史记录，Llama‑bot不仅可以更好地理解用户的需求，还可以学习和改善其自身的生成能力，进而提供更优质的用户体验。

[0034] 在本发明一实施例中，接收所述生成式语言模型发回的多个分句文本信息的过程还包括：若所述生成式语言模型在返回首帧分句文本信息后，超过预设时长仍未返回下一帧分句文本信息，则判定所述生成式语言模型发生异常，播报预设兜底话术并挂机；以及/或者，若所述生成式语言模型在预设时间内未发回首帧分句文本信息，则判定所述生成式语言模型发生异常，播报预设兜底话术，并对所述回复文本不再进行播报；以及/或者，若生成式语言模型返回的任意一分句文本信息中包含语音合成标记语言错误，则判定模型发生异常，播报预设兜底话术，并对所述回复文本不再进行播报。

[0035] 进一步地，当生成式语言模型首次返回分句文本信息后，DM需要等待一定的时间(例如10秒)来接收下一帧分句文本信息。如果超过预设时长后仍然没有接收到下一帧分句文本信息，DM会判定生成式语言模型发生异常，播报预设兜底话术并挂机。较为优选地，DM还可执行重试连接、切换模型以及反馈错误消息等多种操作。具体地，DM可以尝试重新连接到生成式语言模型，以获取下一帧分句文本信息；DM还可切换到备用生成式语言模型，以继续提供服务；DM可以发送错误消息给用户，并通知用户当前服务异常，并提供进一步的解决方案。

[0036] 在本发明一实施例中，为了避免在DM未立即回复时出现冷场，DM令TTS播放预设的应和词或短语，以维持对话的流畅性。所述应和词包括但不限于：对用户问题的肯定或表达兴趣的短语。示例性地，所述应和词可设置为“这是个很有趣的问题”、“我也觉得这个话题很吸引人”、“没错，您说得对”、“确实很值得探讨”、“这是一个重要的观点”等等。通过在预设的时长内循环播放这些应和词，DM可以提升用户体验，增加互动性，减少因响应延迟带来的尴尬。

[0037] 进一步地，生成式语言模型返回的任意一分句文本信息中包含语音合成标记语言错误的过程包括：当生成式语言模型返回的分句文本信息中包含语音合成标记语言(SSML)错误，DM会判定模型发生异常，播报预设兜底话术，并对所述回复文本不再进行播报。较为优选地，DM还可执行如下操作的一种或多种：检查SSML语法、切换备用模型、反馈错误信息。可以检查SSML语法，并通过检查SSML语法确定错误的原因；DM可以切换到备用生成式语言模型，以避免SSML语法错误；DM可以提供错误信息给用户，告知他们服务异常，并提供进一步的解决方案。

[0038] 需要说明的是，SSML(Speech Synthesis Markup Language)是一种用于文本到语音合成的标记语言，允许开发者控制合成语音的速度、音调、音量等属性，以提高语音合成的自然性和可理解性。当生成式语言模型返回的分句文本信息中包含SSML语法错误时，可能导致语音播放失败或播放内容错误，从而影响用户体验。因此，DM在检测到SSML语法错误时会判定为模型异常，并启动预设兜底话术，确保用户收到错误提示，以提高DM的可靠性和用户满意度。

[0039] 在本发明一实施例中，兜底话术是指在DM或Llama‑bot出现异常或无法正常服务时，预设的一些标准化回应，用以及时向用户传达问题并维持良好的用户体验。一般的兜底话术包括“很抱歉，DM出现了问题，请稍后再试”、“我们正在努力解决这个问题，请您耐心等待”及“抱歉，无法提供您所请求的信息，请您检查输入或稍后重试”等。例如，DM在检测到SSML语法错误时，可能会播报“很抱歉，无法处理您的请求，请确保输入的内容格式正确”，以便用户知道问题所在并引导其重试。

[0040] 在本发明一实施例中，所述方法还包括：若检测到所述生成式语言模型发回的多个分句文本信息中包含有预设的结束条件，结束当前轮次的任务请求，并将当前轮次中的任务请求信息和所述回复文本添加至所述交互日志中。

[0041] 在本发明一实施例中，当检测到生成式语言模型发回的多个分句文本信息中包含预设的结束条件时，具体过程包括检查当前回复的分句中是否包含结束标识。在此过程中，流式结束条件(stream_end)是指生成式语言模型在生成的回复文本中指示任务结束的特定信号或标志。当stream_end检测到为true时，则表示当前流式请求已经结束，即该轮次的任务请求被视为已完成。此时，DM将该任务请求的信息及相应的回复文本记录到交互日志中，以便后续的查询和分析。通过这一过程，确保了任务请求的准确记录和追踪，从而提升了DM的互动效率和可管理性。

[0042] 进一步地，流式结束条件是由生成式语言模型Llama‑bot在每个分句的末尾自动生成并添加的特定标识，用于标识回复内容的结束状态。该标识旨在清晰地指示当前任务请求是否已完成。在处理用户输入和生成回复文本的过程中，Llama‑bot会基于设定的逻辑DM判断何时适当地结束当前的分句。当满足特定条件，例如达到内容长度上限、出现特定关键词或用户意图已完全表达时，Llama‑bot将自动在生成的分句尾部插入流式结束条件。这一机制不仅确保分句之间的连贯性与完整性，还帮助DM准确识别任务请求的终止时机，从而显著提升交互效率和用户体验。通过这种自动化的处理方式，用户能够享受到更加流畅和自然的对话反馈，同时DM也能够高效地记录和管理每一次交互的信息。

[0043] 步骤S12：接收所述生成式语言模型发回的多个分句文本信息；并按照接收顺序对分句文本信息逐一执行如下操作：基于所述请求ID对当前分句文本信息执行分句归属操作，以生成与当前分句文本信息对应的回复文本，并对当前分句文本信息对应的回复文本执行TTS音频播报；在TTS音频播报期间，同时对下一分句文本信息基于所述请求ID执行分句归属操作和TTS音频播报；直至接收到的分句文本信息中包含终止标识。

[0044] 在本发明一实施例中，所述分句文本信息包括：分句时间戳、分句ID；基于所述请求ID对分句文本信息执行分句归属操作的过程包括：提取包含有相同请求ID的相同轮次的所有分句文本信息，并基于相同轮次的所有分句文本信息的分句时间戳和分句ID执行分句归属操作，以生成与当前分句文本信息对应的回复文本。其中，所述分句时间戳表征每个分句产生的时间，以便于追踪对话的顺序和时间线。所述分句ID为每个分句分配一个唯一标识符，用于在处理过程中进行引用和管理。

[0045] 在本实施例中，所述轮次指用户输入和DM回复之间的一个完整交互过程。相同轮次的分句文本信息是指在同一轮对话中产生的所有分句。通过关注相同轮次的分句，可以确保生成的回复与用户的最新输入相关联，保持对话的连贯性。

[0046] 在本实施例中，所述分句归属操作指将特定的分句文本信息与其相应的请求ID进行关联的过程，以便于生成合适的回复文本。所述分句归属操作的过程包括：依据请求ID提取所有相关分句信息，并根据分句的时间戳进行排序，以确保按对话发生的顺序处理。接着，DM对每个分句进行语义分析，以确定其主要意图和情感。随后，DM依据上下文分析的结果，将提取到的分句进行分类和归类，明确各分句之间的关系。随后，整合经过分类和解析的分句信息，确保回复文本包含对用户最新输入的充分回应，并利用自然语言生成技术将其转换为流畅的回复文本。最后，对生成的回复文本向用户执行TTS语音播报，同时将对话记录存入交互日志，以便DM不断优化和改进后续交互。

[0047] 需要说明的是，本发明提取具有相同请求ID的分句文本信息，确保在同一轮对话中，所有分句都关联并保持一致性。并通过对分句进行归属操作，确保生成的文本保持在一个逻辑层面。DM不会随意将信息拆分成多个轮次展示，而是将相关的信息集中处理，形成一个连贯的回复。这种对分句的合理归纳有效避免了因信息拆分而导致的用户理解障碍，使对话变得更加自然，从而解决了用户体验中的不适感。

[0048] 在本发明一实施例中，除了使用语音合成技术(TTS)进行播报外，DM还会在交互结束后以文本形式将回复文本与用户输入的信息一并展示给用户。这一展示将包括用户的每一次输入和对应的DM回复，以确保用户能够清晰地回顾整个对话过程。这种文本展示不仅有助于用户理解和回顾交互内容，还可以作为后续信息查询的依据，增强用户的参与感和满意度。此外，文本记录能够支持用户在需要时方便地查看对话的历史信息，进一步提升用户体验。

[0049] 步骤S13：再次接收下一轮任务请求信息，建立与下一轮任务请求信息对应的下一请求ID，并将下一轮任务请求信息发送至生成式语言模型；接收所述生成式语言模型发回的下一轮的多个分句文本信息；按照接收顺序对分句文本信息逐一执行如下操作：基于下一请求ID对当前分句文本信息执行分句归属操作，以生成与当前分句文本信息对应的回复文本，并对当前分句文本信息对应的回复文本执行TTS音频播报；在TTS音频播报期间，同时对下一分句文本信息基于下一请求ID执行分句归属操作和TTS音频播报。

[0050] 在本发明一实施例中，所述方法还包括：响应于用户输入的打断指令，停止当前轮次的TTS音频播报，并继续接收所述生成式语言模型发回的当前轮次剩余的分句文本信息，并对当前轮次剩余的分句文本信息执行所述分句归属操作，以生成与当前分句文本信息对应的回复文本，并将当前分句文本信息的回复文本添加至交互日志；再次接收用户输入的下一轮任务请求信息，将所述下一轮任务请求信息发送至生成式语言模型，并为下一轮任务请求信息建立与至对应的唯一的请求ID；接收所述生成式语言模型发回的与所述下一轮任务请求信息对应的多个分句文本信息并执行分句归属操作，以生成下一轮的回复文本，对下一轮的回复文本进行TTS音频播报，并将下一轮的信息添加至交互日志中。

[0051] 在本实施例中，针对当前轮次可能发生的打断情况，提出了更加细化的处理流程，以确保用户与生成式语言模型(Llama‑bot)之间的交互更加流畅和高效。Llama‑bot在任何情况下都将继续生成后续分句内容并发送至DM，以确保信息的连续性。DM通过JSON格式记录每次请求的分句情况，并使用request_id来动态管理分句的归属和状态。若发生打断，DM将立即停止TTS播报以防止冗余信息，同时对于超时的请求不再处理。在下一轮请求中，DM将根据新的请求ID对任务内容进行分句归属操作。对于之前被打断的回复，DM将仅将其内容记录在JSON中，而不会进行文本到语音(TTS)播报，以确保新一轮的处理不会影响到之前的记录。

[0052] 在本发明一实施例中，所述方法还包括：响应于用户输入的回退指令，停止当前轮次的TTS音频播报，并继续接收所述生成式语言模型发回的当前轮次剩余的分句文本信息，并根据当前轮次剩余分句文本信息的分句时间戳，提取所述回退指令下发前的有效信息分句；接收用户输入的下一轮任务请求信息，对当前轮次的任务请求信息、下一轮任务请求信息以及所述有效信息分句执行合并操作，以生成回退请求信息，将所述回退请求信息发送至生成式语言模型，并为所述回退请求信息建立与至对应的唯一的请求ID；接收所述生成式语言模型发回的与所述回退请求信息对应的多个分句文本信息；执行分句归属操作，以生成下一轮的回复文本，对下一轮的回复文本进行TTS音频播报，并将下一轮的信息添加至交互日志中。

[0053] 在本发明的一实施例中，DM(对话管理器)在接收到用户的回退指令后执行的步骤包括：首先，DM立即停止当前的文本转语音(TTS)音频播报，同时DM会继续接收生成式语言模型(如llama‑bot)返回的当前轮次剩余的分句文本信息。并将未执行TTS播报的回复信息进行丢弃，以确保用户在回退过程中不会被冗余信息干扰。随后，DM根据时间戳提取用户发出回退指令之前的有效信息分句，并将当前轮次的请求信息、用户的新请求以及提取的有效信息分句进行合并，生成一个回退请求信息，并为此请求分配一个唯一的请求ID。合并后的请求随后被发送至生成式语言模型进行处理。

[0054] 进一步地，当生成式语言模型完成处理后，DM会接收到与回退请求信息相对应的多个分句文本信息。为确保信息的连贯性，DM执行分句归属操作，并生成新的回复文本。生成的回复文本将重新通过TTS进行音频播报，并记录在交互日志中，以便于后续用户的跟踪。此设计有效提升了用户在多轮对话中的交互体验，减轻了用户在信息重审过程中的认知负担，同时确保了信息传达的完整性与有效性。

[0055] 本发明通过设置对应的打断机制和回退机制，允许用户在对话过程中进行打断或回退，这一灵活的机制使得DM能够在用户发出打断指令后，继续处理尚未完成的分句，确保信息的完整传达。当用户进行回退时，DM能够合并有效信息，这样就避免了因用户操作而造成的交互割裂现象，使得对话显得更加连贯和自然。并通过异常检测机制DM出现异常时，即时给用户一个明确的反馈，从而降低因DM无发立即回应而导致的挫败感。即使在异常情况下，用户仍可获得一定的信息维护基本的沟通，这大大增强了用户体验的稳定性。

[0056] 需要说明的是，本申请实施例中，“示例性的”或者“例如”等词表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

[0057] 本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，a‑b，a‑c，b‑c或a‑b‑c，其中a，b，c可以是单个，也可以是多个。

[0058] 图2是本申请实施例提供的基于对话控制模块的生成式语言模型的音频交互装置的示意性框图。如图2所示，该装置包括任务请求模块201和交互管理模块202。

[0059] 任务请求模块201：用于接收用户输入的任务请求信息，建立与所述述任务请求信息对应的唯一的请求ID，并将所述任务请求信息发送至生成式语言模型，以令所述生成式语言模型基于所述任务请求信息生成对应的多个分句文本信息。

[0060] 交互管理模块202：用于接收所述生成式语言模型发回的多个分句文本信息；并按照接收顺序对分句文本信息逐一执行如下操作：基于所述请求ID对当前分句文本信息执行分句归属操作，以生成与当前分句文本信息对应的回复文本，并对当前分句文本信息对应的回复文本执行TTS音频播报；在TTS音频播报期间，同时对下一分句文本信息基于所述请求ID执行分句归属操作和TTS音频播报；直至接收到的分句文本信息中包含终止标识；再次接收下一轮任务请求信息，建立与下一轮任务请求信息对应的下一请求ID，并将下一轮任务请求信息发送至生成式语言模型；接收所述生成式语言模型发回的下一轮的多个分句文本信息；按照接收顺序对分句文本信息逐一执行如下操作：基于下一请求ID对当前分句文本信息执行分句归属操作，以生成与当前分句文本信息对应的回复文本，并对当前分句文本信息对应的回复文本执行TTS音频播报；在TTS音频播报期间，同时对下一分句文本信息基于下一请求ID执行分句归属操作和TTS音频播报。

[0061] 应理解，各模块执行上述相应步骤的具体过程在上述方法实施例中已经详细说明，为了简洁，在此不再赘述。

[0062] 还应理解，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

[0063] 图3是本申请实施例提供的电子终端的示意性框图。如图3所示，电子终端包括：至少一个处理器301、存储器302、至少一个网络接口303和用户接口305。装置中的各个组件通过总线系统304耦合在一起。可以理解的是，总线系统304用于实现这些组件之间的连接通信。总线系统304除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统。

[0064] 其中，用户接口305可以包括显示器、键盘、鼠标、轨迹球、点击枪、按键、按钮、触感板或者触摸屏等。

[0065] 可以理解，存储器302可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read‑Only Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

[0066] 本发明实施例中的存储器302用于存储各种类别的数据以支持电子终端300的操作。这些数据的示例包括：用于在电子终端300上操作的任何可执行程序，如操作系统3021和应用程序3022；操作系统3021包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序3022可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的33方法可以包含在应用程序3022中。

[0067] 上述本发明实施例揭示的方法可以应用于处理器301中，或者由处理器301实现。处理器301可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器301可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器301可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的配件优化方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

[0068] 在示例性实施例中，电子终端300可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)，用于执行前述方法。

[0069] 根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行如上所示实施例中任一实施例的基于对话控制模块的生成式语言模型的音频交互方法。

[0070] 根据本申请实施例提供的方法，本申请还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，当该程序代码在计算机上运行时，使得该计算机执行如上所示实施例中任一实施例的基于对话控制模块的生成式语言模型的音频交互方法。

[0071] 在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中，部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据，例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

[0072] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(Illustrative Logical Block)和步骤(Step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

[0073] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0074] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0075] 作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0076] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0077] 在上述实施例中，各功能单元的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行计算机程序指令(程序)时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(Digital Video Disc，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD)等。

[0078] 功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read‑Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

[0079] 以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

[0080] 综上所述，本申请提供基于对话控制模块的生成式语言模型的音频交互方法、装置、介质、程序产品及终端，本发明提供了一种减少响应延迟，保持音频交互过程完整性和流程性的方法，采用高效的分句归属操作和动态任务请求处理的技术手段，实现用户与Llama‑bot之间的自然流畅沟通。通过建立请求ID快速整合多个分句信息，结合时间戳和分句标识符确保信息准确归属，有效解决了传统伪流式交互中的信息延迟和上下文不连贯问题，提升了交互的实时性和连贯性，显著提高了用户的满意度及Llama‑bot的应用效果。所以，本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

[0081] 上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

查看完整全部详细技术资料

当前第1页第1页第2页第3页