技术领域
[0001] 本申请涉及人机交互技术领域,尤其涉及一种人机交互方法、装置、电子设备及计算机存储介质。
相关背景技术
[0002] 随着人机交互技术的不断发展,智能化教育产品逐渐普及。目前,基于人工智能(AI,Artificial Intelligence)技术的AI数字人因其高度的灵活性和适应性,已在教育领域展现出了极大的潜力和优势。AI数字人不仅可以打破时空的限制,随时随地与用户进行对话和互动、提供反馈和建议,还可以根据用户的兴趣、能力和学习习惯等个性化因素,提供定制化的学习方案和更加适合用户的教学内容。
[0003] 现有技术已经实现了能够模拟真实教师语音的AI数字人,这些AI数字人可以根据用户的语音内容,模拟真实的教师语音做出相应的回复,从而引导用户进行口语学习。然而,现有的AI数字人具备的功能较为单一,不能根据用户的需求做出动态调整,存在人机交互不够智能化的问题。
具体实施方式
[0069] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0070] 在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0071] 请参见图1,首先介绍本申请实施例适用的一种应用场景:某智能手表10具备语音操控功能,用户可以通过智能手表10中的AI语音助手11,与不同语音角色15进行语音对话。不同的语音角色15具备不同的功能和音色,用户可以根据实际需要选择相应的角色进行语音对话。例如,用户可以选择“爱因斯坦”12进行知识问答,选择“翻译小达人”13进行翻译,选择“口语老师”14进行英语口语练习等。当用户基于如图1所示的智能交互选择页面16,选择了“口语老师”14这一角色之后,该智能手表响应于用户的选择操作,进入“口语老师”14这一角色对应的智能交互页面,如图2所示。
[0072] 请参见图2,用户可以点击该智能交互页面20中的语音输入控件21,开启和“口语老师”22的英语口语对话。当用户通过语音输入控件21输入对话之后,用户终端首先接收用户基于智能交互页面20输入的语音输入信息。然后将语音输入信息发送至服务端,以使服务端基于对话大语言模型获取与语音输入信息对应的文本输出信息和语音输出信息。最后用户终端接收服务端发送的文本输出信息和语音输出信息,并通过“口语老师”22针对文本输出信息和语音输出信息在智能交互页面20与用户进行人机交互。值得说明的是,用户可以基于智能交互页面20输入包括至少一种语言类型的语音输入信息,也就是说如果用户遇到英文不会说的情况,可以直接输入中文语音,“口语老师”22仍可理解用户输入的中文语音内容,并根据用户输入的中文语音内容继续用英文与其沟通。
[0073] 本申请实施例提供的人机交互方法,可以应用于如图3所示的应用环境中。其中,用户终端30通过网络与服务端31进行通信。数据存储系统可以存储服务端31需要处理的数据。数据存储系统可以集成在服务端31上,也可以放在云上或其他网络服务器上。用户终端30响应于用户针对目标交互对象的选择操作,进入智能交互页面;接收用户基于智能交互页面输入的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息;将第一交互信息发送至服务端31,以使服务端31基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息;接收服务端31发送的第二交互信息,并通过目标交互对象针对第二交互信息在智能交互页面与用户进行人机交互。
[0074] 其中,用户终端30可以但不限于是各种便携式可穿戴设备、智能手机、平板电脑、个人计算机、笔记本电脑和物联网设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。物联网设备可为智能音箱、智能电视、智能车载设备等。服务端31可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0075] 在一个实施例中,如图4所示,提供了一种人机交互方法,以该方法应用于图3中的用户终端30为例进行说明,包括以下步骤:
[0076] S401:响应于用户针对目标交互对象的选择操作,进入智能交互页面。
[0077] 其中,目标交互对象是指用户选择的虚拟交互对象,该虚拟交互对象可以但不限于是虚拟数字人(如虚拟的英语口语老师等),该虚拟数字人是运用数字技术创造出来的、与人类形象接近的数字化人物形象,其能展现出类似人类的交流互动能力。选择操作可以是点击、滑动、长按、声控等自定义的交互动作。
[0078] 可选地,用户可以基于如图1所示的智能手表10上的智能交互选择页面16选择期望的目标交互对象。例如,用户可以通过点击、滑动、长按等方式选择如图1所示的“口语老师”14,进入如图2所示的智能交互页面20;也可以通过声控的方式向智能手表10下达“打开口语老师”这一声控命令,进入如图2所示的智能交互页面20。
[0079] S402:接收用户基于智能交互页面输入的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息。
[0080] 示例性地,请参见图2,当用户通过如图2所示的语音输入控件21输入对话之后,用户终端30首先接收用户基于智能交互页面20输入的第一交互信息,第一交互信息包括至少一种语言类型的语音输入信息。也就是说,如果用户遇到英文不会说的情况,可以直接基于智能交互页面20输入中文语音,“口语老师”22仍可理解用户输入的中文语音内容,并根据用户输入的中文语音内容继续用英文与其沟通。
[0081] 值得说明的是,本实施例仅仅描述了本申请的一个优选实施方式,第一交互信息可以但不限于是语音输入信息,也可以是文本输入信息或图片输入信息等。对于用户基于智能交互页面输入的第一交互信息的具体内容,本申请实施例不作限定。
[0082] S403:将第一交互信息发送至服务端,以使服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息。
[0083] 可选地,用户终端30将用户输入的第一交互信息通过HTTP、WebSocket等协议发送到服务端,服务端首先接收用户终端发送的第一交互信息,第一交互信息包括至少一种语言类型的语音输入信息,然后服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息,第二交互信息包括文本输出信息和语音输出信息,最后服务端将第二交互信息发送至用户终端30。
[0084] 具体地,服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息可以是:服务端首先采用自动语音识别技术获取第一交互信息中多种语言类型的语音输入信息对应的文本输入信息;然后采用对话大语言模型对文本输入信息进行分析,得到文本输入信息对应的文本输出信息;最后采用从文本到语音技术对文本输出信息进行语音转化,得到语音输出信息。
[0085] 值得说明的是,上述对话大语言模型包括敏感词检测网络和生成式人工智能网络。其中,敏感词检测网络用于对文本输入信息进行敏感词检测,生成式人工智能网络用于基于敏感词检测的结果生成文本输入信息对应的文本输出信息。上述生成式人工智能网络通过在二次预训练模型基础上做指令微调,以对齐指令意图,可以生成符合人类期望及价值观的语句,即上述生成式人工智能网络具备与人对话、遵循指令、不输出有害内容的能力。
[0086] S404:接收服务端发送的第二交互信息,并通过目标交互对象针对第二交互信息在智能交互页面与用户进行人机交互。
[0087] 可选地,用户终端30接收服务端发送的第二交互信息,第二交互信息包括文本输出信息和语音输出信息,然后通过目标交互对象,例如图1所示的“口语老师”14在智能交互页面与用户进行人机交互。
[0088] 示例性地,请参见图2,用户终端30接收服务端发送的第二交互信息之后,通过“口语老师”22针对第二交互信息在智能交互页面20与用户进行人机交互。具体地,可以通过“口语老师”22在智能交互页面20展示文本输出信息,同时播放语音输出信息。
[0089] 上述人机交互方法,响应于用户针对目标交互对象的选择操作,进入智能交互页面;接收用户基于智能交互页面输入的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息;将第一交互信息发送至服务端,以使服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息;接收服务端发送的第二交互信息,并通过目标交互对象针对第二交互信息在智能交互页面与用户进行人机交互。第一方面,通过让用户自行选择具备特定功能的目标交互对象,满足了用户个性化的使用需求,从而能够根据用户的当前使用需求及时做出动态调整;第二方面,通过将包括至少一种语言类型的语音输入信息发送至服务端,并基于服务端集成的对话大语言模型获取第二交互信息,向用户反馈了不同语言类型的语音内容对应的交互结果,从而实现了更加智能化的人机交互;第三方面,通过目标交互对象与用户进行人机交互,为用户提供了多样化的互动反馈形式。整个人机交互过程能够动态响应用户的个性化需求,解决了人机交互不够智能化的问题。
[0090] 在一个实施例中,如图5所示,提供了另外一种人机交互方法,以该方法应用于图3中的用户终端30为例进行说明,包括以下步骤:
[0091] S501:响应于用户针对智能交互选择入口的第一触发操作,进入智能交互选择页面;智能交互选择页面用于展示多个可供选择的交互对象。
[0092] 其中,智能交互选择入口可以是用户终端30页面上的一个组件,这个组件可以但不限于是按钮、图标、链接或自定义的交互式界面元素。第一触发操作可以是点击、滑动、长按等自定义的交互动作。
[0093] 示例性地,用户点击或触发智能交互选择入口这个组件后,即可跳转到如图1所示的智能交互选择页面16。智能交互选择页面16中的AI语音助手11下,展示了多个不同的语音角色15,他们各自具备不同的功能和音色,用户可以根据实际需要选择相应的语音角色进行对话。例如,用户可以选择“爱因斯坦”12进行知识问答,选择“翻译小达人”13进行翻译,选择“口语老师”14进行英语口语练习等。
[0094] S502:接收用户针对智能交互选择页面中目标交互对象的选择操作。
[0095] 可选地,当用户通过点击、滑动、长按等方式选择如图1所示的“口语老师”14作为目标交互对象之后,用户终端30接收用户针对智能交互选择页面16中“口语老师”14的选择操作。
[0096] S503:响应于用户针对目标交互对象的选择操作,进入智能交互页面。
[0097] 具体地,S503与S401一致,此处不再赘述。
[0098] S504:响应于用户的配置操作,将配置操作携带的配置参数和用户标识发送至服务端,以使服务端基于配置参数和用户标识获取交互场景信息;交互场景信息包括对话主题信息。
[0099] 其中,配置操作可以是用户做出的滑动、输入等手势操作,也可以是声控操作。
[0100] 可选地,配置参数包括语言类型配置参数、声音类型配置参数、对话主题配置参数和对话模式配置参数中的一种或多种;其中,对话模式配置参数包括对话轮次配置参数、对话难度配置参数、输入提示配置参数、语法纠错配置参数、发音纠错配置参数中的一种或多种。交互场景信息包括语言类型信息、声音类型信息、对话主题信息和对话模式信息中的一种或多种;其中,对话模式信息包括对话轮次信息、对话难度信息、输入提示信息、语法纠错信息和发音纠错信息中的一种或多种。
[0101] 示例性地,用户可以基于如图2所示智能交互页面20,通过声控的方式向“口语老师”下达改变语言类型、改变对话难度等声控命令,以针对对话主题和对话难度进行个性化配置。用户终端30响应于用户的配置操作,将配置操作携带的配置参数和用户标识(如用户ID)发送至服务端,以使服务端基于配置参数和用户标识获取基于用户个性化偏好的交互场景信息,该交互场景信息包括对话主题信息。对话主题信息可以是用户通过配置操作指定而生成的,也可以是服务端基于该用户的历史对话信息自动生成的。具体地,当用户未通过配置操作指定对话主题时,服务端会根据用户的用户标识,从数据存储系统中获取包括历史对话主题的历史对话信息,并根据用户对于各历史对话主题的问答情况和使用情况,自动为用户选择对话主题、生成对应的对话主题信息。
[0102] 值得说明的是,上述配置操作可以但不限于是基于智能手表中的智能交互页面完成的,也可以是基于智能手表中的智能交互选择页面或智能交互配置页面完成的。对于用户执行配置操作的具体场景,本申请实施例不作限定。
[0103] S505:将选择操作携带的目标交互对象的对象标识发送至服务端,以使服务端基于对象标识和对话主题信息获取第三交互信息。
[0104] 其中,第三交互信息可以但不限于包括文本信息和语音信息。
[0105] 可选地,用户终端30将用户输入的选择操作携带的目标交互对象的对象标识发送至服务端,例如将“口语老师”这一目标交互对象的对象标识发送至服务端,以使服务端基于对象标识和交互场景信息中的对话主题信息获取第三交互信息。请参见图2,第三交互信息可以是“口语老师”说的一段对话开场白,包括“口语老师”的自我介绍以及对话主题,例如“Hello,I'm your English teacher.Today we'll talk about the topic of"Travel".Great!Let's start with a simple question.Where to begin our travel?”。
[0106] S506:接收第三交互信息,并通过目标交互对象针对第三交互信息在智能交互页面与用户进行人机交互。
[0107] 可选地,用户终端30接收服务端发送的第三交互信息,然后通过如图2所示的“口语老师”22在智能交互页面与用户进行人机交互。具体地,可以通过“口语老师”22在智能交互页面20展示第三交互信息中的文本信息,同时播放第三交互信息中的语音信息。
[0108] S507:接收用户基于智能交互页面输入的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息。
[0109] 具体地,S507与S402一致,此处不再赘述。
[0110] S508:将第一交互信息发送至服务端,以使服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息。
[0111] 具体地,S508与S403一致,此处不再赘述。
[0112] S509:接收服务端发送的第二交互信息,通过目标交互对象,在智能交互页面展示文本输出信息,以及通过目标交互对象,播放语音输出信息。
[0113] 示例性地,请参见图2,当用户终端通过目标交互对象,在智能交互页面展示完成文本输出信息和播放语音输出信息之后,用户可以再次点击“口语老师”的语音对话框23,控制“口语老师”再次播放语音输出信息。
[0114] 本实施例中,通过智能交互选择页面展示多个可供选择的交互对象,为用户提供个性化交互选项;响应于用户的配置操作,通过服务端获取包括对话主题信息的场景交互信息和第三交互信息,并通过目标交互对象针对第三交互信息在智能交互页面与用户进行人机交互,整个人机交互过程可以根据用户的使用偏好、历史问答情况和历史使用情况对人机交互场景进行动态调整,从而能够动态响应用户的使用需求。
[0115] 在一个实施例中,上述人机交互方法应用于如图1所示的用户终端30,还包括:接收用户基于智能交互页面输入的第二触发操作;响应于第二触发操作,进入历史交互页面;历史交互页面包括至少一个用于展示历史对话信息的历史交互区;响应于用户针对目标历史交互区的第三触发操作,通过目标交互对象针对目标历史交互区中展示的目标历史对话信息与用户进行人机交互。上述通过目标交互对象针对目标历史交互区中展示的目标历史对话信息与用户进行人机交互,包括:通过目标交互对象,播放目标历史对话信息。
[0116] 其中,第二触发操作和第三触发操作均可以是点击、滑动、长按等自定义的交互动作。
[0117] 示例性地,用户可以基于如图2所示的智能交互页面20执行向左滑动操作,用户终端30接收用户基于智能交互页面20输入的向左滑动操作,响应于向左滑动操作,进入如图6所示的历史交互页面60。请参见图6,历史交互页面60中展示有两个历史交互区61和62,每个历史交互区中都展示有相应的历史对话信息。用户点击任意一个历史交互区,例如点击历史交互区61之后,用户终端30响应于针对历史交互区61(目标历史交互区)的点击操作,通过“口语老师”(目标交互对象)与用户进行人机交互。具体可以是通过“口语老师”这一角色,播放历史交互区61展示的历史对话信息(目标历史对话信息)。
[0118] 可选地,历史交互页面还展示有待查看信息图标63,用于提醒用户余下待查看的历史对话信息。用户可以通过向下滑动的方式,基于历史交互页面60查看余下30条历史对话信息。
[0119] 本实施例中,通过访问历史交互页面,用户可以快速回顾之前的对话内容,便于用户进行查找和复习,提升了人机交互效率、保证了人机交互的连续性和便捷性,从而有效解决了人机交互不够智能化的问题。
[0120] 在一个实施例中,如图7所示,提供了一种人机交互方法,以该方法应用于图3中的服务端31为例进行说明,包括以下步骤:
[0121] S701:获取通用大语言模型,通用大语言模型采用通用知识语料预训练得到。
[0122] 其中,通用大语言模型(General‑purpose Large Language Models,LLMs)是指那些经过大规模文本数据训练的深度学习模型,它们能够执行广泛的自然语言处理任务,包括但不限于文本生成、语言理解、翻译、问答、对话等。
[0123] 可选地,通过大量未标注的文本数据(如互联网、书籍、新闻中的文本数据)进行预训练,得到通用大语言模型。大量未标注的文本数据包括多个语言类型的文本数据,通用大语言模型可以但不限于是XLNet、T5等混合语言模型。
[0124] S702:采用标注有不同对话主题的对话知识语料对通用大语言模型进行二次预训练,得到基础对话模型。
[0125] 可选地,从互联网、书籍、新闻或公开数据集中获取标注有不同对话主题的对话知识语料,通过标注过的对话知识语料对通用大语言模型进行二次预训练,得到基础对话模型。
[0126] 值得说明的是,标注有不同对话主题的对话知识语料不仅包含日常对话,也可能包括特定领域的专业对话,每个对话样本都关联有明确的对话主题标签。利用这些带有对话主题标签的对话知识语料对通用大语言模型进行二次预训练,能够在不完全丢失模型通用性的情况下,引入更多对话领域的信息,从而为模型提供更丰富的上下文理解能力,帮助模型更好地理解和生成对话内容,增强模型在特定对话场景,如英语口语对话场景下的表现。
[0127] S703:获取指令微调数据集和评价反馈数据集,基于指令微调数据集对基础对话模型进行监督式微调,得到微调后的对话模型,并基于评价反馈数据集对微调后的对话模型进行参数优化,得到对话大语言模型。
[0128] 可选地,指令微调数据集中包括大量“问答对”(例如,问:How is the weather today?答:It’s sunny today.),该指令微调数据集相比于上述对话知识语料规模较小、但是质量更高,基于指令微调数据集可以对经过二次预训练的基础对话模型进行监督式微调(Supervised Fine‑Tuning,SFT),让模型学会如何准确响应特定指令,提高其在任务导向对话中的表现。评价反馈数据集中包含用户与模型交互的真实记录以及用户对模型回复的质量评估,利用评价反馈数据集可以对微调后的对话模型进行评估和参数调整,通过迭代的方式不断优化模型,使其更加贴合用户的实际需求和偏好,提升对话的自然度和满意度。通过对基础对话模型进行监督式微调、以及对微调后的模型进行参数优化,可以使模型生成符合人类期望及价值观的语句,即最终生成的对话大语言模型具备与人对话、遵循指令、不输出有害内容的能力。
[0129] S704:接收用户终端发送的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息。
[0130] 具体地,服务端31通过网络接口接收用户终端发送的第一交互信息,该第一交互信息包括至少一种语言类型的语音输入信息。
[0131] S705:基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息。
[0132] 具体地,服务端31基于上述训练好的对话大语言模型获取与用户输入的第一交互信息对应的第二交互信息,该第二交互信息包括文本输出信息和语音输出信息。
[0133] 在一个实施例中,基于对话大语言模型获取与第一交互信息对应的第二交互信息,包括:采用自动语音识别技术获取第一交互信息中多种语言类型的语音输入信息对应的文本输入信息;采用对话大语言模型对文本输入信息进行分析,得到文本输入信息对应的文本输出信息;采用从文本到语音技术对文本输出信息进行语音转化,得到语音输出信息。
[0134] 其中,自动语音识别技术(Automatic Speech Recognition,ASR)是一种将人类语音转化为文本的技术,文本到语音技术(Text‑to‑Speech,TTS)是人机对话的一部分,让机器能够说话。
[0135] 具体地,服务端31首先采用自动语音识别技术获取第一交互信息中多种语言类型的语音输入信息对应的文本输入信息,然后采用训练好的对话大语言模型对文本输入信息进行分析,得到文本输入信息对应的文本输出信息,最后采用从文本到语音技术,结合用户的配置内容,例如对话语言类型(如美式英语、英式英语)、对话声音类型(如男音、女音)对文本输出信息进行语音转化,得到语音输出信息。
[0136] 本实施例中,通过自动语音识别技术识别包括多种语言类型的语音输入信息,从而能够准确地理解用户输入的对话内容;通过对话大语言模型对文本输入信息进行分析,得到对应的文本输出信息,能够确保回复的语义准确、自然且贴合上下文;通过文本到语音技术对文本输出信息进行语音转化,能够生成满足用户需求的语音输出信息,从而能够动态响应用户的个性化需求。
[0137] 在一个实施例中,对话大语言模型包括敏感词检测网络和生成式人工智能网络,敏感词检测网络用于对文本输入信息进行敏感词检测;生成式人工智能网络用于基于敏感词检测的结果生成文本输入信息对应的文本输出信息。
[0138] 其中,敏感词检测网络基于敏感词词库构建,该敏感词词库包括但不限于是与各类敏感话题相关的词汇、短语,以及变体、缩写和模糊表达,上述词汇、短语、变体、缩写和模糊表达涵盖多种语言类型。通过敏感词检测网络可以过滤上述文本输入信息中的敏感词,以避免不当的内容传播或滥用。生成式人工智能(Artificial Intelligence Generated Content,AIGC)网络可以根据历史对话上下文生成符合特定的语境和安全规范的文本输出信息。
[0139] 可选地,敏感词检测网络可以通过基于词典匹配的方法来检测敏感词,或者利用机器学习算法来学习敏感词的特征,并根据这些特征来进行检测。服务端31通过自动语音识别技术获取文本输入信息之后,将文本输入信息输入至训练好的对话大语言模型。对话大语言模型首先通过敏感词检测网络,检测文本输入信息中的敏感词,并输出相应的敏感词检测结果。接着对话大语言模型通过生成式人工智能网络,基于敏感词检测结果生成文本输入信息对应的文本输出信息。具体地,若敏感词检测结果是检测到无敏感词,则生成式人工智能网络直接生成符合安全规范的文本输出信息;若敏感词检测结果是检测到有敏感词,则生成式人工智能网络选择性地过滤敏感内容、使用预定义的替代词或完全拒绝生成响应。
[0140] 本实施例中,将敏感词检测网络作为前置过滤器,能够有效识别不当、违法或敏感内容的信息,生成式人工智能网络基于敏感词检测网络的检测结果,能够有效过滤有害信息,生成更加适宜、精准、高质量的回复,从而保证了人机交互的安全性和可靠性。
[0141] S706:将第二交互信息发送至用户终端。
[0142] 具体地,服务端31通过网络接口将第二交互信息发送至用户终端,该第二交互信息包括文本输出信息和语音输出信息。
[0143] 在一个实施例中,上述人机交互方法应用于如图3所示的服务端31,还包括:接收用户终端发送的配置参数和用户标识;配置参数和用户标识由用户的配置操作确定;基于配置参数和用户标识获取交互场景信息;交互场景信息包括对话主题信息;接收用户终端发送的目标交互对象的对象标识;对象标识由用户针对目标交互对象的选择操作确定;基于对象标识和对话主题信息获取第三交互信息;将第三交互信息发送至用户终端。
[0144] 可选地,用户在其终端(如智能手表)上进行个性化设置,比如设置对话语言类型、对话声音类型、对话主题等,这些设置形成配置参数。服务端31接收用户终端发送的配置参数和用户标识(如用户ID),并基于配置参数、用户标识和历史对话信息获取包括对话主题信息的交互场景信息。值得说明的是,对话主题信息可以是用户通过配置操作指定而生成的,也可以是服务端31基于该用户的历史对话信息自动生成的。
[0145] 具体地,当用户未通过配置操作指定对话主题时,服务端31会根据用户的用户标识,从数据存储系统中获取包括历史对话主题的历史对话信息,并根据用户对于各历史对话主题的问答情况和使用情况,自动为用户选择对话主题、生成对应的对话主题信息。
[0146] 可以理解的是,服务端31获取了包括对话主题信息的交互场景信息之后,结合用户终端发送的目标交互对象的对象标识获取第三交互信息。以用户选择的目标交互对象是“口语老师”为例,第三交互信息可以是“口语老师”说的一段对话开场白,具体请参见S505,此处不再赘述。
[0147] 本实施例中,服务端通过接收并利用用户终端发送的配置参数和用户标识,生成个性化的交互场景信息,不仅能够确保人机的对话交流更加聚焦和高效(对话内容与对话主题高度相关),还能够根据用户的配置内容,动态响应用户的个性化需求,解决了人机交互不够智能化的问题。
[0148] 基于上述应用于用户终端的人机交互方法的发明构思,如图8所示,本申请实施例还提供了一种用于实现上述应用于用户终端的人机交互方法的人机交互装置800。人机交互装置800包括:
[0149] 响应模块801,用于响应于用户针对目标交互对象的选择操作,进入智能交互页面;
[0150] 接收模块802,用于接收用户基于智能交互页面输入的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息;
[0151] 发送模块803,用于将第一交互信息发送至服务端,以使服务端基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息;
[0152] 交互模块804,用于接收服务端发送的第二交互信息,并通过目标交互对象针对第二交互信息在智能交互页面与用户进行人机交互。
[0153] 在一个实施例中,响应模块801还用于响应于用户针对智能交互选择入口的第一触发操作,进入智能交互选择页面;智能交互选择页面用于展示多个可供选择的交互对象;接收模块802还用于接收用户针对智能交互选择页面中目标交互对象的选择操作。
[0154] 在一个实施例中,响应模块801还用于响应于用户的配置操作,将配置操作携带的配置参数和用户标识发送至服务端,以使服务端基于配置参数和用户标识获取交互场景信息;交互场景信息包括对话主题信息;发送模块803还用于将选择操作携带的目标交互对象的对象标识发送至服务端,以使服务端基于对象标识和对话主题信息获取第三交互信息;接收模块802还用于接收第三交互信息,并通过目标交互对象针对第三交互信息在智能交互页面与用户进行人机交互。
[0155] 在一个实施例中,交互模块804还用于通过目标交互对象,在智能交互页面展示文本输出信息,以及通过目标交互对象,播放语音输出信息。
[0156] 在一个实施例中,接收模块802还用于接收用户基于智能交互页面输入的第二触发操作;响应模块801还用于响应于第二触发操作,进入历史交互页面;历史交互页面包括至少一个用于展示历史对话信息的历史交互区。
[0157] 在一个实施例中,响应模块801还用于响应于用户针对目标历史交互区的第三触发操作,通过目标交互对象针对目标历史交互区中展示的目标历史对话信息与用户进行人机交互。
[0158] 在一个实施例中,交互模块804还用于通过目标交互对象,播放目标历史对话信息。
[0159] 基于上述应用于用户终端的人机交互方法的发明构思,如图9所示,本申请实施例还提供了一种用于实现上述应用于服务端的人机交互方法的人机交互装置900。人机交互装置900包括:
[0160] 数据接收模块901,用于接收用户终端发送的第一交互信息;第一交互信息包括至少一种语言类型的语音输入信息;
[0161] 数据处理模块902,用于基于对话大语言模型获取与第一交互信息对应的第二交互信息;第二交互信息包括文本输出信息和语音输出信息;
[0162] 数据发送模块903,用于将第二交互信息发送至用户终端。
[0163] 在一个实施例中,数据处理模块902还用于获取通用大语言模型,通用大语言模型采用通用知识语料预训练得到;采用标注有不同对话主题的对话知识语料对通用大语言模型进行二次预训练,得到基础对话模型;获取指令微调数据集和评价反馈数据集,基于指令微调数据集对基础对话模型进行监督式微调,得到微调后的对话模型,并基于评价反馈数据集对微调后的对话模型进行参数优化,得到对话大语言模型。
[0164] 在一个实施例中,数据处理模块902还用于采用自动语音识别技术获取第一交互信息中多种语言类型的语音输入信息对应的文本输入信息;采用对话大语言模型对文本输入信息进行分析,得到文本输入信息对应的文本输出信息;采用从文本到语音技术对文本输出信息进行语音转化,得到语音输出信息。
[0165] 在一个实施例中,数据处理模块902还用于采用对话大语言模型对文本输入信息进行分析,得到文本输入信息对应的文本输出信息;上述对话大语言模型包括敏感词检测网络和生成式人工智能网络,敏感词检测网络用于对文本输入信息进行敏感词检测;生成式人工智能网络用于基于敏感词检测的结果生成文本输入信息对应的文本输出信息。
[0166] 在一个实施例中,数据接收模块901还用于接收用户终端发送的配置参数和用户标识;配置参数和用户标识由用户的配置操作确定;数据处理模块902还用于基于配置参数和用户标识获取交互场景信息;交互场景信息包括对话主题信息;数据接收模块901还用于接收用户终端发送的目标交互对象的对象标识;对象标识由用户针对目标交互对象的选择操作确定;数据处理模块902还用于基于对象标识和对话主题信息获取第三交互信息;数据发送模块903还用于将第三交互信息发送至用户终端。
[0167] 本申请实施例还提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图10所示。该电子设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的输入/输出接口用于处理器与外部设备之间交换信息。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人机交互方法。该电子设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0168] 值得说明的是,该电子设备也可以是服务器,其内部结构图可以如图11所示。该电子设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储用户的历史对话数据。该电子设备的输入/输出接口用于处理器与外部设备之间交换信息。该电子设备的通信接口用于与外部的终端通过网络连接通信。该电子设备的处理器执行计算机程序以实现一种人机交互方法。
[0169] 本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中的一个或多个步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取存储介质中。
[0170] 在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(Digital Versatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
[0171] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
[0172] 以上所述的实施例仅仅是本申请的优选实施例方式进行描述,并非对本申请的范围进行限定,在不脱离本申请的设计精神的前提下,本领域普通技术人员对本申请的技术方案作出的各种变形及改进,均应落入权利要求书确定的保护范围内。
[0173] 上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。