技术领域
[0001] 本发明涉及课堂教学技术领域,尤其涉及一种基于自然交互的虚拟课堂教学仿真系统及方法。
相关背景技术
[0002] 虚拟课堂教学仿真系统是一种基于计算机技术、虚拟现实技术和教育教学理论的综合性教学平台,主要为师范生或职初教师提供一个高拟真的,可自然交互的虚拟课堂环境,配合使用者进行课堂教学演练,以对使用者的教学能力和师生互动能力进行培养,目前,根据虚拟学生的生成模式不同,虚拟课堂教学平台大致可以分为三类:真人控制、计算机程序控制和大语言模型控制。
[0003] 但是现有的虚拟课堂教学无法直观生动的展示课堂教学的真实情境,不能实现语言自然交互,与真实课堂存在差距,沉浸感较差。
具体实施方式
[0047] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0048] 请参阅图1~图7,本发明提供了一种基于自然交互的虚拟课堂教学仿真系统,包括多模态数据采集模块100、预处理模块200、行为控制模块300、大语言模型模块400、环境控制模块500和渲染模块600,所述预处理模块200、所述行为控制模块300和所述大语言模块均与所述多模态数据采集模块100连接,所述行为控制模块300和所述大语言模块还均与所述预处理模块200连接,所述环境控制模块500均与所述预处理模块200、所述行为控制模块300和所述大语言模块连接,所述渲染模块600与所述环境控制模块500连接;
[0049] 所述多模态数据采集模块100用于对实验环境的音频和图像信息进行采集,并对虚拟学生的画像设定进行采集;
[0050] 所述预处理模块200用于对采集信号进行预处理,并转为文本信号对使用者行为意图进行分析;
[0051] 所述行为控制模块300用于构建大量虚拟学生的动作和表情库,依据学生画像和课堂事件生成虚拟学生自发行为及表情;
[0052] 所述大语言模型模块400用于对使用者提问进行答案生成;
[0053] 所述环境控制模块500用于综合使用者意图,决定环境和虚拟学生的行为及状态变化;
[0054] 所述渲染模块600用于对虚拟学生的动作和表情进行渲染,并使用文本转语音模型603使虚拟学生说出指定内容。
[0055] 在本实施方式中,所述多模态数据采集模块100对实验环境的音频和图像信息进行采集,并对虚拟学生的画像设定进行采集,所述预处理模块200对采集信号进行预处理,并转为文本信号对使用者行为意图进行分析,所述行为控制模块300构建大量虚拟学生的动作和表情库,依据学生画像和课堂事件生成虚拟学生自发行为及表情,给予使用者更加真实的课堂教学体验和更丰富的教学场景,所述大语言模型模块400对使用者提问进行答案生成,所述环境控制模块500综合使用者意图及所述行为控制模块300与所述大语言模型模块400的输出结果,所述渲染模块600对虚拟学生的动作和表情进行渲染,并使虚拟学生说出指定内容,通过上述方式,实现了能够直观生动的展示课堂教学的真实情境,实现语言自然交互,能快速提高使用者的教学能力。
[0056] 进一步地,所述多模态数据采集模块100包括学生画像采集单元101、音频信号采集单元102和图形信号采集单元103,所述学生画像采集单元101分别与所述行为控制模块300、所述大语言模型模块400和环境控制模块500连接,所述音频信号采集单元102和所述图形信号采集单元103均与所述预处理模块200连接;
[0057] 所述学生画像采集单元101用于对虚拟学生的画像设定进行采集,所述学生画像采集单元101由认知画像和性格画像组成;
[0058] 所述音频信号采集单元102用于采集实验环境的音频信息;
[0059] 所述图形信号采集单元103用于采集实验环境的图像信息。
[0060] 在本实施方式中,所述学生画像采集单元101对虚拟学生的画像设定进行采集,所述学生画像采集单元101由认知画像和性格画像组成,所述音频信号采集单元102采集实验环境的音频信息,所述图形信号采集单元103采集实验环境的图像信息,其中,学生画像是系统中最复杂和关键的输入之一,它定义了虚拟学生的基本认知和性格特点,学生画像主要由两部分组成:认知画像和性格画像。
[0061] 进一步地,所述预处理模块200包括语音识别模型201、图像分析模型202和语义分析模型203,所述语音识别模型201与所述音频信号采集单元102连接,所述图像分析模型202与所述图形信号采集单元103连接,所述语义分析模型203分别与所述语音识别模型
201、所述图像分析模型202、所述行为控制模块300、所述大语言模型模块400和所述环境控制模块500连接;
[0062] 所述语音识别模型201用于对原始音频转化为文本格式的数据;
[0063] 所述图像分析模型202用于对输入图像进行特征提取与识别,同样转化为文本格式数据;
[0064] 所述语义分析模型203用于将所述语音识别模型201和所述图像分析模型202输出的文本数据进一步做语义分析,进行使用者意图理解。
[0065] 在本实施方式中,所述语音识别模型201对对原始音频转化为文本格式的数据,所述图像分析模型202对输入图像进行特征提取与识别,同样转化为文本格式数据,所述语义分析模型203将语音识别模型和图像分析模型输出的文本数据进一步做语义分析,进行使用者意图理解,采用文本分类的技术进一步抽象出使用者的语义信息,其中,语义信息包含四大类,1、教师指令,用于讨论指令、跟读指令和维护课堂指令,2、教师讲授,用于讲授教学内容,3、教师状态,教师的姿态和表情信息,4、教师提问,教师期望虚拟学生进行响应的问题,在上述方式中,能够有效地将复杂的多模态输入转化为结构化的语义理解,为后续的虚拟学生行为和语言生成提供准确的基础信息。这种多模态融合的方法不仅提高了系统对使用者意图的理解能力,还能够处理语音和动作之间可能存在的歧义或补充信息,从而实现更自然、更智能的人机交互。
[0066] 进一步地,所述大语言模型模块400包括记忆单元401和大语言模型402,所述语义分析模型203和所述学生画像采集单元101均与所述记忆单元401连接,所述记忆单元401与所述大语言模型402连接,所述大语言模型402与所述环境控制模块500连接;
[0067] 所述大语言模型402用于负责认知和思考过程,结合上下文对输入问题进行智能化的答案生成;
[0068] 所述记忆单元401用于模拟学生的记忆能力。
[0069] 在本实施方式中,所述大语言模型402负责认知和思考过程,结合上下文对输入问题进行智能化的答案生成,所述记忆单元401模拟学生的记忆能力,其中,所述记忆单元401存放的信息包括已有的基础知识、学生画像中自定义的信息和本节课教师讲授的内容(系统会实时更新知识库,将教师在课堂上讲解的新知识点动态添加到所述记忆单元401中),在上述方式中,主要为虚拟学生提供“思考”能力,课堂教学过程中,提问,讨论,互评,总结等场景都需要虚拟学生对指定的内容进行思考,并依据自身的认知,给出正确或者错误的回答。
[0070] 进一步地,所述环境控制模块500包括场景控制单元501和学生控制单元502,所述场景控制单元501和所述学生控制单元502均与所述渲染模块600连接,所述行为控制模块300分别与所述场景控制单元501和所述学生控制单元502连接,所述学生画像采集单元101分别与所述场景控制单元501和所述学生控制单元502连接,所述大语言模型402分别与所述场景控制单元501和所述学生控制单元502连接,所述语义分析模型203分别与所述场景控制单元501和所述学生控制单元502连接;
[0071] 所述场景控制单元501用于接收教师指令来决定是否切换教学场景;
[0072] 所述学生控制单元502用于虚拟学生的行为及状态变化。
[0073] 在本实施方式中,利用所述场景控制单元501接收教师指令来决定是否切换教学场景,其中,系统定义了多个教学场景,包括:讲授,讨论,互评和分享等,模块接收教师指令来决定是否切换场景,或者进入场景下一阶段;利用所述学生控制单元502虚拟学生的行为及状态变化,其中,系统定义了多种学生动作状态,包括:听讲,回答,走神,举手,起立和讨论等等。同时也定义了多种表情,例如:困惑,微笑,正常和惊讶等等。学生的动作和表情都转换统一由状态转移矩阵实现,该矩阵决定了学生状态能否转移以及转移的条件。
[0074] 进一步地,所述渲染模块600包括动作渲染单元601、表情渲染单元602和文本转语音模型603,所述动作渲染单元601、所述表情渲染单元602和所述文本转语音模型603均与所述场景控制单元501单元,所述动作渲染单元601、所述表情渲染单元602和所述文本转语音模型603还均与学生控制单元502连接;
[0075] 所述动作渲染单元601用于渲染虚拟学生在不同的课堂上的动作;
[0076] 所述表情渲染单元602用于渲染虚拟学生在不同的课堂上细微的面部表情变化;
[0077] 所述文本转语音模型603用于对学生语音文本转化为指定音色的语音文件并实时播放。
[0078] 在本实施方式中,利用所述动作渲染单元601渲染虚拟学生在不同的课堂上的动作,利用所述表情渲染单元602用于渲染虚拟学生在不同的课堂上细微的面部表情变化[0079] ,利用所述文本转语音模型603采用基于神经网络的文本转语音(TTS)模型,对学生语音文本转化为指定音色的语音文件并实时播放。
[0080] 本发明还提供一种基于自然交互的虚拟课堂教学仿真方法,包括如下步骤:
[0081] S1:利用所述多模态数据采集模块100对实验环境的音频和图像信息进行采集,并对虚拟学生的画像设定进行采集;
[0082] S2:通过所述预处理模块200对采集信号进行预处理,并转为文本信号对使用者行为意图进行分析;
[0083] S3:通过所述行为控制模块300构建大量虚拟学生的动作和表情库,依据学生画像和课堂事件生成虚拟学生自发行为及表情;
[0084] S4:利用所述大语言模型模块400对使用者提问进行答案生成;
[0085] S5:通过所述环境控制模块500综合使用者意图及所述行为控制模块300与所述大语言模型模块400的输出结果;
[0086] S6:通过所述渲染模块600对虚拟学生的动作和表情进行渲染,并使虚拟学生说出指定内容。
[0087] 在本实施方式中,首先利用所述多模态数据采集模块100对实验环境的音频和图像信息进行采集,并对虚拟学生的画像设定进行采集,然后通过所述预处理模块200对采集信号进行预处理,并转为文本信号对使用者行为意图进行分析,通过所述行为控制模块300构建大量虚拟学生的动作和表情库,利用模型依据学生画像和课堂事件生成虚拟学生自发行为及表情,利用所述大语言模型模块400对使用者提问进行答案生成,通过所述环境控制模块500综合使用者意图及所述行为控制模块300与所述大语言模型模块400的输出结果,通过所述渲染模块600对虚拟学生的动作和表情进行渲染,并使虚拟学生说出指定内容。
[0088] 以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。