技术领域
[0001] 本申请涉及医学理疗装置技术领域,特别是涉及一种用于音乐治疗的音乐库生成系统和方法。
相关背景技术
[0002] 音乐治疗是基于心理学和音乐学的新兴治疗手段,通过综合运用音乐的多种特性,如节奏、歌词和韵律等特性,完成对生理心理障碍的干预和治疗。在一些发达国家或地区中音乐治疗已经非常普及,音乐治疗师需要经过长时间的学习和培训,培训课程涉及到脑神经科学、医学心理学等多方面内容,之后还要经过长时间的音乐训练才能获得合格证书,大多数医院诊所和养老院也都有专门的音乐治疗师提供音乐治疗服务。随着经济的发展、人民生活水平的逐步提高以及对医疗水平的要求进一步提高,音乐治疗的需求势必越来越大。
[0003] 目前,各大音乐平台都有生成个性化歌单的功能,根据用户的音乐风格偏好、所喜爱歌手的艺术风格、歌词类型等进行个性化推荐,进而生成私人定制歌单,但这种方式生成的歌单仅能代表用户个人的音乐偏好,满足娱乐消遣的需求,并不能直接用于音乐治疗;用于音乐治疗的音乐需要音乐治疗师针对具体来访者来选择,而这往往需要花费音乐治疗师很多的时间。因此,如何生成用于音乐治疗的音乐库是当前音乐治疗场景下亟需解决的问题之一。
[0004] 目前针对相关技术中如何生成用于音乐治疗的音乐库的问题,尚未提出有效的解决方案。
具体实施方式
[0033] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0034] 显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0035] 在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0036] 除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0037] 本申请实施例提供了一种用于音乐治疗的音乐库生成系统,图1是根据本申请实施例的用于音乐治疗的音乐库生成系统的结构框图,如图1所示,该系统包括信息采集模块11、筛选配对模块12、歌单生成模块13和运动图谱匹配模块14;
[0038] 信息采集模块11,用于获取用户的多模态信息,其中,多模态信息包括基本信息、语音信息、动作信息、面部信息和注意力信息;
[0039] 具体地,信息采集模块11,用于通过附带麦克风的眼动追踪眼镜采集用户的音频数据,将音频数据输入语音识别模型,得到用户的语音信息。
[0040] 需要说明的是,音频数据由附带麦克风的眼动追踪眼镜收集,而技术处理则主要基于人工智能声纹识别算法,近些年语音识别算法种类层出不穷,已有众多成熟的商业应用方案,例如阿里云自研的SAN‑M模型,本实施例采用被广泛应用的视觉反馈训练技术,实时提取发音中的基频曲线和信号包络等参数,对比自身发音与标准发音参数曲线,通过拟合参数曲线来定位言语语言问题,流程大致可分为特征提取→声学与语言模型训练→语音识别。
[0041] 具体地,信息采集模块11,用于通过摄像头采集用户的视频数据,将视频数据输入动作识别模型,得到用户的动作信息。
[0042] 需要说明的是,对于动作信息,本实施例主要基于2018年发布并发展至今的DeepLabCut算法工具包,该工具包已被广泛应用于人类、小鼠、猕猴的自动化行为分析,可以自动在视频中标记目标的不同部分(比如人体的不同部位),提取各个部分的运动轨迹信息,时间精度可以达到毫秒级,以此信息为基础,后续使用动态时间对齐核化算法、无监督学习算法,就可以实现自动化的信息分类。
[0043] 具体地,信息采集模块11,用于通过摄像头采集用户的视频数据,将视频数据输入面部情绪识别模型,得到用户的面部信息。优选基于facereader算法工具提取得到用户的面部信息。
[0044] 具体地,信息采集模块11,用于通过附带麦克风的眼动追踪眼镜采集用户的眼球运动数据,基于眼球运动数据计算得到用户的注意力信息。优选通过计算眼球在某一处方位停留的时长来衡量注意力。
[0045] 具体地,信息采集模块11,用于通过问卷形式获取用户的基本信息,其中,基本信息至少包括年龄信息、性别信息、病情诊断信息和音乐偏好信息中的一种。
[0046] 筛选配对模块12,用于将基本信息与预设音乐库中的音乐进行匹配,得到用户的第一音乐集合,将语音信息与预设音乐库中的音乐进行匹配,得到用户的第二音乐集合,将动作信息与预设音乐库中的音乐进行匹配,得到用户的第三音乐集合,将面部信息与预设音乐库中的音乐进行匹配,得到用户的第四音乐集合,将注意力信息与预设音乐库中的音乐进行匹配,得到用户的第五音乐集合;
[0047] 具体地,预设音乐库中的音乐具有音乐库分类因素的属性,其中,音乐库分类因素包括歌词、演唱类型、音乐类型、音域、年代、情绪、配器、速度和片段时长;
[0048] 所述预设音乐库中的音乐具有音乐库分类因素的属性,其中,所述音乐库分类因素包括歌词、演唱类型、音乐类型、音域、年代、情绪、配器、速度和片段时长;
[0049] 筛选配对模块13,用于根据基本信息将用户与预设音乐库中的音乐进行匹配,得到用户的第一音乐集合,根据语音信息将用户与预设音乐库中的音乐进行匹配,得到用户的第二音乐集合,根据动作信息将用户与预设音乐库中的音乐进行匹配,得到用户的第三音乐集合,根据面部信息将用户与预设音乐库中的音乐进行匹配,得到用户的第四音乐集合,根据注意力信息将用户与预设音乐库中的音乐进行匹配,得到用户的第五音乐集合;
[0050] 需要说明的是,筛选配对模块12可通过Transformer人工智能模型和DIN人工智能模型进行音乐集合的筛选匹配,Transformer是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重,在自然语言处理、计算机视觉等领域被广泛使用。DIN(Deep Interest Network)模型将注意力机制引入到用户兴趣建模中,基于大量基准数据,目前已被广泛应用于音乐推荐、商品推荐等领域。
[0051] 歌单生成模块13,用于根据预设权重值,从第一音乐集合、第二音乐集合、第三音乐集合、第四音乐集合和第五音乐集合中筛选得到用户的个人音乐库。
[0052] 优选地,第一音乐集合的预设权重值为30%,第二音乐集合的预设权重值为25%、第三音乐集合的预设权重值为20%、第四音乐集合的预设权重值为15%和第五音乐集合的预设权重值为10%,基于各预设权重值从各音乐集合中筛选出对应数量的音乐组成用户的个人音乐库。
[0053] 需要说明的是,歌单生成模块13也可通过Transformer人工智能模型和DIN人工智能模型进行用户的个人音乐库的生成。
[0054] 运动图谱匹配模块14,用于为个人音乐库匹配神经音乐运动图谱,运动图谱中的运动包括第一肢体动作、第二肢体动作和面部动作,其中,第一肢体动作的动作幅度大于第二肢体动作。
[0055] 需要说明的是,歌单生成模块14也可通过Transformer人工智能模型和DIN人工智能模型进行神经音乐运动图谱的匹配。
[0056] 需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0057] 通过本申请实施例中的信息采集模块11、筛选配对模块12、歌单生成模块13和运动图谱匹配模块14,解决了如何生成用于音乐治疗的音乐库的问题,通过对来访者的问卷、语音、动作、面部表情和注意时长记录等数据信息的分析,在音乐库里从多维度(音乐的歌词、演唱互动类型、音域、音乐类型、年代、情绪、速度、配器、片段时长等)进行音乐匹配、筛选并生成音乐,然后根据多种优先级选出最终匹配来访者的、能运用于音乐治疗的个性化音乐库。为了强化、放大治疗效果,个性化音乐库还基于神经音乐治疗理论和模型,匹配了神经音乐运动图谱。
[0058] 本申请实施例提供了一种用于音乐治疗的音乐库生成方法,该方法包括以下步骤:
[0059] 获取用户的多模态信息,其中,多模态信息包括基本信息、语音信息、动作信息、面部信息和注意力信息;
[0060] 将基本信息与预设音乐库中的音乐进行匹配,得到用户的第一音乐集合,将语音信息与预设音乐库中的音乐进行匹配,得到用户的第二音乐集合,将动作信息与预设音乐库中的音乐进行匹配,得到用户的第三音乐集合,将面部信息与预设音乐库中的音乐进行匹配,得到用户的第四音乐集合,将注意力信息与预设音乐库中的音乐进行匹配,得到用户的第五音乐集合;
[0061] 根据预设权重值,从第一音乐集合、第二音乐集合、第三音乐集合、第四音乐集合和第五音乐集合中筛选得到用户的个人音乐库。
[0062] 本申请实施例提供了一种用于音乐治疗的音乐库生成方法,图2是根据本申请实施例的用于音乐治疗的音乐库生成方法的流程示意图,如图2所示,该方法包括以下步骤:
[0063] A部分是信息搜集和分析,里面包括了5个模块。模块1为信息问卷,由来访者本人或者来访者监护人(未成年人)填写,主要搜集信息为年龄、性别、诊断、音乐偏好。模块2为语音识别,对来访者的发音(单音、音节等)和语言能力(完整句子、语序)进行分析,得出需要加强的部分。模块3为动作识别,对来访者的肢体动作(精细、粗大)和社交互动(眼神对视、问答等)进行分析。模块4为面部识别,将一段时间内的识别到的面部表情进行归类、对应到划分好的5类情绪,分别用5种不同的情绪来表示:红色、黄色、绿色、蓝色、紫色,分析出出现频率最多的情绪。模块5为注意时长记录‑‑注意力维持的时间。
[0064] B部分展示了如何依据A部分信息筛选音乐库里的音乐。音乐库里将音乐按照以下类别分类:歌词、演唱类型、音乐类型、音域、年代、情绪、配器、速度和片段时长,表1是音乐库分类因素的示例表,具体分类详见表1。
[0065] 表1
[0066]
[0067] 再根据A部分的信息进行音乐筛选匹配,表2是多模态信息与音乐库分类因素的匹配示例表,具体匹配关系详见表2。
[0068] 表2
[0069]
[0070] 表2展示了A部分信息与B部分音乐分类之间的对应关系。比如当来访者中A部分模块1中年龄为5岁,就会匹配到幼儿期3‑6岁儿童能力匹配演唱的儿歌音乐;当A部分模块2的语音识别中识别到来访者发音ing/in存在问题,在筛选音乐的时候就会选择音乐片段里面演唱的歌词有ing/in的歌曲;当A部分的模块3中识别到来访者肢体动作的双脚蹦跳有问题,在B部分筛选音乐片段的时候会选择情绪轻快、需要用到双脚蹦跳的音乐(比如:兔子舞);当A部分的模块4中识别到一段时间内来访者出现的频率最多表情是沮丧(蓝色),在筛选音乐片段的时候就选择红色或者黄色的音乐;当A部分的模块5中统计到来访者的注意力时长为2分钟,在B部分音乐片段筛选的时候可以筛选出2‑3分钟或者3‑5分钟的音乐片段。
[0071] C部分是将B部分生成的音乐集合根据多种优先级进行排序、匹配,最终形成个人音乐库。默认优先级别从高到低分别是:基本信息、语言、表情、动作、指令、社交、注意力;当治疗师有需要的时候,也可以对所有优先级自由排序。比如,当B部分中筛选出两个音乐片段,第一首关于“gua”发音的儿歌,第二首是关于“gua”发音的经典歌曲,假设“基本信息(来访者75岁)”优先级最高,最终会选择第二首,如果“语言(儿童早期正在学习说话)”优先级最高,则选第一首。每一个优先级筛选出的音乐在最终生成的个人音乐库中所占的比例默认为基本信息30%、语言15%、表情20%、动作5%、指令10%、社交15%、注意力5%,比例可根据实际情况自定义。
[0072] D部分是为个人音乐库匹配神经音乐运动图谱。依据个性化音乐库中音乐的8种参数:节奏、节拍、速度、和弦、调性、音色、音乐型态、音乐动态,为每首音乐匹配神经音乐运动图谱。图谱包含6类动作:粗大运动、精细动作、面部表情、肢体协调、身体平衡、本体感觉。表3是神经音乐运动图谱的匹配示例表,具体匹配关系详见表3,以流行歌曲“《某歌曲》/某歌手”为例,展示如何为个性化音乐库中的音乐匹配神经音乐运动图谱。
[0073] 表3
[0074]
[0075]需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0076] 本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0077] 可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0078] 需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0079] 另外,结合上述实施例中的用于音乐治疗的音乐库生成方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种用于音乐治疗的音乐库生成方法。
[0080] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于音乐治疗的音乐库生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0081] 在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种用于音乐治疗的音乐库生成方法,数据库用于存储数据。
[0082] 本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0083] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0084] 本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0085] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。