技术领域
[0001] 本发明涉及车载多媒体技术领域,特别涉及一种多媒体控制方法和车载多媒体服务系统。
相关背景技术
[0002] 车载多媒体系统是现代汽车中不可或缺的一部分,可提供音乐、导航、娱乐等多种服务。
[0003] 其中,车载多媒体系统中的音乐播放部分一般由多媒体播放器主机、音频处理器(DSP)和扬声器构成,多媒体播放器主机提供的音频信号通过音频处理器进行功率放大、修饰等处理后,再驱动扬声器,以实现环绕立体音等特殊音效。
[0004] 在现有技术中,一般通过专业调音人员调整DSP参数,从而调整频响曲线,再结合主观声场、高低音表现等视听效果确认完成调音,并根据几种常规的调音效果确认对应的几组DSP参数,并预存至车载多媒体系统中,用户使用中根据自身需求选择对应的模式即可实现相应的音效,然而这种预设的调音效果成效固定,难以兼顾到具体用户对音效的喜好,实际效果有限。
具体实施方式
[0027] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0028] 需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0029] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0030] 基于现有技术中调音效果固定,难以兼顾到具体用户对音效的喜好,实际效果有限的问题,本发明提供一种多媒体控制方法,其基于播放指令中包含的播放信息的维度将播放指令分为可直接识别处理的第一类指令和不可直接识别处理的第二类指令,在播放指令为第二类指令时,执行训练引导程序,引导用户根据所述第二类指令再训练所述本地指令解析模型和所述本地调音模型,可增加本地指令解析模型和本地调音模型的适用范围,提高对具体用户的喜好智能化响应程度,从而可兼顾到具体用户对音效的喜好,提升多媒体播放效果,且将所述本地指令解析模型和所述本地调音模型的再训练数据上传至云端训练数据库;以及,根据所述再训练数据,结合相似度判断条件,从所述云端训练数据库中获得相似训练数据,并将所述相似训练数据加入所述本地指令解析模型和所述本地调音模型的本地训练数据库中,可降低再训练对用户干预的需求,从而提高再训练效率,提高多媒体智能调音的实现效果,提升用户体验。
[0031] 具体的,如图1所示,本实施例的多媒体控制方法包括:
[0032] 步骤S01:采集用户发出的播放指令,结合本地指令解析模型获得所述播放指令中包含的播放信息,并根据所述播放信息的维度判断所述播放指令的类型,所述播放信息的维度包括曲目、歌手和风格中的至少一种;
[0033] 步骤S02:在所述播放指令的播放信息维度满足预设的播放条件时,判断所述播放指令为第一类指令,并结合本地调音模型调控音频处理器的工作参数,以使播放音效与所述播放指令一致;
[0034] 步骤S03:在所述播放指令的播放信息维度不满足预设的识别条件,且维度不为零时,判断所述播放指令为第二类指令,并执行训练引导程序,以根据所述第二类指令再训练所述本地指令解析模型和所述本地调音模型,并将所述本地指令解析模型和所述本地调音模型的再训练数据上传至云端训练数据库;
[0035] 步骤S04:根据所述再训练数据,结合相似度判断条件,从所述云端训练数据库中获得相似训练数据,并将所述相似训练数据加入所述本地指令解析模型和所述本地调音模型的本地训练数据库中。
[0036] 其中,播放指令的播放信息维度按照曲目、歌手和风格三个维度分类,不同播放指令所包含的维度数量不同,在识别出的播放信息包含三个维度的信息时,对应播放指令为第一类指令,可准确确认播放目标;在识别出的播放信息仅包含部分维度的信息时,对应播放指令为第二类指令,则需要结合用户喜好,补全其他维度的播放信息,以根据维度完整的播放信息确认需要播放的曲目、曲目演出的歌手和播出音效,进而根据完整的需求确认音频处理器的工作参数,以使播放音效与播放指令一致。
[0037] 实际可根据具体需求增加维度数量,例如增加用户代号维度,可用于识别出不同的用户,以根据不同用户的喜好采用不同的播放导向和音频调控策略,例如对于相同曲目,不同用户所喜好的演出歌手和风格不同,通过对用户的识别,在播放指令解析出的播放信息仅包括曲目信息时,可根据具体用户自动匹配出其喜好的演出歌手和风格,提高多用户兼容体验。
[0038] 为补全其他维度的播放信息,同时考虑到信息补全的准确性和全面性,需要再训练本地指令解析模型和本地调音模型,采集实际用户的播放数据,并引导用户录入未被预收录的语音信息,以根据实际用户的播放数据、播放指令的音频信息,再训练本地指令解析模型和本地调音模型,以扩充本地指令解析模型和本地调音模型的适用范围,提高其智能化适配程度,进而提高智能化调音的用户体验。
[0039] 且在再训练中,还将云端的相似训练数据加入本地指令解析模型和本地调音模型的本地训练数据库中,可利用其他用户在先的相似训练数据对本地模型的训练进行正反馈,提高训练效率,从而可大大降低本地训练对本地训练资源的需求,为本地训练的实现提供便利。
[0040] 其中,还可以直接根据用户发出的训练指令执行再训练流程,以直接录入用户喜好数据。
[0041] 由于数据识别一般基于输入信息与预存的信息数据库进行比对来实现,为实现播放指令的识别,在本地调音模型中,预存有曲目、歌手和风格等信息,调音的实现需要输入信息维度完整,可以与预存的基本调音方式匹配,对应的,在本实施例中,播放条件包括:播放指令的各维度播放信息均处于本地调音模型的本地指令库中。
[0042] 例如播放指令被本地指令解析模型解析出来的播放信息包括曲目信息和歌手信息两个维度,且该曲目信息和歌手信息在本地调音模型的本地指令库中均存在,则可以根据该曲目信息和歌手信息从本地指令库中查询相关风格信息,以补全播放信息的维度信息,即可根据解析出的播放信息维度结合本地指令库中的预存信息对信息维度进行补全;在解析出的维度信息缺失,且无法通过本地指令库补全时,认定播放指令的各维度播放信息不处于本地调音模型的本地指令库中,则需要指引用户录入新信息,再训练本地模型。
[0043] 为进一步提升调音服务能力,在本实施例中,还包括:在所述播放指令的播放信息维度为零时,判断所述播放指令为第三类指令,并将所述第三类指令上传至人工服务端,以及,将所述人工服务端输出的识别逻辑和调音参数加入所述云端训练数据库中,以便在出现人工智能无法处理的服务需求时,将该服务需求传递至人工服务端,通过人工干预补全服务逻辑,以持续拓展调音服务的智能化处理能力。
[0044] 其中,还可以根据安全性原则和相关规范、法规等约束条件对接入的播放指令进行安全性审查,在播放指令被识别为不安全的非法指令时,同样将其判定为第三类指令,通过人工复查来审查该播放指令的智能判断是否准确,如果不准确,则需要优化判断识别逻辑,以更新本地指令解析模型等服务模型。
[0045] 为保障本地指令解析模型和本地调音模型的可靠性,在本实施例中,还包括:根据预设的迭代条件,获取云端基于所述云端训练数据库持续训练后发布的云端指令解析模型和云端调音模型,以根据所述云端指令解析模型和所述云端调音模型更新所述本地指令解析模型和所述本地调音模型。
[0046] 其中,迭代条件例如为云端发布的更新指令,云端还对训练的云端指令解析模型和云端调音模型进行评估、筛选,以在训练出的云端指令解析模型和云端调音模型的性能达到提升度要求时,提供更新指令,并发布更高效的云端指令解析模型和云端调音模型的更新,同时,对云端指令解析模型和云端调音模型进行评估、筛选,还可降低出现发布的更新包错误的风险。
[0047] 将所述相似训练数据加入本地训练数据库中的步骤包括:
[0048] 将所述相似训练数据中的数据样本与所述本地训练数据库中的数据样本做去重合并处理;
[0049] 根据所述相似训练数据中的数据样本的维度信息,补全所述第二类指令中播放信息的缺失维度,以获得至少一个维度补充播放信息,并将所述维度补充播放信息发送至人机交互选择端,以及,将所述人机交互选择端反馈的一个所述维度补充播放信息作为所述第二类指令的播放信息的数据样本。
[0050] 人机交互选择端例如为车载中控屏,交互方式可采用将获得的维度补充播放信息展示在车载中控屏的图形化视窗中,根据用户操作确认最终的维度补充播放信息,在展示的同时,还可预先选择的一种维度补充播放信息执行播放,以便用户可根据实际的播放效果选择最终的维度补充播放信息,提高选择对比度,进而提高再训练的指引操作便捷性。
[0051] 由于训练数据一般包括数据样本和模型参数等,在本实施例中,将所述相似训练数据加入本地训练数据库中的步骤还包括:
[0052] 将所述相似训练数据中的模型参数与所述本地指令解析模型和所述本地调音模型的模型参数平均化处理,以更新所述本地指令解析模型和所述本地调音模型的模型参数,从而可加快模型再训练速度。
[0053] 由于播放指令各不相同,不同用户的语速、指令信息的维度一般均为有所差异,在本实施例中,所述相似度判断条件包括:播放指令的信息长度相似度达到第一参考相似度,播放指令的各维度播放信息的相似度达到第二参考相似度。播放指令的信息长度主要指维度数量,例如播放指令包括曲目和歌手两个维度,但语速不同,则应当以实际解析出的信息维度作为相似度判断条件,对于相同曲目,不同用户的口音不同,还可根据维度信息对应的播放指令原始音频进行相似度检索,以拓展语音识别范围,提高识别效果。
[0054] 本发明还提供一种车载多媒体服务系统,如图2所示,在车端,其包括依次连接的多媒体播放器主机10、音频处理器20和扬声器30,以及智能调音模块40,其中,所述智能调音模块40用于采用上述多媒体控制方法调控所述音频处理器20的工作参数。智能调音模块40可采用星火大模型、混元AI大模型、文言一心大模型等AI模型实现本地指令解析模型、本地调音模型等的功能需求。
[0055] 该车载多媒体服务系统还包括云端服务平台200,用于根据所述云端训练数据库对云端指令解析模型和云端调音模型持续训练,并根据迭代条件向车端发布的所述云端指令解析模型和所述云端调音模型的更新。云端服务平台200的算力资源强大,还可用于模型训练的数据清理、模型自我学习优化等关键内容的训练,降低对本地模型训练的算力负担,保障车端系统的稳定运行,提升车辆安全性。
[0056] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0057] 以上所述实施例仅表达了本发明的几种具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。