技术领域
[0001] 本发明涉及信息处理技术领域,尤其涉及一种语音处理方法及装置。
相关背景技术
[0002] 目前,随着电子科技的发展,语音输入越来越被人们推崇,语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。很多应用中的语音输入还局限在语音输入语音输出,还不能很好的将语音输入转化为文字。由于在实际应用中,语音识别面对的环境十分复杂,需要处理各种不同领域的说话内容,识别性能很难达到百分之百,尤其是对于一些特殊领域,例如医疗领域、金融领域、通信领域等,存在很多专业术语在语音输入中出现的几率较低,电子设备将说话的内容转换为文本时也很难准确地将语音转换为专业术语。
具体实施方式
[0126] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0127] 图1为本发明实施例中一种语音处理方法的流程图。如图1所示,该语音处理方法用于终端中,其中,终端可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等任一具有语音处理功能的设备。该方法包括以下步骤S11-S14:
[0128] 步骤S11,录制语音。
[0129] 步骤S12,确定对语音进行转化的语言数据库。
[0130] 步骤S13,通过语言数据库将语音转化为文字。
[0131] 步骤S14,将文字填写到与语音相匹配的表格中。
[0132] 采用本发明实施例提供的技术方案,通过与录制的语音对应的语言数据库将语音转化为文字,并将文字填写到与语音相匹配的表格中,实现了准确地将语音转化为文字的目的,避免了语音内容因存在专业术语而无法准确转化的情况,同时能够自动将文字内容填写到表格中,使用户无需再手动填写,为用户带来极大的方便。
[0133] 上述方法中,对语音进行转化的语言数据库包括预设关键词所属领域的特定术语、预设关键词所属领域的文章、语义关联关系中的至少一种或多种。这样可以针对不同的领域配置不同的语言数据库。为不同领域或不同行业配置不同的语言数据库需要预先按照以下步骤实施:将预设关键词所属领域的特定术语添加到通用语言数据库中,获得与预设关键词相对应的语言数据库;建立预设关键词和语言数据库之间的对应关系。例如,对于医学系统,可将“感冒”、“皮肤过敏”、“发烧”、“阿司匹林”等医学系统中的特定术语添加到通用语言数据库中,从而建立医学系统的语言数据库;对于银行系统,可将“信用卡”、“存款”、“理财”等银行业务中的特定术语添加到通用语言数据库中,从而建立银行系统的语言数据库。该实施例中,通过建立预设关键词和语言数据库之间的对应关系,使得终端能够根据语音中包含的预设关键词准确地匹配出对语音进行转化的语言数据库,从而使语音转化更加准确和个性化。
[0134] 上述步骤S12可通过以下两种不同的方法来实施。
[0135] 一种是根据录制的语音中所包含的预设关键词来确定的语言数据库,如图2所示,步骤S12可以实施为以下步骤S21-S23:
[0136] 步骤S21,获取录制预设时间段的语音。
[0137] 步骤S22,判断预设时间段的语音是否包含预设关键词。该步骤中,可先通过通用语言数据库来将预设时间段的语音转化为文字,再判断预设时间段的语音转化成的文字中是否包含预设关键词。
[0138] 步骤S23,当预设时间段的语音包含预设关键词时,根据预设关键词和语言数据库之间的对应关系,确定与预设关键词相对应的语言数据库,作为对语音进行转化的语言数据库。
[0139] 例如,终端获取初始2分钟的语音,从这2分钟的语音中判断是否包含预设关键词,这里的预设关键词可以是具有代表性的某一行业或某一领域的词语,与预设关键词对应的语言数据库可以是为某一行业或某一领域预先配置的特定的语言数据库,其中不仅包括通用语言数据库中的数据,还包括预设关键词和与预设关键词相关的数据。以医学领域为例,如果终端获取到的初始2分钟的语音中包括预设关键词“皮肤过敏”,则可判定与预设关键词“皮肤过敏”相对应的语言数据库为医学领域的语言数据库,更进一步地,可以确定与预设关键词“皮肤过敏”相对应的语言数据库为皮肤科语言数据库。当初始2分钟的语音中不包含预设关键词时,可以再继续获取2分钟的语音,直至从中找出能够确定语言数据库的预设关键词为止。此外,也可以先获取语音的第一句话或前几句话,然后根据语音的第一句话或前几句话中包含的预设关键词来确定与预设关键词相对应的语言数据库。该实施例中,通过录制预设时间段的语音中所包含的预设关键词,来确定对语音进行转化的语言数据库,使得对语音进行转化时更加具有针对性和个性化,从而更加准确地将语音转化为文字。
[0140] 另一种是通过语音的语音特征来确定对语音进行转化的语言数据库的。如图3所示,步骤S12还可以实施为以下步骤S31-S33:
[0141] 步骤S31,识别语音的语音特征。
[0142] 步骤S32,根据语音特征,确定语音的发音来源。
[0143] 步骤S33,根据发音来源和语言数据库之间的对应关系,确定与语音的发音来源相对应的语言数据库,作为对语音进行转换的语言数据库。
[0144] 其中,发音来源为用户时,语音特征可以是用户的发音习惯,由于每个用户的发音习惯是不同的,因此也就具有不同的语音特征,采用这种方式执行步骤S12时,可以根据每一个用户的发音习惯,预先为每一个用户匹配对应的语言数据库。用户的发音习惯例如:用户的发音中所携带的地方口音、用户发音的语调、用户发音的快慢程度等。该实施例中,通过确定语音的发音来源,来确定对语音进行转化的语言数据库,使得对语音进行转化时更加具有针对性和个性化,从而更加准确地将语音转化为文字。
[0145] 在一个实施例中,如图4所示,步骤S13还可以实施为以下步骤S41-S43:
[0146] 步骤S41,确定语音的声音信息。
[0147] 步骤S42,从语言数据库中匹配出与声音信息对应的文字。
[0148] 步骤S43,将语音转化为与声音信息对应的文字。
[0149] 该实施例中,可以采用声学数据库和语言数据库来将语音转化为文字。通过声学数据库来确定语音的声音信息,再从语言数据库中匹配出与声音信息对应的文字,例如,声音信息为“α”,那么语言数据库中与声音信息“α”对应的文字有“啊”、“阿”等。具体为声音信息“α”匹配出哪一个确定的文字,则可根据步骤S12中确定出的特定的语言数据库来确定。该实施例中,通过匹配语音的声音信息对应的文字,进而将语音转化为声音信息对应的文字,使得录制的语音能够通过声学数据库和语言数据库进行准确匹配,从而准确地将语音转化为文字。
[0150] 在一个实施例中,上述方法还包括以下步骤:根据每个发音来源的语音特征,建立每个发音来源的声音数据库。当发音来源为用户时,每个用户则对应有各自的声音数据库。因此,如图5所示,上述步骤S41可以实施为以下步骤S51-S53:
[0151] 步骤S51,确定语音的发音来源。
[0152] 步骤S52,根据每个发音来源的声音数据库,为语音匹配声音数据库。
[0153] 步骤S53,根据匹配的声音数据库确定语音的声音信息。
[0154] 该实施例中,通过匹配出语音的声音数据库来确定语音的声音信息,进而使终端能够从语言数据库中匹配出声音信息对应的文字,最终实现将语音转化为文字的目的。
[0155] 在一个实施例中,如图6所示,上述步骤S42可以实施为以下步骤S61-S63:
[0156] 步骤S61,从语言数据库中查找与声音信息相对应的文字。
[0157] 步骤S62,当与声音信息相对应的文字为单一的字时,根据特定术语和/或语义关联关系,为单一的字匹配词语和/或句子。
[0158] 步骤S63,将与单一的字相匹配的词语和/或句子确定为与声音信息对应的文字。
[0159] 例如,终端确定的对语音进行转化的语言数据库为医学语言数据库,终端从语音数据库中查找与声音信息“α”相对应的文字时,仅匹配出一个单一的字“阿”,那么根据医学语言数据库中的特定术语及上下文的语义关联关系,可以为单一的字“阿”匹配出“阿司匹林”,而如果用通用语言数据库进行匹配时,很可能只能为声音信息“α”匹配出感叹词“啊”,可见,终端首先确定出对语音进行转化的语言数据库,进而采用确定出的语言数据库将语音转化为文字,使语音转化更加具有针对性,更加准确。
[0160] 在一个实施例中,上述方法还包括以下步骤:按照预设比例,提高特定术语以及与特定术语之间符合语义关联关系的元素在语言数据库中的权重,其中,元素包括字、词、文章中的一种或多种。此时,上述步骤S42可以实施为以下步骤:按照语言数据库中各元素的权重,从语言数据库中匹配出与声音信息对应的文字。为使特定领域的语音转化为文字更加准确,通常可设置较高的预设比例,例如1.5倍。例如,对于医学领域,可将医学领域中的特定术语“感冒”、“皮肤过敏”、“发烧”、“阿司匹林”等特定术语以及和这些特定术语相关(也就是和特定术语之间符合语义关联关系)的字、词或文章在语言数据库中的权重提高1.5倍,那么终端从语言数据库中匹配与声音信息对应的文字时,即可根据各元素在语言数据库中的权重的高低来进行匹配,从而使一些特定的专业术语或者词语、文章等能够匹配处理,使语音转化更加准确和具有针对性。
[0161] 针对步骤S14的不同实施方式,本发明提供的语音处理方法的实施方式有所不同。如图7所示,当终端根据录制预设时间段的语音中包含的预设关键词来确定对语音进行转化的语言数据库时,上述方法可实施为以下步骤S71-S77:
[0162] 步骤S71,录制语音。
[0163] 步骤S72,获取录制预设时间段的语音。
[0164] 步骤S73,判断预设时间段的语音是否包含预设关键词。
[0165] 步骤S74,当预设时间段的语音包含预设关键词时,根据预设关键词和语言数据库之间的对应关系,确定与预设关键词相对应的语言数据库,作为对语音进行转化的语言数据库。
[0166] 步骤S75,通过对语音进行转化的语言数据库将语音转化为文字。
[0167] 步骤S76,根据预设关键词和表格之间的对应关系,确定与预设关键词相对应的表格。
[0168] 步骤S77,将文字填写到与预设关键词相对应的表格中。
[0169] 其中,步骤S76-S77为步骤S14的一种实施方式。例如,预设关键词包括“感冒”、“皮肤过敏”、“发烧”、“阿司匹林”等医学领域中的特定术语,那么与预设关键词相对应的表格可以是病例表格,也可以细化到医学中的外科表格、内科表格、皮肤科表格等。预设关键词包括“信用卡”、“存款”、“理财”等银行业务中的特定术语,那么与预设关键词相对应的表格可以是办理相应银行业务时所填写的表格。这样,终端可以自动将文字填写到表格中,而无需用户手动填写。
[0170] 如图8所示,当终端根据语音的语音特征来确定对语音进行转化的语言数据库时,上述方法可实施为以下步骤S81-S87:
[0171] 步骤S81,录制语音。
[0172] 步骤S82,识别语音的语音特征。
[0173] 步骤S83,根据语音特征,确定语音的发音来源。
[0174] 步骤S84,根据发音来源和语言数据库之间的对应关系,确定与语音的发音来源相对应的语言数据库,作为对语音进行转换的语言数据库。
[0175] 步骤S85,通过语言数据库将语音转化为文字。
[0176] 步骤S86,根据发音来源和表格之间的对应关系,确定与发音来源相对应的表格。
[0177] 步骤S87,将文字填写到与发音来源相对应的表格中。
[0178] 其中,步骤S86-S87为步骤S14的另一种实施方式。例如,发音来源为医院中的外科医生时,与发音来源相对应的表格则为外科病例表格;发音来源为医院中的皮肤科医生时,与发音来源相对应的表格则为皮肤科病例表格;发音来源为银行中的业务员时,与发音来源相对应的表格则为银行办理业务的表格。这样,终端可以自动将文字填写到表格中,而无需用户手动填写。
[0179] 在一个实施例中,表格中包括多个栏目,每个栏目与至少一个关键词对应,因此,步骤S14可以实施为以下步骤:根据栏目对应的关键词,确定文字中与栏目对应的文字内容;将与栏目对应的文字内容填写到栏目中。例如,对于医学中病例表格,包括症状、过往病史、用药、过敏史等栏目,终端可根据每个栏目的关键词来确定出与每个栏目对应的文字内容,进而将文字内容填写至相应的栏目中。
[0180] 本发明实施例提供的上述方法可用于不同的领域或行业中,例如医学领域、金融领域、通信领域等。以下从医学领域出发举例说明本发明实施例提供的一种语音处理方法。如图9所示,包括以下步骤S91-S99:
[0181] 步骤S91,将不同科室的特定术语作为预设关键词,添加到通用语言数据库中。该步骤中,还可以将与特定术语相关的文章添加到通用语言数据库中。
[0182] 步骤S92,建立不同科室所对应的语言数据库。
[0183] 步骤S93,录制医生说话时的语音。
[0184] 步骤S94,获取录制的预设时间段的语音。
[0185] 步骤S95,从预设时间段的语音中获取具有代表性的预设关键词。
[0186] 步骤S96,确定预设关键词所属科室,并确定与该科室相对应的语言数据库。
[0187] 步骤S97,根据与该科室相对应的语言数据库将录制的语音转化为文字。
[0188] 步骤S98,确定并获取该科室对应的表格。例如,如果是内科,则获取内科病例表格;如果是呼吸科,则获取呼吸科病例表格。
[0189] 步骤S99,将转化成的文字填写到该科室对应的表格中。
[0190] 此外,还可以为每一个医生配置一个声音数据库,声音数据库中包括医生的发音特征,这样,终端可以根据医生的发音特征确定出医生的声音数据库,进而根据声音数据库确定出该医生对应的语言数据库。其中,由于同一个科室中可能有多个医生,因此,多个声音数据库可对应同一个语言数据库。还可以在终端中安装的客户端上预先分好类别,每一个类别都对应有各自的语言数据库,以及对应有各自的表格。用户先手动选择进入某一类别,再在该类别下进行录制语音,并采用该类别下的语言数据库对语音进行转化,最后将转化后的文字内容填写到该类别对应的表格中。由该实施例可见,医生在对病人问诊时,无需再手动填写病例表格,终端会通过录音以及采用特定的语言数据库将语音转化成文字,从而自动填写病例表格,为医生节省了大量时间。
[0191] 对应于上述的一种语音处理方法,本发明实施例还提供一种语音处理装置,如图10所示,包括:
[0192] 录制模块101,用于录制语音;
[0193] 确定模块102,用于确定对语音进行转化的语言数据库;
[0194] 转化模块103,用于通过语言数据库将语音转化为文字;
[0195] 填写模块104,用于将文字填写到与语音相匹配的表格中。
[0196] 在一个实施例中,如图11所示,确定模块102包括:
[0197] 获取子模块1021,用于获取录制预设时间段的语音;
[0198] 判断子模块1022,用于判断预设时间段的语音是否包含预设关键词;
[0199] 第一确定子模块1023,用于当预设时间段的语音包含预设关键词时,根据预设关键词和语言数据库之间的对应关系,确定与预设关键词相对应的语言数据库,作为对语音进行转化的语言数据库。
[0200] 在一个实施例中,如图12所示,确定模块102包括:
[0201] 识别子模块1024,用于识别语音的语音特征;
[0202] 第二确定子模块1025,用于根据语音特征,确定语音的发音来源;
[0203] 第三确定子模块1026,用于根据发音来源和语言数据库之间的对应关系,确定与语音的发音来源相对应的语言数据库,作为对语音进行转换的语言数据库。
[0204] 在一个实施例中,如图13所示,转化模块103包括:
[0205] 第四确定子模块1031,用于确定语音的声音信息;
[0206] 第一匹配子模块1032,用于从语言数据库中匹配出与声音信息对应的文字;
[0207] 转化子模块1033,用于将语音转化为与声音信息对应的文字。
[0208] 在一个实施例中,上述装置还包括:第一建立模块,用于根据每个发音来源的语音特征,建立每个发音来源的声音数据库。
[0209] 在一个实施例中,如图14所示,确定模块102包括:
[0210] 第五确定子模块1027,用于确定语音的发音来源;
[0211] 第二匹配子模块1028,用于根据每个发音来源的声音数据库,为语音匹配声音数据库;
[0212] 第六确定子模块1029,用于根据匹配的声音数据库确定语音的声音信息。
[0213] 在一个实施例中,如图15所示,第一匹配子模块1032包括:
[0214] 查找单元10321,用于从语言数据库中查找与声音信息相对应的文字;
[0215] 第一匹配单元10322,用于当与声音信息相对应的文字为单一的字时,根据语言数据库中的特定术语和/或语义关联关系,为单一的字匹配词语和/或句子;
[0216] 确定单元10323,用于将与单一的字相匹配的词语和/或句子确定为与声音信息对应的文字。
[0217] 在一个实施例中,上述装置还包括:提高模块,用于按照预设比例,提高特定术语以及与特定术语之间符合语义关联关系的元素在语言数据库中的权重,元素包括字、词和/或文章;
[0218] 第一匹配子模块1032包括:第二匹配单元,用于按照语言数据库中各元素的权重,从语言数据库中匹配出与声音信息对应的文字。
[0219] 在一个实施例中,如图16所示,上述装置还包括:
[0220] 添加模块105,用于录制语音之前,将预设关键词所属领域的特定术语添加到通用语言数据库中,获得与预设关键词相对应的语言数据库;
[0221] 第二建立模块106,用于建立预设关键词和语言数据库之间的对应关系。
[0222] 在一个实施例中,如图17所示,填写模块104包括:
[0223] 第七确定子模块1041,用于根据预设关键词和表格之间的对应关系,确定与预设关键词相对应的表格;
[0224] 第一填写子模块1042,用于将文字填写到与预设关键词相对应的表格中.[0225] 在一个实施例中,如图18所示,填写模块104包括:
[0226] 第八确定子模块1043,用于根据发音来源和表格之间的对应关系,确定与发音来源相对应的表格;
[0227] 第二填写子模块1044,用于将文字填写到与发音来源相对应的表格中。
[0228] 在一个实施例中,如图19所示,填写模块104包括:
[0229] 第九确定子模块1045,用于根据表格中的栏目对应的关键词,确定文字中与栏目对应的文字内容,表格中包括至少一个栏目,每个栏目与至少一个关键词对应;
[0230] 第三填写子模块1046,用于将与栏目对应的文字内容填写到栏目中。
[0231] 采用本发明实施例提供的装置,通过与录制的语音对应的语言数据库将语音转化为文字,并将文字填写到与语音相匹配的表格中,实现了准确地将语音转化为文字的目的,避免了语音内容因存在专业术语而无法准确转化的情况,同时能够自动将文字内容填写到表格中,使用户无需再手动填写,为用户带来极大的方便。
[0232] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0233] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0234] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0235] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0236] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。