首页 / 音节划分方法和音节划分设备

音节划分方法和音节划分设备失效专利 发明

技术领域

[0001] 本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种适合音译的多音节语言单词的音节划分方法和音节划分设备。

相关背景技术

[0002] 在使用不同语言的人们进行交流的过程中,存在将源语言翻译为目标语言的需要。随着社会和科技的发展,各种语言中都产生了越来越多的新词汇。这些新词汇往往由于其代表的内容,如科技词汇的新颖性和先进性,或社会现象词汇的流行性等因素,而在产生后的短期内由使用与新词汇所属语言不同的语言的人们使用。
[0003] 一般而言,人们在使用这样的新词汇时往往采用音译,或者直接使用新词汇本身,即使用新词汇所属的语言的发音来诵读新词汇。
[0004] 另外,由于历史的原因,有些已有词汇的正规译文,也是其音译译文。此外,人名、地名等单词,也通常采用音译。
[0005] 对于多音节语言的单词,无论是音译还是按原文诵读,都存在如何按音节划分单词的问题。例如,英文单词“Dray”是读作(译作)“缀”还是“德瑞”,或是“德拉伊”。
[0006] 多音节语言是指该语言中的一个基本单元(如英文单词)中存在多个音节。多音节语言的示例包括英语、法语、俄语、西班牙语、拉丁语等。单音节语言是指该语言中的一个基本单元(如中文的字)中仅存在一个音节。单音节语言的示例包括中文、日语等。
[0007] 对于多音节语言的单词来说,音节的正确划分有利于人们正确地拼写、背诵、读、音译该单词。
[0008] 传统的音节划分方法多基于规则来划分多音节语言单词。由于规则的适用性和覆盖面有限、规则与规则之间可能存在矛盾等原因,传统方法的正确率不高。
[0009] 因此,期望能够以较高的正确率将适合音译的多音节语言单词按音节进行划分。

具体实施方式

[0023] 在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0024] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
[0025] 本发明的基本思想是利用经训练过程得到的已知音节表和双语资源来按音节划分适合音译的多音节语言单词。在这个过程中,利用训练语料得到已知音节表,已知音节表给出了多音节语言的已知音节及其特征概率。已知音节示出了多音节语言的音节形式,可以用来推测多音节语言单词的可能划分方式。特征概率从音节在单词中的位置和音节前后音节等方面体现了多音节语言的语言特点,可以用来评价多音节语言单词的可能划分方式的置信度。与多音节语言单词对应的单音节语言译文,能够从双语角度帮助评价多音节语言单词的可能划分方式的置信度。基于从上述两种途径获得的置信度,可以选择最可能的音节划分方式作为音节划分结果。
[0026] 本发明的方法假设的前提是已经获得多音节语言的已知音节表,并且具有待划分音节的多音节语言单词对应的单音节语言单词。
[0027] 显然,对于每种多音节语言,存在一个已知音节表。多音节语言的已知音节表可通过下面详述的训练过程获得。多音节语言的已知音节表包含已知音节及其特征概率。
[0028] 已知音节是指预先得到的多音节语言中已知的音节形式。由于多音节语言中的音节形式是有限种的,所以可以通过训练等手段预先获取。训练语料库越大,越全面,所得到的已知音节就越多,越全面。
[0029] 已知音节的特征概率包括:位置概率和相邻概率。
[0030] 已知音节的位置概率反映了音节在单词中的位置的可能性,其包括:音节位于单词的首部的概率、音节位于单词的尾部的概率、音节位于单词的首部和尾部之间的中部的概率。这样的位置信息遵循多音节语言中已知音节的语言规律,能够通过统计得到,可以用于评价多音节语言单词的可能划分方式的置信度。
[0031] 已知音节的相邻概率反映了相邻音节的置信度,其包括:音节在其它音节紧前的概率、音节在其它音节紧后的概率。相邻概率从音节的上下文角度给出音节与前后音节组合的可能性,能够通过统计得到,可以用于评价多音节语言单词的可能划分方式的置信度。这里的相邻概率可以是二元的,也即其它音节可以是一个音节。当然,视计算量的大小和系统的要求,也可以选用三元的相邻概率,即其它音节为两个音节。
[0032] 下面将参照图1描述根据本发明的实施例的已知音节表的获取方法的流程。
[0033] 图1示出了根据本发明的实施例的已知音节表获取方法的流程图。
[0034] 如图1所示,根据本发明的已知音节表获取方法包括如下步骤:获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式(步骤S1);根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节(步骤S2);以及根据划分结果,通过统计来计算所述已知音节的特征概率(步骤S3)。
[0035] 在步骤S1中,获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式。
[0036] 步骤S1实际上是训练语料获取步骤。
[0037] 首先,获得彼此对应的多音节语言单词和单音节语言音译文。
[0038] 在一种可能的情形中,现有语料中同时包括多音节语言单词及对应单音节语言音译文。
[0039] 在另一种可能的情形中,现有语料中仅包括多音节语言单词。此时,可从因特网、音译词典、机器音译装置等途径获得与多音节语言单词对应单音节语言音译文。
[0040] 多音节语言单词是多音节语言字母串形式的。为便于后续处理,还需将单音节语言音译文转换为对应的读音形式,读音形式中包含多个读音音节。以中文为例,就是需要将汉字转换为拼音形式。
[0041] 注意,这里转换得到的拼音形式包含有汉字的分隔信息。也就是说,作为英文单词“Elizabeth”的音译文的中文词“伊莉莎白”包含有该词分为“伊”、“莉”、“莎”、“白”四个汉字的分隔信息。中文作为单音节语言,一个字对应一个音节,因此可以利用中文作为参考语言,帮助划分英文单词的音节。故而,将中文词“伊莉莎白”转换为拼音形式“yi li shabai”时,每个拼音音节(即读音音节)是彼此分开的。
[0042] 这里,为了将单音节语言音译文转换为对应的读音形式,可以采用如下的方法:对于单音节语言音译文中的单音字,根据单音字-读音映射表,将其转换为对应的读音字母;对于单音节语言音译文中的多音字,根据多音字-读音映射表,枚举多音字对应的多个候选读音字母,以得到单音节语言音译文的多个候选读音形式,以及将所述多个候选读音形式中与对应的多音节语言字母串的相似度最大的候选读音形式,作为与单音节语言音译文对应的读音形式。
[0043] 单音节语言音译文中的单音字的情况比较简单,例如,汉字“周”,可根据汉字-拼音映射表,直接转换为“zhou”。
[0044] 单音节语言音译文中的多音字由于存在一对多的问题,需要进行筛选。
[0045] 为便于说明,假设单音节语言音译文中仅存在一个多音字。
[0046] 例如,英文单词“babulenka”所对应的中文音译文为“巴布伦卡”。其中,汉字“巴”、“布”、“伦”均为单音字,而“卡”为多音字,其拼音可能是“ka”,也可能是“qia”。
[0047] 可以先根据多音字-读音映射表,从“卡”确定“ka”和“qia”两种候选读音字母。然后,得到中文音译文“巴布伦卡”的多个候选读音形式“ba bu lun ka”和“ba bu lun qia”。最后,借助于英文单词“babulenka”来判断到底是“ba bu lun ka”还是“ba bu lun qia”。
[0048] 例如,可以比较多个候选读音形式与对应的多音节语言字母串的相似度,将相似度最大的候选读音形式确定为与单音节语言音译文对应的读音形式。
[0049] 相似度的计算,可借助于最短编辑距离。最短编辑距离越小,相似度越高。最短编辑距离是指从一个字符串变为另一个字符串,最少需要几步字符删除/字符增加操作。
[0050] 举例来说,从两种候选读音形式“ba bu lun ka”和“ba bu lun qia”,通过字符删除/字符增加操作,变为英文单词“babulenka”,分别需要1步和3步。显然,读音形式“ba bu lun ka”与英文单词“babulenka”的最短编辑距离更小,相似度更高。因此,中文音译文“巴布伦卡”应转换为读音形式“ba bu lun ka”。
[0051] 对于单音节语言音译文中存在多个多音字的情况,只是候选读音形式的种类更多一些,也是将候选读音形式与对应的多音节语言字母串比较而得到相似度,如基于最短编辑距离的相似度,并基于所得到的相似度确定最可能的读音形式。
[0052] 当然,此处的相似度计算,也可采用字符串相似度等其它适当的计算方式。
[0053] 在步骤S2中,根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节。
[0054] 前文提到,读音形式包括与单音节语言音译文中的多个单音节语言字对应的多个读音音节,并且多个读音音节彼此分开。因此,读音音节之间的间隔体现了音节的划分方向。
[0055] 在一种实施方式中,可以确定与多个读音音节对应的多音节语言字母,并将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将多音节语言字母串按音节划分。
[0056] 举例来说,确定读音形式“ba bu lun ka”中的读音音节“ba”、“bu”、“lun”、“ka”对应的“babulenka”中的字母为“ba”、“bu”、“len”、“ka”。这样就可以将英文单词“babulenka”按音节划分为“ba bu len ka”。
[0057] 此处的确定方法例如可以是:首先,由人工对少量多音节语言字母串以及对应的读音形式进行上述确定步骤(即确定与多个读音音节对应的多音节语言字母),以得到训练语料。然后,利用训练语料来训练能够执行上述确定步骤的对齐器。最后,利用训练好的对齐器,对余下的多音节语言字母串以及对应的读音形式进行上述确定步骤。
[0058] 当然,此处也可以利用现有的对齐工具,如GIZA++。
[0059] 此处的实施方式基于读音音节整体,计算量较大,需要训练好的对齐器。考虑到中文的读音音节,即拼音音节的特点,也可以采用如下的实施方式。
[0060] 在另一种实施方式中,首先,识别所述读音形式中的声母和独立韵母。然后,确定与所识别的声母和独立韵母的首个音素对应的多音节语言字母。最后,将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分。
[0061] 这是因为拼音音节的开头字母或开头字母串要么是声母,要么是独立韵母,要么是整体认读。也就是说,拼音音节的首字母是声母、独立韵母或者整体认读的首字母。由于整体认读的开头部分与声母一致,因此,可合并入声母统一处理。当然,也可将声母、独立韵母、整体认读三个单独处理。
[0062] 这样,就可以不基于整个拼音音节,而是基于拼音音节的开头字母或字母串,即声母(含整体认读)或独立韵母,来进行对齐。这就减少了计算量。
[0063] 识别所述读音形式中的声母和独立韵母,可以借助于声母表(可包含整体认读表)、独立韵母表实现。
[0064] 确定与所识别的声母和独立韵母的首个音素对应的多音节语言字母,可以基于与声母、独立韵母相关的预定规则实现,这就避免了需要训练和使用对齐器。
[0065] 具体的规则可以由本领域技术人员根据经验和语言学知识做出。例如汉语拼音的声母“b”和英文字母“b”对齐等。
[0066] 这一借助于声母和独立韵母以及规则的实施方式,可以提高音节划分的准确性、提高处理速度、减轻系统负担并避免使用人工。
[0067] 通过上述步骤S2,可以得到已知音节。
[0068] 在步骤S3中,根据划分结果,通过统计来计算所述已知音节的特征概率。
[0069] 如上所述,已知音节的特征概率包括:反映音节在单词中的位置的可能性的位置概率、和/或反映相邻音节的置信度的相邻概率。其中位置概率包括:音节位于单词的首部的概率、音节位于单词的尾部的概率、音节位于单词的首部和尾部之间的中部的概率。相邻概率包括:音节在其它音节紧前的概率、音节在其它音节紧后的概率。
[0070] 这些概率都可以通过统计的方法,从训练语料中得到。
[0071] 举例来说,音节位于单词的首部的概率等于音节位于单词的首部的次数除以该音节出现的总次数。音节在其它音节紧前的概率=音节在其它音节紧前的次数除以该音节出现的总次数。
[0072] 经过上述步骤S1-S3,从训练语料获得了体现多音节语言中音节及其特征的已知音节表。
[0073] 下面,就可以借助于已知音节表和双语信息来划分适合音译的多音节语言单词的音节。
[0074] 下面将参照图2描述根据本发明的实施例的音节划分方法的流程。
[0075] 图2示出了根据本发明的实施例的音节划分方法的流程图。如图2所示,根据本发明的音节划分方法,用于按音节划分适合音译的多音节语言单词,其包括如下步骤:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率(步骤S21);根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分(步骤S22);以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果(步骤S23)。
[0076] 下面,将详细描述图2中示例的方法的各个步骤。
[0077] 在步骤S21中,对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率。
[0078] 上文提到多音节语言的已知音节表中记录有已知音节及其特征概率,这些信息体现了多音节语言的语言特点。因此,可通过在给定的多音节语言单词中找寻已知音节,来猜测多音节语言单词的可能的音节划分方式。
[0079] 下面将参照图3说明具体的实现方式。
[0080] 图3示出了根据本发明的实施例的可能音节划分方式的枚举方法的流程图。如图3所示,根据本发明的音节划分方式枚举方法,包括:将构成多音节语言单词的单个字母或字母串与已知音节表中的已知音节进行匹配(步骤S31);将与所述已知音节匹配上的单个字母或字母串,划分为一个音节(步骤S32);将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节(步骤S33);所有互不矛盾的划分结果的组合构成所述可能的音节划分方式(步骤S34)。
[0081] 在步骤S31中,将构成多音节语言单词的单个字母或字母串与已知音节表中的已知音节进行匹配。
[0082] 已知音节表明了对于多音节语言而言,音节可能出现的形式。因此,如果构成多音节语言单词的单个字母或字母串与已知音节表中的已知音节一致,则可能应该将这个单个字母或字母串作为一个音节划分出来。
[0083] 在步骤S32中,将与已知音节匹配上的单个字母或字母串,划分为一个音节。
[0084] 显然,同一个字母可能由于不同的分割方式而组成不同的音节。如该字母本身是一个已知音节,该字母与其前面的一个字母组成一个已知音节,该字母与其后面的两个字母组成一个已知音节等等。这些符合已知音节表的划分方式都要保留下来。
[0085] 在步骤S34中,所有互不矛盾的划分结果的组合构成所有可能的音节划分方式。
[0086] 在理想情况下,某些组合(例如,正确的划分方式)中,多音节语言单词的所有字母都被划分到一个已知音节中,各个已知音节彼此不交迭并且前后相邻,并无多余字母。
[0087] 当然,经过步骤S31和S32之后,在某些组合中,可能有的字母既不作为单个字母与已知音节匹配上,又不与前后的字母组合成已知音节。
[0088] 并且,由于已知音节表依赖于训练语料生成,存在一定的局限性。如果语料覆盖面不广,可能导致已知音节表中的已知音节种类不全面,有些音节无法被识别出来。
[0089] 对于这些情况,可以在步骤S33中,将不能与任何已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节。
[0090] 这样,步骤S34中的每个组合都由若干个首尾相连的、连续的、彼此不交迭的音节构成。
[0091] 下面,需要对这些组合进行评价,以判断何种音节划分方式最有可能是正确的音节划分方式。
[0092] 在步骤S22中,根据已知音节的特征概率和与多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分。
[0093] 也就是说,从已知音节表中蕴含的语言知识和对应单音节语言译文的双语参考信息,给出对于每种音节划分方式的评价。
[0094] 图4示出了根据本发明的实施例的音节划分方式总得分计算方法的流程图。如图4所示,根据本发明的音节划分方式总得分计算方法,包括:根据已知音节的特征概率,计算每种音节划分方式的概率得分(步骤S41);根据对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分(步骤S42);根据所述概率得分和所述双语得分,计算每种音节划分方式的总得分(步骤S43)。
[0095] 在步骤S41中,从已获得的语言知识角度给出评价。即,根据已知音节的特征概率,计算每种音节划分方式的概率得分。
[0096] 具体地,根据每种音节划分方式中的各个音节的位置概率和/或相邻概率,计算每种音节划分方式的概率得分。
[0097] 一方面,每种音节划分方式中各个音节已经固定,并且可以获知其位置和其前后相邻的音节信息。另一方面,已知音节表中,还包含有已知音节的统计信息,即特征概率,包括位置概率和相邻概率。因此,可以针对每种音节划分方式,计算其音节构成的组合所对应的联合概率,即概率得分。
[0098] 举例来说,一种音节划分方式为e1e2e3e4,则概率得分可以为:P(e1,首)*P(e2,中)*P(e3,中)*P(e4,尾)+P(e2|e1)*P(e3|e2)*P(e4|e3)。
[0099] P(e1,首)为音节e1位于单词的首部的概率,P(e2,中)、P(e3,中)分别为音节e2、e3位于单词的中部的概率,P(e4,尾)为音节e4位于单词的尾部的概率。P(e2|e1)为音节e2出现在音节e1紧后的概率。P(e3|e2)、P(e4|e3)类似。
[0100] 上文提到,可能多音节语言单词中的有些字母未能与已知音节表中的任何已知音节匹配上。对于这种字母,已经将其按单个字母看作一个非已知音节。在步骤S41的计算中,可以将非已知音节的特征概率设置为默认的小的数值或已知音节表中同类特征概率中的最小值。
[0101] 在步骤S42中,从对应单音节语言译文的双语参考信息角度给出评价。即,根据对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分。
[0102] 由于每种音节划分方式与对应的单音节语言单词的读音形式都以字母形式出现,可以从字母个数和最短编辑距离两个角度来评估彼此的相似性。显然,相似程度越高,双语得分越高。
[0103] 可以计算个数相似度、距离相似度,并基于两种相似度计算双语得分。当然,也可直接将某一种相似度作为双语得分,
[0104] 个数相似度是对应的单音节语言单词的读音形式与每种音节划分方式在字母个数上的相似度。
[0105] 例如,个数相似度可以等于对应的单音节语言单词的读音形式与每种音节划分方式的字母个数的差的绝对值。
[0106] 距离相似度是对应的单音节语言单词的读音形式与每种音节划分方式在最短编辑距离上的相似度。
[0107] 例如,距离相似度可以等于每种音节划分方式中的各个音节与对应的单音节语言单词的读音形式中的各个音节之间的相似度(如最短编辑距离)的总和。也就是说,可以逐个对应音节计算最短编辑距离,并计算最短编辑距离的总和,作为距离相似度。在上面的示例中,英文单词“babulenka”按音节划分为“ba bu len ka”,中文译文的拼音形式为“ba bu lun ka”。分别计算“ba”与“ba”的最短编辑距离、“bu”与“bu”的最短编辑距离、“lun”与“len”的最短编辑距离、“ka”与“ka”的最短编辑距离,并计算上述4个最短编辑距离的总和。
[0108] 其中,针对候选音节划分方式中的音节个数与对应的单音节语言单词的读音形式的音节个数不同的情况,在计算相似度的总和之前,通过在音节个数较小的音节划分方式或读音形式的末端填充预定符号,使得候选音节划分方式中的音节个数与对应的单音节语言单词的读音形式的音节个数相同。少几个音节,就填充几个预定符号。预定符号显然不能与多音节语言和单音节语言读音形式中的字母相同。
[0109] 在步骤S43中,综合前述两种评价方式的结果,给出总的评价,即根据概率得分和双语得分,计算每种音节划分方式的总得分。
[0110] 可以将概率得分和双语得分线性组合,来计算每种音节划分方式的总得分。线性组合的组合系数,可以根据经验指定。
[0111] 经过上述步骤S41-S43,可以获得每种音节划分方式的总得分。
[0112] 在步骤S23中,选择总得分最高的音节划分方式,作为多音节语言单词的音节划分结果。
[0113] 至此,根据已知音节表和对应的单音节语言译文,得到了多音节语言单词的最有可能的音节划分方式。
[0114] 下面,将参照图5描述根据本发明实施例的音节划分设备。
[0115] 图5示出了根据本发明实施例的音节划分设备的结构方框图。如图5所示,根据本发明的音节划分设备500包括:音节划分枚举装置51,被配置为:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;总得分计算装置52,被配置为:根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及结果确定装置53,被配置为:选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
[0116] 在一个实施例中,音节划分枚举装置51被进一步配置为:将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配;将与所述已知音节匹配上的单个字母或字母串,划分为一个音节;将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节;所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。
[0117] 在一个实施例中,所述已知音节的特征概率包括:反映音节在单词中的位置的可能性的位置概率、和/或反映相邻音节的置信度的相邻概率。
[0118] 在一个实施例中,所述位置概率包括:音节位于单词的首部的概率、音节位于单词的尾部的概率、音节位于单词的首部和尾部之间的中部的概率;所述相邻概率包括:音节在其它音节紧前的概率、音节在其它音节紧后的概率。
[0119] 在一个实施例中,总得分计算装置52包括:概率得分计算单元,被配置为:根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;双语得分计算单元,被配置为:根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;总得分计算单元,被配置为:根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分。
[0120] 在一个实施例中,概率得分计算单元被进一步配置为:根据每种音节划分方式中的各个音节的位置概率和/或相邻概率,计算每种音节划分方式的概率得分。
[0121] 在一个实施例中,概率得分计算单元被进一步配置为:对于每种音节划分方式中的非已知音节,将其特征概率设置为默认的小的数值或已知音节表中同类特征概率中的最小值。
[0122] 在一个实施例中,双语得分计算单元被进一步配置为:根据所述对应的单音节语言单词的读音形式与每种音节划分方式的个数相似度和/或距离相似度,计算所述双语得分,所述个数相似度是所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度,所述距离相似度是所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度。
[0123] 在一个实施例中,双语得分计算单元被进一步配置为:计算每种音节划分方式中的各个音节与所述对应的单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和,作为所述距离相似度。
[0124] 在一个实施例中,双语得分计算单元被进一步配置为:针对所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数不同的情况,在计算相似度的总和之前,通过在音节个数较小的所述音节划分方式或所述读音形式的末端填充预定符号,使得所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数相同。
[0125] 在一个实施例中,音节划分设备500,还包括音节表获取装置,其被配置为得到所述已知音节表,所述音节表获取装置包括:第一获得单元,被配置为:获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式;第二获得单元,被配置为:根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节;概率计算单元,被配置为:根据划分结果,通过统计来计算所述已知音节的特征概率。
[0126] 在一个实施例中,第一获得单元包括:获得子单元,被配置为:从因特网、音译词典、机器音译装置、现有语料中的至少一个,找到所述单音节语言音译文;转换子单元,被配置为:将所述单音节语言音译文转换为对应的读音形式。
[0127] 在一个实施例中,转换子单元被进一步配置为:对于单音节语言音译文中的单音字,根据单音字-读音映射表,将其转换为对应的读音字母;对于单音节语言音译文中的多音字,根据多音字-读音映射表,枚举多音字对应的多个候选读音字母,以得到单音节语言音译文的多个候选读音形式;将所述多个候选读音形式中与对应的多音节语言字母串的相似度最大的候选读音形式,作为与单音节语言音译文对应的读音形式。
[0128] 在一个实施例中,候选读音形式与对应的多音节语言字母串的最短编辑距离越小,两者的相似度越大。
[0129] 在一个实施例中,读音形式包括与所述单音节语言音译文中的多个单音节语言字对应的多个读音音节;并且其中所述第二获得单元被进一步配置为:确定与所述多个读音音节对应的多音节语言字母;将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分。
[0130] 在一个实施例中,第二获得单元被进一步配置为:识别所述读音形式中的声母和独立韵母;确定与所识别的声母和独立韵母的首个音素对应的多音节语言字母;将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分。
[0131] 由于在根据本发明的音节划分设备中所包括的各个装置和单元中的处理分别与上面描述的音节划分方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
[0132] 此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
[0133] 图6示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
[0134] 在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM603中,还根据需要存储当CPU601执行各种处理等等时所需的数据。CPU601、ROM602和RAM603经由总线604彼此连接。输入/输出接口605也连接到总线604。
[0135] 下述部件连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
[0136] 在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
[0137] 本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0138] 本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
[0139] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[0140] 在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0141] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0142] 此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
[0143] 尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
[0144] 附记
[0145] 1.一种适合音译的多音节语言单词的音节划分方法,包括:
[0146] 对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;
[0147] 根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及
[0148] 选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
[0149] 2.如附记1所述的方法,其中所述对于给定的多音节语言单词根据已知音节表枚举所有可能的音节划分方式包括:
[0150] 将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配;
[0151] 将与所述已知音节匹配上的单个字母或字母串,划分为一个音节;
[0152] 将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节;
[0153] 所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。
[0154] 3.如附记1所述的方法,其中所述已知音节的特征概率包括:反映音节在单词中的位置的可能性的位置概率、和/或反映相邻音节的置信度的相邻概率;
[0155] 其中所述位置概率包括:音节位于单词的首部的概率、音节位于单词的尾部的概率、音节位于单词的首部和尾部之间的中部的概率;所述相邻概率包括:音节在其它音节紧前的概率、音节在其它音节紧后的概率。
[0156] 4.如附记1所述的方法,其中所述根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分包括:
[0157] 根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;
[0158] 根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;
[0159] 根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分。
[0160] 5.如附记4所述的方法,其中所述根据所述已知音节的特征概率计算每种音节划分方式的概率得分包括:
[0161] 根据每种音节划分方式中的各个音节的位置概率和/或相邻概率,计算每种音节划分方式的概率得分。
[0162] 6.如附记5所述的方法,其中对于每种音节划分方式中的非已知音节,将其特征概率设置为默认的小的数值或已知音节表中同类特征概率中的最小值。
[0163] 7.如附记4所述的方法,其中所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度包括:作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度的个数相似度、和/或作为所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度的距离相似度;并且
[0164] 所述根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度计算每种音节划分方式的双语得分包括:根据所述个数相似度和/或所述距离相似度,计算所述双语得分。
[0165] 8.如附记7所述的方法,其中计算每种音节划分方式中的各个音节与所述对应的单音节语言单词的读音形式中的各个音节之间的在最短编辑距离上的相似度的总和,作为所述距离相似度。
[0166] 9.如附记8所述的方法,其中针对所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数不同的情况,在所述计算相似度的总和的步骤之前,通过在音节个数较小的所述音节划分方式或所述读音形式的末端填充预定符号,使得所述每种音节划分方式中的音节个数与所述对应的单音节语言单词的读音形式的音节个数相同。
[0167] 10.如附记1所述的方法,其中通过如下步骤来得到所述已知音节表:
[0168] 获得作为多音节语言单词的多音节语言字母串、以及对应单音节语言音译文的读音形式;
[0169] 根据所述读音形式,按音节划分所述多音节语言字母串,从而获得所述已知音节;
[0170] 根据划分结果,通过统计来计算所述已知音节的特征概率。
[0171] 11.如附记10所述的方法,其中所述获得多音节语言字母串以及对应单音节语言音译文的读音形式包括:
[0172] 从因特网、音译词典、机器音译装置、现有语料中的至少一个,找到所述单音节语言音译文;
[0173] 将所述单音节语言音译文转换为对应的读音形式。
[0174] 12.如附记11所述的方法,其中所述转换步骤包括:
[0175] 对于单音节语言音译文中的单音字,
[0176] 根据单音字-读音映射表,将其转换为对应的读音字母;对于单音节语言音译文中的多音字,
[0177] 根据多音字-读音映射表,枚举多音字对应的多个候选读音字母,以得到单音节语言音译文的多个候选读音形式;
[0178] 将所述多个候选读音形式中与对应的多音节语言字母串的相似度最大的候选读音形式,作为与单音节语言音译文对应的读音形式。
[0179] 13.如附记12所述的方法,其中所述候选读音形式与对应的多音节语言字母串的最短编辑距离越小,两者的相似度越大。
[0180] 14.如附记10所述的方法,其中所述读音形式包括与所述单音节语言音译文中的多个单音节语言字对应的多个读音音节;并且
[0181] 其中所述根据所述读音形式按音节划分所述多音节语言字母串包括:
[0182] 确定与所述多个读音音节对应的多音节语言字母;
[0183] 将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分。
[0184] 15.如附记10所述的方法,其中所述根据所述读音形式按音节划分所述多音节语言字母串包括:
[0185] 识别所述读音形式中的声母和独立韵母;
[0186] 确定与所识别的声母和独立韵母的首个音素对应的多音节语言字母;
[0187] 将所确定的多音节语言字母前的位置确定为多音节语言音节的边界,从而将所述多音节语言字母串按音节划分。
[0188] 16.如附记14所述的方法,其中所述确定与所述多个读音音节对应的多音节语言字母包括:
[0189] 人工对少量多音节语言字母串以及对应的读音形式进行所述确定步骤,以得到训练语料;
[0190] 利用训练语料来训练能够执行所述确定步骤的对齐器;
[0191] 利用训练好的对齐器,对余下的多音节语言字母串以及对应的读音形式进行所述确定步骤。
[0192] 17.一种适合音译的多音节语言单词的音节划分设备,包括:
[0193] 音节划分枚举装置,被配置为:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;
[0194] 总得分计算装置,被配置为:根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及
[0195] 结果确定装置,被配置为:选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
[0196] 18.如附记17所述的音节划分设备,其中所述音节划分枚举装置被进一步配置为:
[0197] 将构成所述多音节语言单词的单个字母或字母串与所述已知音节表中的已知音节进行匹配;
[0198] 将与所述已知音节匹配上的单个字母或字母串,划分为一个音节;
[0199] 将不能与任何所述已知音节匹配上的单个字母或字母串中的每个字母,划分为一个音节;
[0200] 所有互不矛盾的划分结果的组合构成所述所有可能的音节划分方式。
[0201] 19.如附记17所述的音节划分设备,其中所述总得分计算装置包括:
[0202] 概率得分计算单元,被配置为:根据所述已知音节的特征概率,计算每种音节划分方式的概率得分;
[0203] 双语得分计算单元,被配置为:根据所述对应的单音节语言单词的读音形式与每种音节划分方式的相似度,计算每种音节划分方式的双语得分;
[0204] 总得分计算单元,被配置为:根据所述概率得分和所述双语得分,计算所述每种音节划分方式的总得分。
[0205] 20.如附记19所述的音节划分设备,其中所述双语得分计算单元被进一步配置为:根据所述对应的单音节语言单词的读音形式与每种音节划分方式的个数相似度和/或距离相似度,计算所述双语得分,所述个数相似度是所述对应的单音节语言单词的读音形式与所述每种音节划分方式在字母个数上的相似度,所述距离相似度是所述对应的单音节语言单词的读音形式与所述每种音节划分方式在最短编辑距离上的相似度。

当前第1页 第1页 第2页 第3页