技术领域
[0001] 本发明一般地涉及机器翻译领域。更具体地说,本发明涉及用于将源语言的原文翻译为目标语言的译文的机器翻译方法和机器翻译系统。
相关背景技术
[0002] 机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。
[0003] 机器翻译技术大体上可以分为三类:基于规则的机器翻译技术(Rule-based machine translation,RBMT),基于实例的机器翻译技术(Example-based machine translation,EMBT)和基于统计的机器翻译技术(Statistical Machine Translation)。
[0004] 基于规则的机器翻译技术一般需要借助于词典、模板和人工整理的规则进行。需要对要被翻译的源语言的原文进行分析,并对原文的意义进行表示,然后再生成等价的目标语言的译文。一个好的基于规则的机器翻译设备,需要有足够多、覆盖面足够广的翻译规则,并且有效地解决规则之间的冲突问题。由于规则通常需要人工整理,因此,人工成本高、很难得到数量非常多、覆盖非常全面的翻译规则,并且不同人给出的翻译规则冲突的概率较大。
[0005] 基于实例的机器翻译技术以实例为基础,主要利用预处理过的双语语料和翻译词典进行翻译。在翻译的过程中,首先在翻译实例库搜索与原文片段相匹配的片段,再确定相应的译文片段,重新组合译文片段以得到最终的译文。翻译实例的覆盖范围和存储方式直接影响着这种翻译技术的翻译质量和速度。
[0006] 基于统计的机器翻译技术是基于双语语料库的,其将双语语料库中的翻译知识通过机器学习的方法表示为统计模型并抽取翻译规则,按照翻译规则将需要翻译的原文翻译为目标语言的译文。由于基于统计的机器翻译技术需要的人工处理少、不依赖于具体的实例、不受领域限制、处理速度快,所以相对于其它两种机器翻译技术具有明显的优势。本发明主要涉及基于统计的机器翻译技术。
[0007] 如上所述,在基于统计的机器翻译技术中,翻译规则是非常重要的翻译资源。基于统计的机器翻译技术要想取得较好的翻译质量,前提之一就是要有足够多且足够好的双语平行语料,使得计算机等计算设备能够基于双语平行语料自动学习到覆盖面足够广的翻译规则。
[0008] 可见,在基于统计的机器翻译技术中,需要足够多且足够好的双语平行语料以及翻译规则。
[0009] 然而,对于很多语言来说,要获取高质量、大规模的双语平行语料库较为困难。而对于一些语言来说,存在着这种语言与多种语言之间的大量的双语语料。例如,中日的双语平行语料较少,但中英、英日的双语平行语料较多。
[0010] 因此,存在一些机器翻译设备,其借助于中间语言进行源语言到目标语言的翻译。
[0011] 然而,现有技术中存在的问题是机器翻译技术尤其是借助于中间语言的机器翻译技术的翻译质量存在提高的需要。
具体实施方式
[0030] 在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与设备及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0031] 在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或多个其它附图或实施方式中示出的元素和特征相结合。
[0032] 如上所述,在采用多个机器翻译设备对同一原文进行翻译时,并不存在有效的手段对来自多个机器翻译设备的多个候选译文进行合理的评价以选择最佳译文。
[0033] 本发明的发明人意识到至少可以从以下三个方面对译文进行评价:语言模型、翻译设备给出的特征、原文译文长度比。本发明不限于此,可以将其它方面的评价结果与本发明提出的三个方面中的至少一个的评价结果相融合,作为最终的评价结果。
[0034] 这里应指出,机器翻译设备的原文和译文不限于句子,也应包括由句子组成的段落,以及句子的一部分。
[0035] 下面参照图1详细描述根据本发明的机器翻译方法的细节。
[0036] 图1示出了根据本发明的机器翻译方法的流程图。
[0037] 根据本发明的机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文(步骤S1);利用语言模型,针对多个候选译文分别计算语言模型得分(步骤S2);分别获得多个机器翻译设备给出的关于多个候选译文的设备得分(步骤S3);基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分(步骤S4);基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分(步骤S5);以及选择总得分最高的候选译文作为机器翻译的结果(步骤S6)。
[0038] 在步骤S1中,利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文。
[0039] 应注意,本发明能够利用的机器翻译设备可以包括上面提到的各种机器翻译设备,如基于规则的机器翻译设备、基于实例的机器翻译设备、基于统计的机器翻译设备等。显然,也包括借助于中间语言进行翻译的机器翻译设备,但不限于此,只要机器翻译设备能够实现将源语言翻译为目标语言的功能即可。
[0040] 在步骤S2中,利用语言模型,针对多个候选译文分别计算语言模型得分。
[0041] 语言模型包括能够针对候选译文,从候选译文本身的特性,例如候选译文的流畅度、语法结构或语义结构的等方面,评价候选译文质量的语言模型。
[0042] 语言模型大体可分为如下几类:基于译文流畅度的语言模型(如N元语言模型)、基于译文语法结构或语义结构的语言模型(如结构化语言模型)。
[0043] 例如,N元语言模型可以计算一个句子的出现的概率来测试句子的流畅度。语言模型得分可以反映哪个词序列出现的可能性更大。例如,假设句子s=w1w2w3w4w5w6…wn,其中,s表示一个句子,w表示句子中的一个单元(词或字等),句子s的概率可以表示为:
[0044] P(s)=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)
[0045] 上式中的各概率及条件概率可通过对于语料库中的单语语料的学习而获得。
[0046] 可以以概率值本身,或经过任何适当的变换处理等得到语言模型得分。
[0047] N元语言模型描述一个句子中单元序列的线性关系,而结构化语言模型引入语法信息或语义结构。通过分析句子的语法信息和语义结构,并用树的形式对句子进行表示,来构建相应的语言模型。在给句子打分的时候,首先分析句子的结构信息,然后针对句子的结构信息给句子进行打分。
[0048] 语言模型例如可以通过对语料库进行学习而生成。语言模型的生成方法在此不再赘述,本发明的意图在于利用语言模型,从语言模型的角度对候选译文进行评价。
[0049] 在步骤S3中,分别获得多个机器翻译设备给出的关于多个候选译文的设备得分。
[0050] 机器翻译设备在给出其输出结果即译文之前,通常会产生多个译文候选,通过机器翻译设备内部的评价方法对多个译文候选进行评价,并根据评价结果输出最佳的译文。
[0051] 有的机器翻译设备会在输出译文的同时,输出该译文对应的设备得分;有的机器翻译设备虽然并不将设备得分与译文同时输出,但可以获得作为中间结果的设备得分。只要能够从机器翻译设备获得其给出的设备得分,就可以对于该译文执行本发明的步骤S3。
[0052] 应注意,即使对于某些译文,无法获得其对应的设备得分,由于只要有译文就能计算本发明步骤S2中的语言模型得分以及下面将描述的长度得分,因此,这样的机器翻译设备及其译文仍适用于本发明的方法和系统,可以基于译文的语言模型得分和长度得分的至少一个,对该译文进行评价。
[0053] 在下文所述的本发明的第一翻译设备、第二翻译设备、第三翻译设备中,均可通过如下方法计算设备得分:根据机器翻译设备给出的特征和权重,计算其输出的候选译文的设备得分。
[0054] 其中,特征可以包括正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率、原文中有多少词需要调序等。各个特征的权重之和等于1,权重的具体取值可根据经验或语言学规律指定,或利用如最小错误率训练算法(Minimum Error Rate Training,MERT)在大量语料基础上训练得到。
[0055] 例如,某一机器翻译设备使用M个特征: s表示原文,t表示译文,i表示特征的序号,i=1,2,…,M,M为自然数,相应的特征权重为 则译文t的设备得分S(t)可通过下式计算:
[0056] 在步骤S4中,基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分。
[0057] 长度得分的计算基于如下规律:根据统计信息可知,两种自然语言互相翻译的时候,源语言的原文(如句子)与翻译后的目标语言的译文(如句子)的长度的比例存在一定的分布范围。如果源语言的原文与翻译后的目标语言的译文的长度之比不在特定范围内,则可以认为该译文的翻译质量较低。
[0058] 因此,通过将原文的长度和候选译文的长度之比与预定值做比较,可以给出候选译文的长度得分,作为对候选译文质量评价的一个方面。
[0059] 预定值可以根据经验或语言学规律指定,或取源语言和目标语言的大规模语料库中双语句对的平均长度比(基于最大似然估计)。
[0060] 设原文为S,译文为T’,Len()为取长度的函数,则译文T’的长度得分LP(T’)可以表示为:
[0061] 其中, 表示语料库中N个双语句对(Si,Ti)的平均长度比。
[0062] 应注意,此处的比例可以为原文的长度和候选译文的长度之比,也可以为候选译文的长度和原文的长度之比,只要计算预定值的比例算法与计算译文原文比例时采用的算法相同即可。此外,还应明白的是,只要是长度比例与预定值的比较即可,并不限于作差、取绝对值并取其负值。例如可以将长度比例与预定值做除法运算,作为两者的比较等。
[0063] 在步骤S5中,基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分。
[0064] 应注意,基于某得分表明考虑某得分,并非仅限于此处所示出的三种得分,并且不是必须同时利用三种得分。
[0065] 作为一个示例,可以将每一个候选译文的语言模型得分、设备得分、长度得分加权求和,以得到候选译文的总得分。如下式所示。
[0066] S'(T')=αLM(T')+βScore(T')+γLP(T')
[0067] 其中,S’(T’)表示候选译文的总得分,LM(T’)、Score(T’)、LP(T’)分别表示候选译文T’的语言模型得分、设备得分、长度得分,α、β、γ为权重。α、β、γ的具体值可以根据经验或语言学规律指定,或利用如最小错误率训练算法在大量语料基础上训练得到。
[0068] 如上所述,可以将上式改写,以包含其他对于译文的评价得分。同时,当以上三种得分之一(如设备得分)不能得到时,可使用可得到的得分进行计算,只需调整适当的权重即可。
[0069] 此外,由于某一种得分可能由于其计算机理,例如基于概率进行计算等,导致该得分的数值非常小,难以与其它得分进行求和运算,甚至难以为计算机等计算设备表示,因此,可在进行上述加权求和计算前,将该得分进行对数变换,以所获得的对数值进行加权求和计算等。
[0070] 通过以上步骤可以获得各个候选译文的总得分,显然,在步骤S6中,选择总得分最高的候选译文作为机器翻译的结果。
[0071] 至此,通过在语言模型、输出译文的机器翻译设备、原文译文长度比三个方面对译文进行评价,可以从多个机器翻译设备输出的多个候选译文中选择最佳的译文。
[0072] 如上所述,利用中间语言进行源语言到目标语言的翻译尚存在质量提高的需要,因此,在下文中介绍对这方面的技术进行的改进,并且如下所述的三种机器翻译设备可以作为上述的多个机器翻译设备适用于根据本发明的方法和系统。
[0073] 利用中间语言进行翻译的前提之一是具有源语言和中间语言的第一语料库以及中间语言和目标语言的第二语料库。第一语料库包括源语言和中间语言的双语句对。第二语料库包括中间语言和目标语言的双语句对。双语句对可以是人工翻译的、机器翻译的,或其它方式获得的双语句对语料。
[0074] 为便于后续处理,第一语料库和第二语料库中的双语句对还需进行分词和词对齐处理。分词和词对齐是本领域公知的技术,此处可以采用任何适当的分词和词对齐方法。
[0075] 如上所述,基于统计的机器翻译方法依赖于大量高质量的平行语料。因此,可从语料角度改善现有的借助于中间语言的机器翻译方法。
[0076] 具体地,希望基于第一语料库和第二语料库获得源语言和目标语言的扩展语料。扩展语料可增加源语言和目标语言的语料数目,在质量有保证的情况下,以更多的语料可以训练出更好的机器翻译设备。
[0077] 图2示出了扩展语料的获取方法的流程图。
[0078] 在步骤S21中,基于源语言和中间语言的第一语料库,训练第一翻译子设备;以及基于中间语言和目标语言的第二语料库,训练第二翻译子设备。
[0079] 基于语料训练得到机器翻译设备是本领域技术人员知晓的技术,在此不再赘述。
[0080] 训练好的第一翻译子设备能够将源语言翻译为中间语言,训练好的第二翻译子设备能够将中间语言翻译为目标语言。
[0081] 在步骤S22中,对于第一语料库中的源语言和中间语言的双语句对,利用第二翻译子设备将双语句对中的中间语言翻译为目标语言,以获得源语言和目标语言的双语句对,作为第一新双语句对;对于第二语料库中的中间语言和目标语言的双语句对,利用第一翻译子设备将双语句对中的中间语言翻译为源语言,以获得源语言和目标语言的双语句对,作为第二新双语句对。
[0082] 应注意,此处作为一个示例,利用基于第二语料库训练的第二翻译子设备对第一语料库的双语句对的中间语言部分进行翻译,并利用基于第一语料库训练的第一翻译子设备对第二语料库的双语句对的中间语言部分进行翻译。
[0083] 但本发明不限于此。也可选用其它能够将中间语言翻译为目标语言的翻译子设备将第一语料库的双语句对的中间语言部分翻译为目标语言,以得到第一新双语句对,并选用其它能够将中间语言翻译为源语言的翻译子设备将第二语料库的双语句对的中间语言部分翻译为源语言,以得到第二新双语句对。这样的翻译子设备不限于基于统计的机器翻译设备,也可以是基于规则或基于实例的机器翻译设备等,也可以是现有的任何能够实现所需翻译功能的机器翻译设备,如谷歌翻译、百度翻译等。在选用其它翻译子设备的情况下,省略上述步骤S23,并且上述步骤S22中的第一和第二翻译子设备是所选用的机器翻译设备。
[0084] 在步骤S23中,基于第一新双语句对和第二新双语句对,获得扩展语料。
[0085] 作为一个示例,可通过将第一新双语句对和第二新双语句对与现有的源语言和目标语言的双语句对进行合并和去除重复,以获得扩展语料。
[0086] 此外,为了获得质量较高的语料,基于上述的长度比例规律,可在合并和去除重复步骤之前或之后,去除不满足下述条件的第一新双语句对和第二新双语句对:新双语句对中的源语言的句子的长度与目标语言的句子的长度之比大于第一阈值且小于第二阈值。
[0087] 第一阈值和第二阈值分别为句子长度比范围的上限和下限,可根据经验或语言学规律指定,或根据最大似然估计在大量语料基础上训练得到。
[0088] 例如,设第一阈值为α,第二阈值为β,源语言和目标语言的语料库中的源语言句子为Si,目标语言句子为Pi,句子总数为N,Len()为取长度的函数,min()为取最小值的函数,max()为取最大值的函数。根据最大似然估计,当N足够大时,可以认为如下式所计算的阈值α、β是符合语言学规律的适当的上下阈值。
[0089]
[0090]
[0091] 上述去除步骤是可选的,其目的是对新得到的双语句对进行筛选,以获得较高质量的扩展语料。
[0092] 传统的根据第一语料库和第二语料库得到扩展语料的方法是寻找两个语料库中具有相同中间语言句子的双语句对,将这样的双语句对的源语言句子和目标语言句子作为获得的新双语句对。
[0093] 本发明的扩展语料的获取方法与这样的传统方法相比具有显著的进步,具体表现在:
[0094] 1.传统方法中只有具有相同中间语言句子的双语句对才能被用来获得扩展语料,因而只能获得较少的扩展语料;而本发明的方法可以对于第一语料库和第二语料库中所有的双语句对进行翻译,获得更多数量的新双语句对。
[0095] 2.本发明的方法通过合并和去除重复,可以获得有效的扩展语料。
[0096] 3.本发明的方法通过利用长度比例进行筛选,可以获得较高质量的扩展语料。
[0097] 基于扩展语料,可以训练得到能够将源语言的原文翻译为目标语言的译文的第一翻译设备。基于语料训练机器翻译设备是本领域技术人员能够理解和做到的,在此不再赘述。第一翻译设备可以作为根据本发明的机器翻译方法中的机器翻译设备。
[0098] 如上所述,可以获得能够将源语言翻译为中间语言的第一翻译子设备和能够将中间语言翻译为目标语言的第二翻译子设备。显然,可以将第一翻译子设备和第二翻译子设备级联,来获得能够将源语言翻译为目标语言的第二翻译设备。
[0099] 图3示出了根据本发明的第二翻译设备将源语言的原文翻译为目标语言的译文的流程图。
[0100] 在步骤S31中,利用第一翻译子设备,将源语言的原文翻译为中间语言的多个中间结果;以及利用第二翻译子设备,将多个中间结果的每一个翻译为多个目标语言的译文候选。
[0101] 在步骤S32中,从多个目标语言的译文候选中选择最佳的一个作为候选译文。
[0102] 其中,所述选择步骤包括:对于多个目标语言的译文候选的每一个,根据第一翻译子设备给出的特征和权重,计算其第一翻译子设备得分,并根据第二翻译子设备给出的特征和权重,计算其第二翻译子设备得分;以及将第一翻译子设备得分和第二翻译子设备得分之和最大的目标语言的译文候选,作为候选译文。
[0103] 这里,基于第一语料库和第二语料库进行训练以得到第一翻译子设备和第二翻译子设备或通过其它手段得到适当的翻译子设备、利用第一翻译子设备和第二翻译子设备进行翻译、根据特征和权重计算设备得分与上面的相应描述一致,故不再赘述。
[0104] 作为一个示例,给出了级联的翻译子设备的设备得分计算的示例方法。
[0105] 假设在第一翻译子设备中,使用了M个特征,记为 i=1,2,…,M,相应的特征权重为 ;在第二翻译子设备中,使用了N个特征,记为 相应的特征权重为 。则一个目标语言的译文候选的总体得分S(tij)可以表示为:
[0106]
[0107] 根据本发明的第二翻译设备进行翻译时,通过利用设备得分,对目标语言的译文候选进行了筛选,从而能够得到质量较高的译文。
[0108] 应注意,在上面的示例中,使用的第一翻译子设备和第二翻译子设备是分别基于第一语料库和第二语料库进行训练而得到的。但本发明不限于此。也可以使用适当的其它翻译子设备,只要级联的翻译子设备能够将源语言的原文译为中间语言的中间结果并将中间结果译为目标语言的译文候选即可。
[0109] 此外,应注意,在上面的示例中,使用设备得分对翻译结果进行筛选。这是因为两个翻译子设备级联,使用两个翻译子设备的设备得分容易综合考虑两个翻译子设备的翻译质量。但本发明不限于此。也可以如上所述地使用语言模型得分和/或长度得分等对译文进行筛选,从而能够应对不能获得翻译子设备的设备得分的情况。
[0110] 如上所述,规则对于基于统计的机器翻译技术十分重要。本发明也试图从丰富高质量规则方面改善机器翻译的质量。
[0111] 图4示出了扩展规则的获取方法的示意图。
[0112] 在步骤S41中,基于源语言和中间语言的第一语料库,抽取关于源语言和中间语言的第一规则,并基于中间语言和目标语言的第二语料库,抽取关于中间语言和目标语言的第二规则。
[0113] 基于语料库中的双语句对,抽取规则是基于统计的机器翻译方法和设备中熟知的技术。这里可以选取任何适当的规则抽取方法对规则进行抽取。
[0114] 在步骤S42中,对所抽取的第一规则和第二规则进行筛选,选择其中第一规则的目标端与第二规则的源端相同的第一规则和第二规则。
[0115] 在步骤S43中,基于所选择的第一规则的源端和第二规则的目标端,生成扩展规则。
[0116] 具体地,将所选择的第一规则的源端和第二规则的目标端作为扩展规则的源端和目标端;并且基于所选择的第一规则和第二规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率分别计算扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率。
[0117] 概率的计算方法是:对于仅来源于一个第一规则和一个第二规则的一个扩展规则,其正向翻译概率等于对应的第一规则的正向翻译概率与对应的第二规则的正向翻译概率之积;对于来源于多对第一规则和第二规则的同一扩展规则,其正向翻译概率等于每对对应的第一规则和第二规则的正向翻译概率之积的总和。反向翻译概率、正向词汇化概率、反向词汇化概率的计算方法类似。
[0118] 下面的公式示出了扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率的上述计算。其中,s表示扩展规则的源端,t表示扩展规则的目标端,p(s|t)表示扩展规则的正向翻译概率,p(t|s)表示扩展规则的反向翻译概率,φ(s|t)表示扩展规则的正向词汇化概率,φ(t|s)表示扩展规则的反向词汇化概率,p()表示翻译概率,φ()表示词汇化概率,∑表示求和,Tsp表示抽取的源语言和中间语言的规则构成的集合,Tpt表示抽取的中间语言和目标语言的规则构成的集合,p表示第一规则和第二规则的共同端。
[0119]
[0120]
[0121]
[0122]
[0123] 这样就获得了扩展规则及其正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率。
[0124] 然而,在上述步骤S42中选择的第一规则和第二规则可能很多,这样会导致生成的扩展规则很多。例如,在617万双语句对的汉英语料和316万双语句对的英日语料上分别进行规则抽取,抽取到共同英文端为“the”的规则分别有446189条和848951条。如果将这些规则进行扩展,则规则表数量将会大幅度膨胀。然而,根据语言学的知识以及统计规律,一个单词或者词组即使存在一词多意,多意的数量也是有限的。因此,有必要对获得的规则进行筛选,提高扩展规则的质量,去除不好甚至错误的规则。
[0125] 由于两种语言之间短语的最大歧义数量是有限的,因此,可以根据两种语言之间短语的最大歧义数量确定预定值K,或者根据语言学的知识或经验指定K值,K为自然数。对于具有同一源端的多个扩展规则,只选取其中最优的K个扩展规则。
[0126] 至于扩展规则的评价标准,可选取适当的准则。作为示例,可计算扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率之和,认为扩展规则的概率之和越大,扩展规则越好。
[0127] 基于扩展规则,可以丰富机器翻译设备的规则表。基于扩展规则的第三翻译设备可以作为根据本发明的机器翻译方法和系统中的机器翻译设备。
[0128] 下面将参照图5简述根据本发明的机器翻译设备。
[0129] 图5示出了根据本发明的机器翻译设备的示例结构图。机器翻译设备500包括:多个机器翻译设备501-503,用于将源语言的原文翻译为目标语言,以得到多个候选译文;语言模型504,用于针对多个候选译文分别计算语言模型得分;设备得分获取装置505,被配置为分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;长度得分计算装置506,被配置为基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;
总得分计算装置507,被配置为基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及译文选择装置508,被配置为选择总得分最高的候选译文作为机器翻译的结果。
[0130] 其中,多个机器翻译设备501-503仅为示例,其个数并不限于3个,而是至少两个。上面描述的第一翻译设备、第二翻译设备、第三翻译设备、谷歌翻译、百度翻译等均被作为机器翻译设备501-503。
[0131] 语言模型504基于候选译文的流畅度、语法结构或语义结构的至少一个,计算每一个候选译文的语言模型得分。
[0132] 在一个示例中,设备得分获取装置505被进一步配置为根据机器翻译设备给出的特征和权重,计算机器翻译设备输出的候选译文的设备得分。特征可以包括正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率、原文中有多少词需要调序等。相应的权重之和等于1,权重的具体取值可根据经验或语言学规律指定,或利用如最小错误率训练算法在大量语料基础上训练得到。
[0133] 在一个示例中,长度得分计算装置506被进一步配置为根据原文的长度和候选译文的长度之比与预定值的比较,计算每一个候选译文的长度得分。预定值可以包括源语言和目标语言的大规模语料库中双语句对的平均长度比。
[0134] 在一个示例中,总得分计算装置507被进一步配置为将每一个候选译文的语言模型得分、设备得分、长度得分加权求和,以得到候选译文的总得分。
[0135] 在一个示例中,总得分计算装置508被进一步配置为在所述加权求和之前,将一个或多个得分取对数。
[0136] 根据本发明的一个方面,还提供了扩展语料生成装置,通过扩展语料生成装置可以获得扩展语料,并基于扩展语料训练得到第一翻译设备。
[0137] 图6示出了根据本发明的扩展语料生成装置的示例结构的图。扩展语料生成装置600包括:新双语句对生成单元601,被配置为:对于源语言和中间语言的第一语料库中的双语句对,将双语句对中的中间语言翻译为目标语言,以获得源语言和目标语言的双语句对,作为第一新双语句对,以及对于中间语言和目标语言的第二语料库中的双语句对,将双语句对中的中间语言翻译为源语言,以获得源语言和目标语言的双语句对,作为第二新双语句对;以及扩展语料生成单元602,其被配置为基于第一新双语句对和第二新双语句对,获得扩展语料。
[0138] 在一个示例中,新双语句对生成单元601可包括能够在源语言和中间语言之间进行翻译的第一翻译子设备和能够在中间语言和目标语言之间进行翻译的第二翻译子设备来完成上述翻译。
[0139] 在一个示例中,第一翻译子设备是基于源语言和中间语言的第一语料库训练的,第二翻译子设备是基于中间语言和目标语言的第二语料库训练的。
[0140] 在一个示例中,扩展语料生成单元602被进一步配置为:将第一新双语句对和第二新双语句对与现有的源语言和目标语言的双语句对进行合并和去除重复,以获得扩展语料。
[0141] 在一个示例中,扩展语料生成单元602被进一步配置为:去除不满足下述条件的第一新双语句对和第二新双语句对:新双语句对中的源语言的句子的长度与目标语言的句子的长度之比大于第一阈值且小于第二阈值。
[0142] 图7示出了根据本发明的第二翻译设备的示例结构的图。
[0143] 第二翻译设备700包括级联的第一翻译子设备701和第二翻译子设备702。其中,第一翻译子设备701用于将源语言的原文翻译为中间语言的多个中间结果,第二翻译子设备702用于将多个中间结果的每一个翻译为多个目标语言的译文候选。
[0144] 在一个示例中,第二翻译设备700还包括:选择单元703,被配置为从多个目标语言的译文候选中选择最佳的一个作为候选译文。
[0145] 在一个示例中,选择单元703被进一步配置为:对于多个目标语言的译文候选的每一个,根据第一翻译子设备给出的特征和权重,计算其第一翻译子设备得分,并根据第二翻译子设备给出的特征和权重,计算其第二翻译子设备得分;以及将第一翻译子设备得分和第二翻译子设备得分之和最大的目标语言的译文候选,作为候选译文。
[0146] 图8示出了根据本发明的扩展规则生成装置的示例结构的图。
[0147] 根据本发明的第三翻译设备可以基于根据本发明的扩展规则生成装置生成的扩展规则。
[0148] 扩展规则生成装置800包括:第一规则抽取单元801,被配置为基于源语言和中间语言的第一语料库,抽取关于源语言和中间语言的第一规则;第二规则抽取单元802,被配置为基于中间语言和目标语言的第二语料库,抽取关于中间语言和目标语言的第二规则;端选择单元803,被配置为选择第一规则和第二规则使得第一规则的目标端与第二规则的源端相同;以及扩展规则生成单元804,被配置为基于所选择的第一规则的源端和第二规则的目标端,生成扩展规则。
[0149] 在一个示例中,扩展规则生成单元804包括:端生成单元,被配置为将所选择的第一规则的源端和第二规则的目标端作为扩展规则的源端和目标端;以及概率计算单元,被配置为基于所选择的第一规则和第二规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率,分别计算扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率。
[0150] 在一个示例中,扩展规则生成单元804还包括:规则筛选单元,被配置为对于具有同一源端的多个扩展规则,仅保留其正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率之和最大的前K个扩展规则,K为预定自然数。
[0151] 另外,还应该指出的是,上述系统中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图9所示的通用个人计算机900安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
[0152] 在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,也根据需要存储当CPU 901执行各种处理等等时所需的数据。
[0153] CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。
[0154] 下述部件连接到输入/输出接口905:输入部分906,包括键盘、鼠标等等;输出部分907,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分908,包括硬盘等等;和通信部分909,包括网络接口卡比如LAN卡、调制解调器等等。通信部分909经由网络比如因特网执行通信处理。
[0155] 根据需要,驱动器910也连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
[0156] 在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
[0157] 本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0158] 本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
[0159] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[0160] 在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0161] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或多个其它特征、要素、步骤或组件的存在或附加。
[0162] 此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
[0163] 虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0164] 附记
[0165] 1.一种机器翻译方法,包括:
[0166] 利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;
[0167] 利用语言模型,针对多个候选译文分别计算语言模型得分;
[0168] 分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;
[0169] 基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;
[0170] 基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及
[0171] 选择总得分最高的候选译文作为机器翻译的结果。
[0172] 2.如附记1所述的机器翻译方法,其中,所述分别计算语言模型得分包括:
[0173] 利用语言模型,基于候选译文的流畅度、语法结构或语义结构的至少一个,计算每一个候选译文的语言模型得分。
[0174] 3.如附记1所述的机器翻译方法,其中,所述分别获得设备得分包括:
[0175] 根据机器翻译设备给出的特征和权重,计算其输出的候选译文的设备得分。
[0176] 4.如附记1所述的机器翻译方法,其中,所述分别计算长度得分包括:
[0177] 根据原文的长度和候选译文的长度之比与预定值的比较,计算每一个候选译文的长度得分。
[0178] 5.如附记1所述的机器翻译方法,其中,所述分别计算多个候选译文的总得分包括:
[0179] 将每一个候选译文的语言模型得分、设备得分、长度得分加权求和,以得到候选译文的总得分。
[0180] 6.如附记5所述的机器翻译方法,其中,在所述加权求和之前,将一个或多个得分取对数。
[0181] 7.如附记1所述的机器翻译方法,
[0182] 其中,所述多个机器翻译设备包括:基于扩展语料训练的第一翻译设备;并且所述扩展语料通过如下步骤获得:
[0183] 对于源语言和中间语言的第一语料库中的双语句对,将双语句对中的中间语言翻译为目标语言,以获得源语言和目标语言的双语句对,作为第一新双语句对;
[0184] 对于中间语言和目标语言的第二语料库中的双语句对,将双语句对中的中间语言翻译为源语言,以获得源语言和目标语言的双语句对,作为第二新双语句对;以及[0185] 基于第一新双语句对和第二新双语句对,获得扩展语料。
[0186] 8.如附记7所述的机器翻译方法,其中,所述基于第一新双语句对和第二新双语句对,获得扩展语料包括:
[0187] 去除不满足下述条件的第一新双语句对和第二新双语句对:新双语句对中的源语言的句子的长度与目标语言的句子的长度之比大于第一阈值且小于第二阈值;以及[0188] 将剩余的第一新双语句对和第二新双语句对与现有的源语言和目标语言的双语句对进行合并和去除重复,以获得扩展语料。
[0189] 9.如附记1所述的机器翻译方法,
[0190] 其中,所述多个机器翻译设备包括:第二翻译设备,所述第二翻译设备包括级联的能够在源语言和中间语言之间进行翻译的第一翻译子设备和能够在中间语言和目标语言之间进行翻译的第二翻译子设备;
[0191] 其中,利用第一翻译子设备,将源语言的原文翻译为中间语言的多个中间结果;利用第二翻译子设备,将多个中间结果的每一个翻译为目标语言的多个译文候选;并从多个译文候选中选择最佳的一个作为候选译文;
[0192] 其中,所述选择步骤包括:
[0193] 对于多个译文候选的每一个,根据第一翻译子设备给出的特征和权重,计算其第一翻译子设备得分,并根据第二翻译子设备给出的特征和权重,计算其第二翻译子设备得分;以及
[0194] 将第一翻译子设备得分和第二翻译子设备得分之和最大的译文候选,作为候选译文。
[0195] 10.如附记1所述的机器翻译方法,
[0196] 其中,所述多个机器翻译设备包括:基于扩展规则的第三翻译设备;
[0197] 所述扩展规则通过如下步骤获得:
[0198] 基于源语言和中间语言的第一语料库,抽取关于源语言和中间语言的第一规则;
[0199] 基于中间语言和目标语言的第二语料库,抽取关于中间语言和目标语言的第二规则;
[0200] 选择第一规则和第二规则使得第一规则的目标端与第二规则的源端相同;以及[0201] 基于所选择的第一规则的源端和第二规则的目标端,生成扩展规则。
[0202] 11.如附记10所述的机器翻译方法,其中,所述生成扩展规则包括:
[0203] 将所选择的第一规则的源端和第二规则的目标端作为扩展规则的源端和目标端;并且
[0204] 基于所选择的第一规则和第二规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率,分别计算扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率;
[0205] 其中,对于具有同一源端的多个扩展规则,仅保留其正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率之和最大的前K个扩展规则,K为预定自然数。
[0206] 12.一种机器翻译系统,包括:
[0207] 多个机器翻译设备,用于将源语言的原文翻译为目标语言,以得到多个候选译文;
[0208] 语言模型,用于针对多个候选译文分别计算语言模型得分;
[0209] 设备得分获取装置,被配置为分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;
[0210] 长度得分计算装置,被配置为基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;
[0211] 总得分计算装置,被配置为基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及
[0212] 译文选择装置,被配置为选择总得分最高的候选译文作为机器翻译的结果。
[0213] 13.如附记12所述的机器翻译系统,其中,所述语言模型基于候选译文的流畅度、语法结构或语义结构的至少一个,计算每一个候选译文的语言模型得分。
[0214] 14.如附记12所述的机器翻译系统,其中,所述设备得分获取装置被配置为根据机器翻译设备给出的特征和权重,计算机器翻译设备输出的候选译文的设备得分。
[0215] 15.如附记12所述的机器翻译系统,其中,所述长度得分计算装置被配置为根据原文的长度和候选译文的长度之比与预定值的比较,计算每一个候选译文的长度得分。
[0216] 16.如附记12所述的机器翻译系统,其中,所述总得分计算装置被配置为将每一个候选译文的语言模型得分、设备得分、长度得分加权求和,以得到候选译文的总得分。
[0217] 17.如附记16所述的机器翻译系统,其中,所述总得分计算装置被进一步配置为在所述加权求和之前,将一个或多个得分取对数。
[0218] 18.如附记12所述的机器翻译系统,
[0219] 其中,所述多个机器翻译设备包括:基于扩展语料训练的第一翻译设备;并且所述扩展语料通过扩展语料生成装置获得;
[0220] 所述扩展语料生成装置包括:
[0221] 新双语句对生成单元,其被配置为:
[0222] 对于源语言和中间语言的第一语料库中的双语句对,将双语句对中的中间语言翻译为目标语言,以获得源语言和目标语言的双语句对,作为第一新双语句对;以及[0223] 对于中间语言和目标语言的第二语料库中的双语句对,将双语句对中的中间语言翻译为源语言,以获得源语言和目标语言的双语句对,作为第二新双语句对;以及[0224] 扩展语料生成单元,其被配置为基于第一新双语句对和第二新双语句对,获得扩展语料。
[0225] 19.如附记18所述的机器翻译系统,其中,所述扩展语料生成单元被进一步配置为:
[0226] 去除不满足下述条件的第一新双语句对和第二新双语句对:新双语句对中的源语言的句子的长度与目标语言的句子的长度之比大于第一阈值且小于第二阈值;以及[0227] 将剩余的第一新双语句对和第二新双语句对与现有的源语言和目标语言的双语句对进行合并和去除重复,以获得扩展语料。
[0228] 20.如附记12所述的机器翻译系统,
[0229] 其中,所述多个机器翻译设备包括:基于扩展规则的第三翻译设备;其中所述扩展规则通过扩展规则生成装置获得;
[0230] 所述扩展规则生成装置包括:
[0231] 第一规则抽取单元,被配置为基于源语言和中间语言的第一语料库,抽取关于源语言和中间语言的第一规则;
[0232] 第二规则抽取单元,被配置为基于中间语言和目标语言的第二语料库,抽取关于中间语言和目标语言的第二规则;
[0233] 端选择单元,被配置为选择第一规则和第二规则使得第一规则的目标端与第二规则的源端相同;以及
[0234] 扩展规则生成单元,被配置为基于所选择的第一规则的源端和第二规则的目标端,生成扩展规则。