本发明涉及到把第一种语言翻译为第二种语言的一种翻译方法,更具体地说是涉及第二种语言文本的一种编辑方法。 过去,编辑用自然语言写的文本使用了各种编辑系统例如采用普通用途的终端设备和字处理机。 在这种编辑系统中,适合于处理的语言只有一种。即,当处理英语文本时,字处理功能只能作为一种英语字处理机,而当处理日语时,它作为日语字处理机。然而,当在英译日的翻译过程中的日语文本,即一个翻译的文本被编辑时,如果只使用日语字处理功能,那么翻译文本只能作为文本字符串。因此,置换字符串是在整个文本上进行,如图1所示那些不应该被置换的部分也被处理。所以在把文本转换为正确的翻译文本时,这是很不方便的。在日本特许公开照58-40684中也公开了类似的翻译方法。 本发明的目的是提供一种字符串置换系统,该系统在翻译处理过程中能有效的编辑一个翻译文本。 依据本发明,在把第一种语言翻译为第二种语言的一个翻译处理机器中,对每个字符串而言第一种语言的信息作为数据储存在第二个语言文本中,该字符串是一个翻译单元。 为了达到上述目的,依据本发明,提供了一种翻译方法,对每个翻译单元例如字,短语或成语而言第一种语言文本与通过翻译方法已翻译的第二种语言文本之间的对应关系作为数据被储存起来,以至于当在第二种语言文本中进行置换字符串时,校验与第一种语言文本中相对应的字符串的匹配以便决定它是否能被翻译。 图1说明利用已知技术进行的字符串置换处理; 图2是本发明一个实施例框图; 图3展示本发明中一个翻译数据的储存格式; 图4展示一个输入文本流表; 图5A和5B展示储存在本发明中一个字流表的信息内容; 图6说明本发明中阶段结构分析处理的一个流程; 图7说明本发明一个节点流表中储存的信息; 图8展示本发明短语结构分析模式的举例; 图9展示储存在短语元流表中的一个信息内容; 图10展示一个有翻译文本的英语文本; 图11展示了一个把字和成语进行分类的表; 图12说明本发明一个实施例的处理;而 图13是本发明一个实施例处理程序的流程图。 图2是本发明字符编辑处理系统的一个实施例框图。数字1表示一个显示器件,数字2表示一个入口器件例如一个键盘,数字3表示一个处理机,数字4表示一个存储器,数字5表示一个图象缓冲器,而数字6表示一个外存储器例如一个磁盘。在本实施例中,为了解释方便起见,第一种语言是英语而第二种语言是日语,并且解释了在将英语翻译为日语的处理过程中日语文本的编辑处理。 如图3所示,使用在日本申请号58-40684公开的系统处理的一个英语文本和一个从英文翻译到日文的翻译文本成对地储存在外存储器6中而他们能利用句子键读出。 图3说明日本专利申请号58-40684公开的制备翻译文本的要点。 图4展示了一个文本流区域402,该区域是存储器4一个工作区域的一部分,用字符将文本储存在该区中。利用空白符3,9,17,22抽取文本的每个字,和在储存器4中建立一个字流表403,403在图5A和5B中被展示。 正如从图5A和5B得知的那样,每个字或成语包含一个字记录。每个字记录包含图5B中所示的信息。作为例了,解释了字“WRITE”的字记录。一个字,成语的判别包括一个字的信息(W)。一个字的识别号表示字出现的顺序号。本例中写成(2)。字长表示该字或成语具有的字符数目。对于“WRITE”来说,写成(5)。前导位字符地址包括“WRITE”的前导位字符W的一个地址(4),该地址在文本流表402中(图4)。词类数目包括(2)因为“WRITE”既是一个动词(V)又是一个名词(N)。词类的一个付分类,多义性数字和对每个词类而言属于目标语言起始地址的指示字均写到了各自的位置上。 为了短语结构分析组成字流的这些字,短语结构是建立在句子构造的节点顺序关系的基础上。 短语结构分析是对分段的短语元的处理,短语元来自一个词字符串,即通过指定语言的一单独部分为英语输入文本中每个字或成语而形成的词字符串。而且短语结构分析是通过赋于一个新短语元词而产生一个短语元词字符串的处理。 短语元不同于普通英语语法短语概念。它意味意字与/或成语组合且具有语言意义的最小单元。例如名词+名词,分词+动词,冠词+名词,形容词+名词和介词+名词都是短语元。 图6展示该短语结构分析处理的一个流程。在1080步内,字流存储器区域403中的字/成语的字记录放置在节点流传储器区域404中(图7)。图7展示字记录如此放置。行※1中NS(1),NS(2),…NS(20)均是节点数。对应的字均储存在行※2内。事实上,字流表(图5A和5B)指示字信息也储存在内。表示一个节点的一个种类的信息,即字(W),短语元(P),从句(C),半从句(Q)或句子(S)均储存在行※3中。词信息和词付分类均储存在行※4中。 这些短语元以储存在节点流存储器区域404中的信息为基础被分段。 在1084步内,与记录的短语元词模式相一致的节点NS(C1),NS(C2)……的字符串组合形成一个新节点NS(K),它放置在一个短语表中。 重新产生的节点NS(K)称为一个母节点。在图7所示的文本中,NS(4)和NS(5)组合形成一个新节点NS(21)。该节点短语元的词是付词(ADV)例如通过图8表查找出来的。一个新节点数赋给重新形成的母节点并且子节点数也被记录。这样以来,对于节点NS(21)来说表示储存在存储器区域中的信息即节点NS(21),它通过NS(4)和NS(5)构成,该节点是短语元(P)以及短语元的字部分是付词(ADV)。 在1085步内,用子节点置换重新产生的母节点以校正短语元字符串表。短语元字符串表最初包含以1,2,3,4,……19,20为次序的节点数但在新短语元产生以后,数字排列变为1,2,3,21,6,7,8,9,22,24,25,26,20(见图7)。 其次,一个英语句子模式分析是在上述结果的基础上进行处理。英语句子模式分析是考虑组合许多节点NS(i)的一种处理并把它归为一种预定的英语句子模式。英语句子模式识别包含了给每个节点赋于句法规则的操作,而以句法规则字符串为基础鉴别一个句子,从句,或半从句。句子规则指示短语元表中节点的功能,在句中,即它是一个主语(subJ)或一个支配语(GOV)或是一个宾语(OBJ)。 现在参考图9说明英语句子模式分析。 由于短语结构分析的结果,信息储存在短语元字符串表存储器区域405中,如图9行※11,※12,※13和※14所示。 行※11储存节点数信息。行※12储存对应于节点的字或成语。事实上节点流表指示字储存在内。行※13储存该节点的种类,即表示字(W),短语元(P),从句(C),半从句(Q)或句子(S)的信息。行※14储存字/成语的一个词类或半从句,从句或句子的一个类型号。行※15储存了在英语句子模式分析过程中得到的结构算符。 由节点产生的日语文本储存在图10中的输出存储器区域。 日语字被赋于行※20所示的日语句子模式节点字符串区域中的每个节点,并且把※21所示的日语字储存在输出文本表区域中。 图3展示了为图1英语文本产生的日语文本,并把它储存在存储器6中。 日语文本中圆符号中的数字表示对应于日语文本出现在英语文本中相应字的排序表位置。对应于图3英语文本的排序表展示在图11a。在这种排列中,多于一次出现的字当其在第二次或其后的时间再出现时不被考虑。排序时,对一个经过变化的字仍按字的原型排列。排序处理是在一个字的字典查找处理中完成,这种处理是翻译处理步骤中的一个步骤。它可以利用日本专利申请号58-100798中公开的字典查找系统完成。日语文本中方符号中的数字表示当直接跟着号的日语文本对应的英语文本是成语时表示了该成语的排序表位置。对应于图3英语文本成语的排序表展示在图11b中。成语排序表利用记录成语制作成,这些成是在一个成语识别处理中被识别出来的,该处理属于翻译处理步骤中的一种,而排序表中禁止重复的数据。 图11中展示的表信息已经制作并且在翻译处理步骤中已使用。它没有直接在本发明中使用,这里解释它是因为它反映在翻译文本中,翻译文本中圆符号中数字各自包含四个字节,即“FφFφ”(两字节十六进制数据)表示一个圆符号和两字节数字的数据,而方符号中的数字各自包含四个字节,即“φFφF”(两字节十六进制数据)表示一个方符号和两字节数字的数据。 如上所述,对每个翻译单元而言对应于日语文本的英语文本数据信息已被包括在日语文本数据中,然而对于某些日语字,例如Wa ga,由于没有定义相应的英语文本数据,所以无英语文本数据信息与之对应。 现在参考图12的处理图和图13的一个处理流程说明该实施例的一种操作。 当通过键盘2确定了句子键时,处理机3把图3展示的英语文本数据和日语文本数据从外存储器6转移到存储器4(101)中。 然后,英语文本数据从存储器4转移到图象缓冲器5(102)。然后,存储器4中的日语文本数据去掉图3中的圆符号和方符号,即存储器4中的日语文本数据去掉“FφFφ”+数字数据和“φFφF”+数字数据被转移到图象缓冲器5(103)。这样,显示器1显示了如图12a展示的内容。 然后,各种编辑处理例如插入,删除,置换,移动和复制都用键盘2(104)完成。与本发明直接相联系的置换通过下面解释。 如图12b所示当将显示器1上日语文本数据中被置的字符串由键盘2确定时,处理机3在图象缓冲器5(201和202)中抽出字符串的前导位置和尾随位置。 然后,相应于将要置换的字符串的前导位,在对应于在图象缓冲器5中的日语文本数据的存储器4中日语文本数据中(在此以后叫做日语文本物理数据以区别于图象缓冲器5中的日语文本数据)中决定。日语文本的物理数据大于日语文本数据因为前者包括:“FφFφ”+数字数据和“φFφF”+数字数据(在此以后叫做相应的英语)。因此,当搜索日语文本物理数据时,通过跳越与相应的英语一致的四个字节与将在日语文本中被置换字符串前导位置一致的位置就能被抽出。如果在相应该将被置换的字符串的日本文本物理数据中紧靠着的前四位是相应英语,置换标记置1且四个字节的相应英语部分就加到应被置换字符的前导位置(203)中。 如图12c所示当通过键盘2确定3显示器上应置换字符串时,处理机3从图象缓冲器抽出应置换字符串。如果置换标志的“1”时与被置换字符串前四字节相同的四个字节的相应英语部分被加到置换字符串的开头(204)。 然后处理机3校验置换标志(205),并且当标志是1时,处理机用置换字符串(206)置换存储器4中与被置换字符串相同的日语文本物理数据中的全部字符串。如果置换标志不是1时,处理机用置换字符串(207)仅置换日语文本物理数据中与被置换字符串一致的一个字符串。 在上述置换处理后,仅仅是将对应于英语文本非成语“economicaL”的日语文本字从经济(Kei Zai)变为实利(jitsvri)(103)。 这样进一步完成了编辑(103)。然而如同在置换处理中作的那样,要在日语文本物理数据中保持相应的英语关系。则可以处理插入、删除,移动和复制。从置换处理中可以容易理解这样的处理。 于是被编辑的日语文本物理数据转移到外存储器6并且编辑处理结束(106)。 如上述,根据本发明,对于每个翻译单元而言与第一种语言文本的对应关系储存在第二种语言文本中,而当置换第二种语言文本字符串时,不仅校验第二种语言文本的匹配而且也校验第一种语言的匹配。因此能够防止由于字符匹配而引起的不必要置换。 因为表示与第一种语言文本对应关系的第二种语言文本数据在整个编辑过程中被保持,所以允许有不同的编辑处理。