首页 / 翻译装置、翻译方法以及存储介质

翻译装置、翻译方法以及存储介质失效专利 发明

技术内容

技术领域 本发明涉及用于把文件从一种语言翻译成另一种语言的方法、装置 以及存储介质。 背景技术 往往把单词的第一个字用作该单词的缩写,以产生简明的文件。图 4示出了使用缩写的文件示例。在该示例中,使用缩写表示多个商店中的 每一个的商业行;即,在表中表示所售货物的名称的第一个字,如分别 是“海産物(marine product)”、“土産(souvenir)”以及“菜子 (confectionary)”的“海”、“土”以及“菜”。在该表中还使用缩写“営” 表示“営業時間(business hours)”。在该表的上部包括示出缩写及其定义 的说明注释。这种缩写使得表中的信息简明并且容易理解。 日本专利公报JP63-95566A公开了一种使用单词的第一个字的典型 文件处理方案。该文件示出了一地址簿,其针对屏面上的表示县名、城 市名、镇名或村名、或人名的每个描绘区,都存储一关键字符(第一个 字)及其对应的表达。当光标指针移动到屏面上希望的区域并且在该区 域中输入了关键字符时,在该区域中显示以该关键字符为其第一个字的 表达。 已开发出用于输入采用一种语言写成的文件并将其翻译成另一种语 言的翻译装置。然而,使用诸如图4所示的表的翻译装置在执行正确的 翻译时遇到了困难。例如,把日语单词“土産”翻译成英语单词“souvenir”。 然而,把日语单词“土産”的第一个字符“土”翻译成了英语单词“earth”。 因此,尽管“souvenir”的第一个字母是“S”,但是缩写却译成了“earth” 的第一个字母“E”。因此,对日语单词的第一个字符的直接翻译可能导 致对该单词的缩写的误翻译。 发明内容 本发明鉴于上述情况而提出,并提供了一种翻译装置。该翻译装置 具有图像分析单元和翻译单元。图像分析单元确定单词和单词的缩写。 翻译单元翻译单词并基于所翻译的单词生成新缩写。 附图说明 以下根据附图对本发明的实施例进行详细描述,附图中: 图1示出了翻译装置1的硬件配置; 图2示出了翻译装置1的功能框图; 图3示出了翻译装置1的操作流程; 图4示出了使用单词缩写的文件示例; 图5示出了用于把日语翻译成英语的缩写字典的示例; 图6示出了图4所示的文件示例的译文; 图7到9示出了翻译装置1的操作流程; 图10示出了用于把日语翻译成英语的缩写字典的示例; 图11示出了根据修改例(1)的翻译装置1的操作流程;以及 图12A和12B示出了在文件中使用的典型符号。 具体实施方式 A.配置 翻译装置1适合于把文件翻译成目标语言,并适合于产生该文件的 副本。 图1示出了翻译装置1的硬件配置。翻译装置1具有控制单元4。 控制单元4包括图1中未示出的CPU(中央处理单元)、ROM(只读存 储器)以及RAM(随机存取存储器)。CPU执行存储在ROM中的OS(操 作系统)程序,以控制翻译装置1的组件。 存储单元5是非易失性的,其被配置成硬盘驱动单元等。存储单元 5存储用于执行多种操作(如输入、翻译以及输出文件)的程序。 指令输入单元41具有:键盘40,带有十键键区和启动按钮;和显 示单元39,包括带有触摸板功能的LCD屏。通过使用指令输入单元41, 用户可以向翻译装置1输入指令。在翻译装置1发生故障的情况下,可 以在显示单元39处显示翻译装置1的状态。 把适于在其上形成图像的纸10叠置在馈纸盘9上。当通过指令输入 单元41输入用于在纸10上形成图像的指令时,馈纸辊33开始旋转,并 从馈纸盘9逐张馈送纸10。通过对辊34、35以及37沿传送路径36传送 纸10。 图像输入单元12光学输入文件,并生成图像数据。 可以把图像输入单元12配置成扫描单元。更具体来说,从光源13 把光照射在置于压板玻璃2上的文件上。通过镜14、15以及16反射来 自文件的光,并由受光单元17接收该光。图像处理单元18把由受光单 元17接收到的反射光转换成电信号,以产生由黄色(Y)、品红色(M)、 青色(C)、黑色(K)诸颜色组成的图像数据。 图像形成单元6具有图像形成机构7Y、7M、7C、7K和转印带8。 各图像形成机构7Y、7M、7C、7K分别形成黄色、品红色、青色以 及黑色的单色调色剂图像。由于这些图像形成机构具有相同的结构,所 以仅对图像形成机构7Y的细节进行描述。 图像形成机构7Y包括感光鼓(photoconductive drum)20Y(图像支 承部件),其上形成静电潜像,并通过其支承调色剂图像。图像形成机构 7Y还包括围绕感光鼓20Y的静电充电单元21Y、曝光单元19Y、显影单 元22Y以及清洁单元24Y。 在感光鼓20Y按箭头A的方向旋转的同时,静电充电单元21Y将感 光鼓20Y的整个表面均匀地充电到相同极性的某个电势电平。 曝光单元19Y按照图像数据将光束照射在感光鼓20Y的表面上。 可以将曝光单元19Y配置成光栅输出扫描仪。更具体来说,曝光单 元19Y根据图像数据对从半导体激光单元(未示出)发出的激光束进行 扫描,以在感光鼓20Y的表面上形成静电潜像。在将激光束照射在感光 鼓20Y的表面区域上之后,由于感光鼓20Y的光电导性,该区域的电势 电平随激光束的强度而减小。由此,在感光鼓20Y的表面上形成对应于 图像数据的静电潜像。 显影单元22Y对形成在感光鼓20Y的表面上的静电潜像进行显影。 更具体来说,将调色剂(静电充电色素材料)充以与感光鼓20Y的表面 相同的极性。然后,从调色剂盒23Y向感光鼓20Y的表面馈送调色剂, 以在感光鼓20Y的表面上产生调色剂图像。由此在感光鼓20Y的表面上 形成调色剂图像,其为所述静电潜像的负像。 转印带8安装在辊26、27、28、29上并受驱动按箭头B的方向旋转。 转印带8在感光鼓20Y的下方运行。当感光鼓20Y靠压转印带8时,形 成在感光鼓20Y上的调色剂图像就转印到转印带8。 清洁单元24Y从感光鼓20Y去除残留的调色剂。 类似地,在图像形成机构7M、7C、7K中,分别在感光鼓20M、20C、 20K上形成各颜色的调色剂图像。相继把各颜色的调色剂图像重叠转印 到转印带8。 当不需要在图像形成机构7Y、7M、7C、7K之间进行区分时,简单 地将它们共同称为图像形成机构7。类似地,当不需要在其他部件的颜色 之间进行区分时,也略去标号Y、M、C、K。 在纸10被从馈纸盘9馈送到传送路径36上之后,纸10进入转印带 8与传送辊30之间的隙部,并靠压转印带8。来自纸10的压力和静电吸 力使得调色剂图像被转印到纸10的表面上。 然后,由对辊31将纸10导入定影单元11中,定影单元11靠压并 加热纸10,从而将调色剂定影在纸10的表面上。由此,在纸10上形成 了图像,然后将纸10排出到收集盘32。 B.功能 图2示出了翻译装置1的功能框图。CPU执行存储在存储单元5中 的程序以执行翻译功能。 字典201包括单词及其对应的多种语言的含义构成的集合,并被存 储在存储单元5中。在本实施例中,例如,字典201可以包括日语、英 语以及汉语的单词集合。 缩写字典202包括单词、单词的缩写、单词的其他语言的译文以及 缩写的其他语言的译文构成的集合,该缩写字典202存储在存储单元5 中。在本实施例中,例如,缩写字典202可以包括日语、英语以及汉语 的单词、单词的译文、单词的缩写、缩写的译文构成的集合。 图5示出了用于把日语翻译成英语的缩写字典的示例。如图5所示, 通过使用单词的第一个字符将日语单词“海産品”缩写成日语字符“海”。 该单词的英语译文是“Marine Product”。该缩写的英语译文是该单词的英 语译文的第一个字母“M”。 按类似的方式,通过缩写生成单元105针对各种单词把包括缩写的 译文的集合存储在缩写字典202中。 输入单元101通过使用图像输入单元12输入文件,并生成该文件的 图像数据。 图像分析单元102分析图像数据,以确定文件中的缩写定义区。在 本实施例中把缩写定义区定义为其中写有说明注释的区域。在典型情况 下,缩写定义区位于围绕图的区域或文件中的表中、或位于文件的顶部 或底部。 图像分析单元102通过使用公知的版面分析方法分析文件的版面, 并确定文件中的图/表区或文本区的区域。然后图像分析单元102例如把 与图/表区相邻的区域确定为缩写定义区,其中定义有单词的缩写。 在图4的示例中,将单词的缩写置于开矩形、开圆中,或置于紧接 在该单词之前的一对括弧中。可以使用冒号或斜线将单词的缩写与单词 分开来。图像分析单元102将其中按上述多种方式中的任何一种描述缩 写的区域确定为缩写定义区。也可以将文件中由用户使用轮廓色 (highlighter)等标记出的区确定为缩写定义区。 字符识别单元103根据来自输入单元101的图像数据识别包括在文 件中的字符串。 存储单元5存储公知的OCR(光学字符识别)程序。CPU执行该 OCR程序并执行字符识别处理。 单词翻译单元104从字典201选择由字符识别单元103在由图像分 析单元确定的缩写定义区中识别出的单词的译文。 缩写生成单元105通过选择由单词翻译单元104所选择的单词的译 文的第一个字母来生成缩写的译文。缩写生成单元105把产生的缩写的 译文和由字符识别单元103在确定的缩写定义区中识别出的缩写存储在 缩写字典202。 在图4的示例中,将紧接在日语单词“海産品”之前的开矩形中的 日语字符“海”确定为该单词的缩写。 在该示例中,单词“海産品”的译文是“Marine Product”。因此, 选择该单词的译文的第一个字母“M”作为缩写的译文。因此,如图5 所示,把单词“海産品”、单词的缩写“海”、单词的译文“Marine Product” 以及缩写的译文“M”构成的集合存储在缩写字典202中。 翻译单元106通过从字典201选择单词译文并从缩写字典202选择 缩写译文来从由输入单元101产生的图像数据生成文件的全部译文。 输出单元107输出表示由翻译单元106所生成的全部译文的图像数 据。 图像形成单元6接收输出的图像数据,并在纸10的表面上形成表示 全部译文的图像。最后,将纸10排出到收集盘32。 C.操作 图3示出了根据本发明一实施例的翻译装置1的操作流程。图4示 出了使用单词缩写的文件的示例。 在步骤A01中,由用户将纸文件(以下称为文件)面朝下放置在台 板玻璃2上。在指令输入单元41处按压启动按钮。 在步骤A02中,图像输入单元12生成文件的图像数据并将该图像数 据存储在存储单元5中。 在步骤A03中,CPU通过使用图像分析单元102分析图像数据,并 提取文件中的缩写定义区。 在步骤A04中,CPU确定是否存在缩写定义区。当存在缩写定义区 时(步骤A04:是),CPU使其操作进行到步骤A05,否则,当不存在缩 写定义区时(步骤A04:否),CPU使其操作进行到步骤A08。 在图4的示例中,日语字符“海”置于紧接在日语单词“海産品” 之前的开矩形中。字符“海”是单词“海産品”的第一个字符。因此把 围绕该字符和单词的区域确定为缩写定义区。类似地,把各围绕“土” 和“土産”、“菓”和“菜子”、“営”和“営業時間”的区域各自确定为 缩写定义区。因此,CPU使其操作进行到步骤A05。 在步骤A05中,CPU通过使用字符识别单元103识别出包括在缩写 定义区中的字符串。CPU通过使用单词翻译单元104从字典201选择在 缩写定义区中识别出的单词的译文。 在本示例中,选择“Marine Product”作为单词“海産品”的译文。 在步骤A06中,通过使用缩写生成单元105,CPU通过选择单词译 文的第一个字母生成缩写译文。 在本示例中,选择译文“Marine Product”的第一个字母“M”作为 缩写的译文。 在步骤A07中,CPU将单词、单词译文、单词缩写以及在步骤A06 中选择的缩写译文构成的集合存储在缩写字典202中。 在图5的示例中,将单词“海産品”、单词缩写(“海”)、单词译文 “Marine Product”以及缩写译文(“M”)构成的集合存储在缩写字典202 中。 在步骤A08中,通过使用翻译单元106,CPU通过从字典201选择 单词译文并从缩写字典202选择缩写译文,根据由输入单元101产生的 图像数据生成文件的全部译文。因此,如图6所示生成全部译文。 CPU输出表示全部译文的图像数据。图像形成单元6接收输出的图 像数据,并在纸10的表面上形成表示该全部译文的图像。最后,将纸10 排出到收集盘32。 因此,在文件中确定缩写定义区。通过选择单词译文的第一个字母 生成单词缩写的译文。因此,单词缩写的译文正确地表示了单词的译文。 D.处理翻译缩写时的冲突I 在图3所示的上述操作流程中使用作为单个字母的缩写译文。因此, 在翻译不同单词的缩写时会发生冲突。图10示出了这种冲突。 在本示例中,将日语单词“業種”翻译成英语术语“Type of Industry”, 将日语单词“交通費”翻译成英语术语“Transportation expenses”。因此, 在图3的操作流程中两个缩写的英语译文都是“T”。因此,无法将这两 个缩写译文相互区分开来。 图7示出了适于处理翻译缩写中的这种冲突的翻译装置1的操作流 程。 在步骤B01中,CPU从字典201选择单词的译文。 在步骤B02中,CPU选择为步骤B01中的单词所选择的译文的第一 个字母。 在步骤B03中,CPU确定在步骤S2中选择的第一个字母是否与存 储在缩写字典202中的缩写译文相同。如果第一个字母相同(步骤B03: 是),则CPU使其操作进行到步骤B04,否则(步骤B03:否)CPU使 其操作进行到步骤B05。 在步骤B04中,从翻译术语的第二个单词选择第一个字母,或从翻 译术语的第一个单词选择第二个字母,以将其添加到先前选择的缩写译 文。将所选择的字母连接到在步骤B02中选择的字母,以产生缩写的新 译文。CPU使其操作返回到步骤B03。 在步骤B03中,CPU确定缩写的新译文是否与存储在缩写字典202 中的缩写译文相同。如果新译文是相同的(步骤B03:是),则CPU使其 操作进行到步骤B04,否则(步骤B03:否)CPU进行到步骤B05。 在步骤B05中,CPU将单词、单词译文、单词缩写以及缩写译文构 成的集合存储在缩写字典202中。 在步骤B06中,CPU确定是否还剩有待翻译的任何缩写定义区。如 果没有剩余区域(步骤B06:否),则CPU结束其操作,否则(步骤B06: 是)CPU使其操作返回到步骤B01。 在图10的示例中,生成译文“T”并将其作为英语译文“Type of industry”的缩写存储在缩写字典202的第一条记录中,而根据英语译文 “Transportation expenses”生成译文“TE”并将其存储为针对缩写表202 的第三条记录的缩写。因而可以将两个缩写译文相互区分开来。 因此,如果生成的缩写译文与存储在缩写字典202中的缩写译文相 同,那么通过在新缩写译文中包括其他字母可以生成一新缩写译文。 E.处理翻译缩写时的冲突II 图8示出了适于处理在翻译缩写过程中的冲突的翻译装置1的另一 操作流程。在该操作流程中,假设缩写译文适于具有字体属性。 注意,步骤C01到C03、C05以及C07到C08中的操作分别与图7 中的步骤B01到B03、B04以及B05到B06中的操作相同。因此,将描 述步骤C04和C06的详情。 在步骤C04中,CPU确定缩写译文是否至少具有规定的字母长度(例 如,2个字母)。如果缩写译文具有较短的长度(步骤C04:是),则CPU 使其操作进行到步骤C05,否则(步骤C04:否)CPU进行到步骤C06。 在步骤C06中,CPU改变新缩写译文或具有规定字母长度的缩写译 文的字体属性。更具体来说,可以改变新缩写译文的字体、字符颜色或 背景颜色。可以将新缩写译文置于矩形中。 在图10的示例中,根据各英语译文“Type of industry”和 “Transportation expenses”生成了相同的译文“T”并将它们存储在缩写 字典202的第一条和第三条记录中。然而,由于缩写字典202的第三条 记录中的译文“T”的字体属性不同于缩写字典202的第一条记录中的译 文“T”的字体属性,所以通过它们的字体属性的差异可以区分这两个 缩写译文。 因此,在达到预定字母长度之后,只改变缩写译文的字体属性,而 不执行进一步的连接以加长缩写译文。因此,可以将缩写译文保持在预 定字母长度以内。 F.处理翻译缩写时的冲突III 图9示出了适于处理翻译缩写过程中的冲突的翻译装置1的另一操 作流程。 注意,步骤D01到D03、D06以及D07到D08中的操作分别与图7 中的步骤B01到B03、B04以及B05到B06中的操作相同。因此,将描 述步骤D04和D05的详情。 在步骤D04中,CPU确定在字典201中是否存在待翻译单词的同义 译文。如果存在该单词的同义译文(步骤D04:是),则CPU使其操作 进行到步骤D05,否则(步骤D04:否)CPU使其操作进行到步骤D06。 在步骤D05中,CPU从字典201选择该单词的同义译文,将单词的 译文替换为单词的同义译文,并使其操作返回到步骤D02。 在图10的示例中,根据各英语译文“Type of industry”和 “Transportation expenses”生成了相同的译文“T”并将其存储在缩写字 典202的第一条和第三条记录中。 然而,由于在字典201中存在单词“Transportation expenses”的同义 译文“Fare”,所以通过选择该同义译文“Fare”的第一个字母可以生成 新译文“F”。由此,可以将译文“T”与“F”相互区分开来。 因此,可以根据同义译文生成新缩写译文,而不加长缩写译文。 G.修改例 (1)在本发明中,可以使用符号替换上述实施例中的单词缩写。 图12A示出了在文件中使用的典型符号。更具体来说,符号 表示邮政编码,符号“(株)”表示股份公司。图12B还示出了在地图文件 中使用的典型符号及其定义。 在本修改例中,在符号字典中存储有符号及其定义构成的集合。按 类似方式可以生成符号的译文。把存储在符号字典中的符号的定义翻译 成目标语言。然后,选择该定义的译文的第一个字母作为该符号的译文。 图11示出了根据本修改例的操作流程。 假设在文件中使用图12B中的第五个符号表示高中,然而在目标语 言中不存在表示高中的符号。 在步骤E01中,设置文件。在步骤E02中,生成文件的图像数据。 在步骤E03中,从图像数据识别出包括在文件中的符号。在步骤E04中, 确定所识别出的符号存储在符号字典中。如果在符号字典中未存储有该 符号(步骤E04:否),则CPU使其操作进行到步骤E05,否则(步骤 E04:是)CPU使其操作进行到步骤E08。 在步骤E05中,将符号的定义翻译成目标语言。在步骤E06中,通 过选择该符号定义的译文的第一个字母生成符号译文。在步骤E07中, 将符号和生成的符号译文构成的集合存储在符号字典中。在步骤E08中, 执行文件的全部翻译,同时通过从符号字典选择符号译文执行对该文件 中使用的符号的翻译。 在本示例中,根据定义“高中”的目标语言译文为该符号生成译文 “HS”。 图像输入单元12可以是通过网络连接到翻译装置1的分立扫描装 置。图像形成单元6可以是通过网络连接到翻译装置1的分立打印装置。 翻译装置1可以独立设置,并与任何其它计算机相连接以处理文件。另 外,文件不限于纸文件,也可以是电子文件等。 如上所述,根据本发明的一方面,提供了一种翻译装置。该翻译装 置具有:第一字典,存储有单词及其对应的多种语言的含义构成的集合; 输入单元,根据文件生成图像数据;图像分析单元,根据由输入单元产 生的图像数据通过分析文件的版面确定文件的缩写定义区,该缩写定义 区中包括所定义单词的缩写或符号;字符识别单元,用于根据由输入单 元生成的图像数据识别文件中包括的字符串;单词翻译单元,用于从第 一字典中选择缩写定义区中包括的单词的译文,该单词的缩写由图像分 析单元来确定;缩写生成单元,用于通过选择由单词翻译单元选择的单 词的译文的第一个字生成缩写或符号的译文;第二字典,用于存储缩写 或符号以及由缩写生成单元为该缩写或符号选择的译文构成的集合;以 及翻译单元,用于通过从第一字典选择单词的译文并从第二字典选择缩 写或符号的译文根据图像数据生成文件的全部译文。 根据本发明的一方面,提供了一种翻译装置,其具有:第一字典, 存储有单词及其对应的多种语言的含义构成的集合;输入单元,用于根 据文件生成图像数据;图像分析单元,用于根据由输入单元产生的图像 数据通过分析文件的版面确定文件的缩写定义区,该缩写定义区中包括 有所定义单词缩写或符号;字符识别单元,用于根据由输入单元生成的 图像数据识别包括在文件中的字符串;单词翻译单元,用于从第一字典 中选择包括在缩写定义区中的单词的译文,该单词的缩写由图像分析单 元来确定;缩写生成单元,用于通过选择由单词翻译单元选择的单词的 译文的第一个字母生成缩写或符号的译文;第二字典,用于存储缩写或 符号以及由缩写生成单元为该缩写或符号选择的译文构成的集合;以及 翻译单元,用于根据图像数据通过从第一字典选择单词的译文并从第二 字典选择缩写或符号的译文生成文件的全部译文。 根据本发明的一方面,提供了一种方法,该方法包括以下步骤:根 据文件生成图像数据;根据生成的图像数据通过分析文件的版面确定文 件的缩写定义区,该缩写定义区中包括有所定义单词的缩写或符号;根 据生成的图像数据识别包括在文件中的字符串;从第一字典中选择包括 在所确定的缩写定义区中的单词的译文,该第一字典存储有单词及其对 应的多种语言的含义构成的集合;通过选择所选单词的译文的第一个字 母生成缩写或符号的译文;生成第二字典,其用于存储缩写或符号以及 为该缩写或符号选择的译文构成的集合;以及根据图像数据通过从第一 字典选择单词的译文并从第二字典选择缩写或符号的译文生成文件的全 部译文。 根据本发明的一方面,提供了一种计算机可读的存储介质。该存储 介质存储有可由计算机执行以执行功能的指令程序,该功能包括:根据 文件生成图像数据;根据生成的图像数据通过分析文件的版面确定文件 的缩写定义区,该缩写定义区中包括有所定义单词的缩写或符号;根据 生成的图像数据识别包括在文件中的字符串;从第一字典中选择包括在 所确定的缩写定义区中的单词的译文,该第一字典存储有单词及其对应 的多种语言的含义构成的集合;通过选择所选单词的译文的第一个字母 生成缩写或符号的译文;生成第二字典,其用于存储缩写或符号以及为 该缩写或符号选择的译文构成的集合;以及根据图像数据通过从第一字 典选择单词的译文并从第二字典选择缩写或符号的译文生成文件的全部 译文。 因此,根据文件的图像数据确定文件中的缩写定义区;将该缩写定 义区中的单词翻译成目标语言;通过选择该单词译文的第一个字母生成 缩写译文;将该缩写译文存储在缩写字典中;并且在通过使用缩写字典 翻译缩写的同时翻译文件。 因此,可以正确地翻译使用了单词缩写的文件。 出于例示和说明的目的给出了对本发明实施例和修改例的上述说 明。并不旨在穷举或者将本发明限制为所公开的精确形式。显然,本领 域的技术人员可以显见许多修改例和变型例。对实施例的选取和描述的 目的是阐述本发明的原理及其实际应用,从而使得本领域的其他技术人 员能够在本发明的各种实施例中并以适于所期望的具体应用的各种修改 来理解本发明。本发明的范围由所附权利要求及其等同物来限定。 通过引用,将2005年3月25日提交的日本专利申请No.2005-90232 的全部公开内容(包括说明书、权利要求、附图以及摘要)并入于此。

相关技术
方法存储相关技术
翻译方法相关技术
佐藤直子发明人的其他相关专利技术