文本识别方法及装置_专利转让申请注册交易-盲点网

文本识别方法及装置有效专利发明

技术领域

[0001] 本申请涉及人工智能技术领域，特别涉及一种文本识别方法。本申请同时涉及一种文本识别装置、一种计算设备，以及一种计算机可读存储介质。

具体实施方式

[0056] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况
下做类似推广，因此本申请不受下面公开的具体实施的限制。

[0057] 在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所
使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

[0058] 应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。
例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，
第二也可以被称为第一。

[0059] 首先，对本发明一个或多个实施例涉及的名词术语进行解释。

[0060] OCR：(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过
程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。
衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

[0061] PDF：(Portable Document Format，便携式文档格式)是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以
PostScript语言图像模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印
效果，即PDF会忠实地再现原稿的每一个字符、颜色以及图像。

[0062] DBNet：一种基于语义分割算法的文本检测网络，其接收到输入的图片后，经过特征提取和上采样融合并concat操作后得到特征图F，然后使用特征图F预测出概率图
(probability map)称为P，和使用特征图F预测出阈值图(threshold map)称为T，最后通过
概率图P和阈值图T计算出二值图B即可输出。

[0063] PDF Plumer：一种开源的基于python的PDF解析包，可以提取字符、表格等信息。

[0064] NMS：(Non‑Maximum Suppression，非极大值抑制)是抑制不是极大值的元素，用于目标检测中，就是提取置信度高的目标检测框，而抑制置信度低的误检框。一般来说，用在
当解析模型输出到目标框时，目标框会非常多，具体数量由anchor数量决定，其中有很多重
复的框定位到同一个目标，NMS用来去除这些重复的框，获得真正的目标框。

[0065] YOLO：(You Only Look Once，目标检测算法)是一种使用深卷积神经网络学习的特征来检测物体的目标检测器；YOLO v3作为YOLO的第三版本，主要由75个卷基层构成，卷
基层对于分析物体特征最为有效。在没有使用全连接层的情况下，该网络可以对应任意大
小的输入。

[0066] Faster‑RCNN：一种完全可微分的模型，其输入表示为Height×Width×Depth的张量(多维数组)形式，经过预训练CNN模型的处理，得到卷积特征图(convfeature map).即，
将CNN作为特征提取器，送入下一个部分；然后，RPN(Region Propose Network)对提取的卷
积特征图进行处理；RPN用于寻找可能包含objects的预定义数量的区域(regions，边界
框)；最后，基于R‑CNN模块完成对目标进行检测的处理。

[0067] 在本申请中，提供了一种文本识别方法。本申请同时涉及一种文本识别装置、一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

[0068] 实际应用中，对PDF格式文件中的文本进行识别，在很多场景中都得以应用，如PDF转换到WORD格式需要识别文本，或者提取PDF格式文件中的文本进行信息录入需要识别文
本。而通常情况下，PDF文本提取方法大多数采用OCR识别技术，即将PDF转换为图片，在利用OCR识别技术进行检测和识别；还有就是利用PDF Plumer等工具包提取PDF文本信息。而OCR
识别技术存在字符识别不精准的问题，针对特殊字符的识别错误率较高，利用文本信息提
取工具又无法去除页眉页脚进行识别，而且针对依靠重叠相同文字呈现文字加粗的方式，
在进行加粗文字的识别时容易识别出多个同类型字符。因此亟需一种有效的方案以解决上
述问题。

[0069] 参见图1所示的文本识别示意图，在获取到待识别文本后，为了能够对当前格式的待识别文本中包含的字符进行精准的识别，可以将待识别文本输入至识别模块进行处理，
以根据识别结果获得模块输出的待识别文本中的目标字符，以及目标字符对应的文本框，
建立目标字符和文本框的位置关系，以根据该位置关系可以确定文本框中包含的目标字符
有哪些，从而实现根据该位置关系可以确定待识别文本对应的目标文本；实现在识别出目
标字符后，可以通过文本框对待识别文本中包含的目标字符进行定位，保证识别出的目标
文本是由待识别文本映射而得到的，从而有效地保证了对待识别文本的识别精准度，降低
因字符排序错误而带来的识别误差。

[0070] 图2示出了根据本申请一实施例提供的一种文本识别方法的流程图，具体包括以下步骤：

[0071] 步骤S202，获取待识别文本。

[0072] 具体的，待识别文本具体是指需要对其中包含的字单元、图片内容、表格和/或公式进行识别，且需要提取文本所含内容的文本；需要说明的是，待识别文本的获取途径可以
来自于服务器对接的客户端，也就是说，用户通过对接服务器的客户端上传待识别文本后，
将开启文本识别处理操作，以实现向用户持有的客户端返回识别结果，其中用户持有的客
户端包括但不限于手机，电脑，平板电脑等智能设备，本实施例在此不作任何限定；相应的，待识别文本包括但不限于PDF格式，doc格式，docx格式等，本实施例在此不作任何限定。

[0073] 本实施例以待识别文本为PDF格式(该PDF格式的待识别文本为可解析的PDF，以支持后续解析识别文本内容)为例对文本识别方法进行说明，其他格式的待识别文本的识别
过程均可参见本实施例相同或相近的描述内容，在此不作过多赘述。

[0074] 步骤S204，将所述待识别文本输入至识别模块进行处理，获得所述待识别文本中目标字符，以及所述目标字符对应的文本框。

[0075] 具体的，在上述获取到待识别文本的基础上，进一步的，为了能够精准的对待识别文本中包含的内容进行识别，同时避免出现字符被重复识别或字符被遗漏识别的问题发
生，可以将待识别文本输入至识别模块进行处理，即识别待处理文本中的字符，并针对待识
别文本中的待识别内容构建文本框，在识别完成后将识别结果通过识别模块的输出层进行
输出，以根据识别结果获得待识别文本中包含的目标字符，以及目标字符对应的文本框。

[0076] 其中，识别模块具体是指集成文本处理单元和字符识别单元的集成模块，在对待识别文本进行识别处理时，文本处理单元和字符识别单元可以同时完成识别处理操作，也
可以按照顺序先后完成识别处理操作，为了提高识别处理速率，优选文本处理单元和字符
识别单元同时完成识别处理操作，即并列进行识别处理，本实施例在此不作任何限定。其
中，文本处理单元可以基于DBNet、YOLO v3或Faster‑RCNN等实现，字符识别单元可以基于
PDF Plumer或PDF Miner实现；具体实施时，可以根据实际需求选择，本实施例在此不作任
何限定。相应的，目标字符具体是指待识别文本中包含的字单元，一个字单元表示一个汉
字、一个数据或一个字母。文本框具体是指对待识别文本中的各个组成部分进行框选的矩
形框，通过文本框可以对目标字符进行定位。

[0077] 也就是说，在定位每个目标字符的位置时，先确定目标字符所属的文本框，再在文本框内按照每个目标字符的坐标进行排序即可；需要说明的是，可以以待识别文本的左上
角为原点，建立xy坐标系，基于该坐标系确定每个字符的字符坐标即可，也就是说，高度信
息为字符的y轴坐标，宽度信息为字符的x轴坐标。基于此，例如某一文本框对应待识别文本
中的一行目标字符，在确定目标字符与文本框的位置关系后，可以按照每个目标字符对应
的x轴坐标进行排序即可，无需考虑y轴坐标即可实现定位每个目标字符的位置，有效地提
高字符排序效率，以保证后续识别出的目标文本的精准度，同时避免字符排序出现混乱。

[0078] 在此过程中，为了能够保证识别模块可以精准的完成识别处理操作，需要在准备阶段对文本处理单元和字符识别单元作出充足训练，文本处理单元的训练过程如下：在获
得待识别样本后，将以待识别样本中的行、段落或者语种为文本框识别单位添加标签，基于
添加标签后的样本组成样本对，对初始文本处理单元进行训练，直至获得满足训练停止条
件的文本处理单元即可将其添加至识别模块。在对待识别样本添加标签时，以行为单位仅
需要考虑单行字符的x方向坐标；以段落为单位，需要在x方向坐标的基础上对y方向坐标再
进行定位，以达到识别出以段落为单位的文本框；以语种为单位添加文本框则是指：对文本
中连续且属于同一语种的字符进行一次打标，实现训练出的模型可以以语种为单位输出文
本框。

[0079] 实际应用中，不同的识别场景可以采用不同方式训练后的文本处理单元进行后续的识别处理操作，具体识别方式可以根据实际应用场景选择，本实施例在此不作任何限定。

[0080] 基于此，在获得待识别文本后，即可将待识别文本输入至识别模块进行处理，通过识别模块中的字符识别单元进行目标字符的识别，以及通过文本处理单元进行文本框的识
别，从而方便后续结合文本框和目标字符确定目标文本，实现在保证识别精准度的基础上，
还能够提高识别效率。

[0081] 进一步的，在识别出目标字符的过程中，考虑到每个字符在待识别文本中均对应唯一的位置，因此为了避免因为识别精准度低，导致位置重叠(字间距较小，字符重叠)的问
题发生，从而影响目标字符的确定，可以在识别过程中结合坐标确定目标字符，本实施例
中，具体实现方式如下所述：

[0082] 步骤S2042，将待识别文本输入至识别模块，通过识别模块中的字符识别单元进行处理，获得初始字符以及初始字符对应的字符坐标；

[0083] 步骤S2044，计算字符坐标之间的坐标相似度，根据计算结果筛选目标字符坐标；

[0084] 步骤S2046，基于目标字符坐标在初始字符中筛选出目标字符，并通过识别模块输出。

[0085] 具体的，字符识别单元具体是指能够对待识别文本中包含的字单元进行识别，并确定各个字符的坐标信息；相应的，初始字符即为被识别出的字单元，字符坐标即为每个初
始字符对应的坐标信息，该坐标信息表示字符在待识别文本中的位置；相应的，坐标相似度
具体是指表征各个字符坐标之间重合程度的标准，坐标相似度越高表明字符重叠概率越
大，进一步说明识别过程中同一位置识别出两个字符的可能性越大，反之，坐标相似度越小
表明字符重叠概率越小，进一步说明识别过程中同一位置识别出两个字符的可能性越小；
坐标相似度可以采用IOU(Intersection over Union，重叠度)算法实现，公式如下：IOU＝
(A∩B)/(A∪B)，其中，A和B分别表示相邻的两个字符对应的坐标；在IOU值高于预设阈值的
情况下，认为重合，反之则不重合，预设阈值可以设置为0.9或0.85等，本实施例在此不作任何限定。目标字符坐标具体是指剔除重复字符坐标之后确定的字符坐标，目标字符坐标能
够充分反映每个字符的位置，以此为基础即可确定待识别文本中的目标字符，实现通过坐
标筛选的方式降低识别不精准时带来的误差。

[0086] 其中，初始字符的字符坐标将以待识别文本的左上角为原点，建立xy坐标系，基于该坐标系确定每个初始字符的字符坐标即可，也就是说，高度信息为字符的y轴坐标，宽度
信息为字符的x轴坐标。

[0087] 同时，在该坐标系中确定每个初始字符的坐标时，为了能够保证定位字符的坐标的精准度，可以按照四个坐标定位一个字符坐标的方式实现，即基于一个初始字符构建一
个矩形框，以矩形框的每个顶点作为坐标点，以此定位一个初始字符，也就是说，这四个顶
点分别对应的坐标即为初始字符对应的字符坐标，实际应用中，为了高效确定初始字符的
坐标，仅确定每个初始字符所在矩形框的对角线上的顶点对应的坐标即可。此外，还可以采
用一个坐标定位一个字符的方式实现，即选择初始字符的中心点的坐标作为字符坐标；实
际应用中，确定初始字符的字符坐标的方式可以根据实际应用场景进行选择，本实施例在
此不作任何限定。

[0088] 基于此，在得到待识别文本后，可以将待识别文本输入至识别模块，经过识别模块中的字符识别单元可以确定待识别文本中包含的初始字符，以及各个初始字符对应的字符
坐标，为了能够提高识别精准度，此时可以基于字符坐标筛选目标字符，具体是指计算各个
初始字符对应的字符坐标之间的坐标相似度，以根据坐标相似度选择大于预设相似度阈值
的字符坐标进行去重处理，即将字符相似度大于预设相似度阈值的字符坐标对应的初始字
符进行剔除，从而根据剔除重复字符坐标之后确定的目标字符坐标，从初始字符中筛选出
目标字符，并输出识别模块，以用于后续创建待识别文本对应的目标文本，保证识别精准
度。

[0089] 实际应用中，计算坐标相似度并筛选出目标字符的过程可以采用NMS方法实现去重，从而保证筛选出的目标字符更加精准，以此为后续生成目标文本打下基础，避免因为识
别精度问题而带来的误差；此外，还可以基于预设的去重规则实现去重处理操作，即确定每
个初始字符的中心点，计算相邻中心点之间的距离，在距离小于预设距离的情况下认为相
邻中心点对应的初始字符重叠，之后剔除重叠的初始字符即可得到目标字符。相应的，字符
的识别可以利用PDF Plumer或PDF Miner等完成，实现可以精准的对PDF格式的待识别文本
中的字符和坐标信息进行提取，辅助完成目标字符的识别处理操作。具体实施时，字符的识
别以及去重处理还可以根据实际需求选择其他处理方式，本实施例在此不作任何限定。

[0090] 综上，通过以字符坐标为基础进行目标字符的筛选，能够有效的降低识别不精准而带来的误差，从而提高目标字符的识别精准度，能够保证目标字符与待识别文本中包含
的字单元更加接近，从而有效的保证后续生成的目标文本更加精准。

[0091] 更进一步的，在识别出目标字符对应的文本框的过程中，为了能够通过文本框对每个目标字符进行精准的定位，从而保证目标文本的识别精准度，可以结合文本处理单元
完成文本框的识别，本实施例中，具体实现方式如下：

[0092] 步骤S2142，将待识别文本输入至识别模块，通过识别模块中的文本处理单元进行处理获得文本图片以及文本图片对应的尺寸信息。

[0093] 具体的，文本识别单元具体是指能够将PDF格式的待识别文本转换为图片格式，且能够识别出文本图片尺寸信息的单元；其中，文本图片具体是指将待识别文本转换为图片
格式后得到的图片，相应的，尺寸信息具体是指文本图片所对应的长宽信息；在文本处理单
元对待识别文本进行处理过程中，实则是将待识别文本转换为通用的的图片格式，如jpg或
png等格式，以用于后续使用。

[0094] 基于此，在得到待识别文本后，可以将待识别文本输入至识别模块，通过识别模块中的文本处理单元对待识别文本进行处理，可以将待识别文本转换为图片格式，获得文本
图片，同时确定文本图片的尺寸信息，以方便后续结合文本图片和尺寸信息确定目标字符
对应的文本框，辅助后续完成识别出目标文本。

[0095] 步骤S2144，检测文本图片中包含的文本组成元素，并基于尺寸信息创建文本组成元素对应的文本框。

[0096] 具体的，在上述获得文本图片以及文本图片对应的尺寸信息后，进一步的，为了能够精准的确定目标字符对应的文本框，此时可以在文本图片中检测出待识别文本的文本组
成元素，并基于尺寸信息创建每个文本组成元素对应的文本框。其中，文本组成元素具体是
指组成待识别文本的基本元素，包括但不限于页眉、页脚和文本行等；相应的，文本组成元
素对应的文本框具体是指能够框选页眉、页脚或文本行的矩形框，在确定每个文本组成元
素对应的文本框后，即可对目标字符进行定位，辅助完成目标文本的识别处理。

[0097] 需要说明的是，文本框作为后续组成目标文本基础，因此在基于尺寸信息创建文本框时，可以按照下述两种方式实现。第一方面，以字单元边缘为界限进行文本框的创建，
也就是说，创建完成的文本框将与框内字单元贴合；另一方面，以字单元边缘设定尺寸为界
限进行文本框的创建，也就是说，创建完成的文本框将与框内字单元距离设定尺寸，并且该
尺寸不会影响其他文本框，即不会与其他文本框产生重叠，实际应用中，文本框的创建可以
根据需求选择，本实施例在此不作任何限定。

[0098] 实际应用中，在从文本图片中检测文本组成元素时，可以采用DBNet、PSENet或PANNet等算法实现，即将文本图片输入至训练好的模型，即可根据模型的识别结果获得待
识别文本的文本组成元素，页眉、页脚和文本行，以方便后续进行目标文本的识别。

[0099] 基于此，为了能够精准的检测出文本组成元素，在训练时，可以通过将大量PDF文件转换为图片，之后对每个图片中的页眉、页脚以及文本行进行标注，根据标注结果获得大
量的样本对，之后利用样本对对DBNet模型进行训练，以根据训练结果获得满足使用需求的
DBNet模型，以用于对文本组成元素的识别处理。也就是说，通过DBNet模型可以对文本图片
进行识别，并输出待识别文本对应的页眉、页脚和文本行。

[0100] 进一步的，在检测出文本组成元素后，由于每一个文本组成元素均会对应一部分目标字符，因此只有将各个目标字符归类到相对应的文本框内，即可识别出目标文本，因此
确定每个文本组成元素对应的文本框，可以辅助后续定位目标字符，本实施例中，具体实现
方式如下所述：

[0101] 步骤S21442，基于尺寸信息确定页眉对应的页眉坐标、页脚对应的页脚坐标，以及文本对应的文本行坐标；

[0102] 步骤S21444，根据页眉坐标创建页眉文本框、根据页脚坐标创建页脚文本框，以及根据文本行坐标创建文本行文本框；

[0103] 步骤S21446，将页眉文本框、页脚文本框以及文本行文本框作为文本组成元素对应的文本框。

[0104] 具体的，页眉坐标具体是指待识别文本中页眉区域所对应的坐标信息；页脚坐标具体是指待识别文本中页脚区域所对应的坐标信息；文本行坐标具体是指待识别文本中正
文区域所对应的坐标信息；相应的，页眉文本框具体是指对页眉区域进行框选的矩形框；页
脚文本框具体是指对页脚区域进行框选的矩形框；文本行文本框具体是指对正文区域进行
框选的矩形框；需要说明的是，文本行文本框可以是对正文区域包含的全部内容进行框选
的一个矩形框；也可以是对正文区域包含的全部内容中按照段落进行框选的多个矩形框；
还可以是对正文区域包含的全部内容中按照字单元进行框选的多个矩形框；还可以是对正
文区域包含的全部内容中按照行为单位进行框选的多个矩形框；还可以是对正文区域包含
的全部内容中按照语言种类行框选的多个矩形框，具体实施时，可以根据需求选择，本实施
例在此不作任何限定。

[0105] 实际应用中，通常情况下一个文档的组成部分都是由文本行、页眉和/或页脚组成，因此只需要对每个区域进行确定，并向每个区域中添加经过去重后的目标字符即可生
成待识别文本对应的目标文本。

[0106] 基于此，在文本组成元素包含页眉、页脚和文本行的情况下，在检测出待识别文本中的文本组成元素后，即可根据文本图片的尺寸信息定位页眉对应的页眉坐标，页脚对应
的页脚坐标，以及文本行对应的文本行坐标；在此过程中，可以基于文本图片的尺寸信息选
择与之匹配的基准坐标定位模板，之后在模板中读取页眉对应的四个顶点坐标作为页眉坐
标，页脚对应的四个顶点坐标作为页脚坐标，文本行对应的四个顶点坐标作为文本行坐标；
再对文本组成元素对应的坐标进行连线，即可创建出文本框，即按照页眉坐标即可创建出
页眉区域对应的页眉文本框，按照页脚坐标即可创建出页脚区域对应的页脚文本框，以及
按照文本行坐标即可创建出文本行区域对应的文本行文本框，此时将页眉文本框、页脚文
本框以及文本行文本框作为文本组成元素对应的文本框即可，以用于后续对各个目标字符
进行定位，从而识别出目标文本。

[0107] 需要说明的是，基准坐标定位模板是预先设定好的与待识别文本类型相匹配的模板，且基准坐标定位模板包含各个文本组成元素对应的坐标；当检测出待识别文本中的文
本组成元素后，即可通过基准坐标定位模板确定文本组成元素相对应的坐标，以用于后续
创建文本框。

[0108] 综上，通过以区域为单位创建文本组成元素的文本框，可以保证文本框不存在重叠，同时能够辅助后续定位目标字符的位置，保证识别出的目标文本的精准度。

[0109] 步骤S2146，将文本组成元素对应的文本框作为目标字符对应的文本框，并通过识别模块输出。

[0110] 具体的，在得到文本组成元素对应的文本框后，将其作为目标字符对应的文本框即可，方便后续按照该文本框对每个目标字符进行定位，保证识别出目标文本的精准度。基
于此，由于每个目标字符均对应唯一的坐标信息，因此按照文本框包含坐标的关系，即可将
各个目标字符添加到各个文本框内，再对文本框内的目标字符进行排序，即可得到目标文
本。

[0111] 举例说明，在获取到PDF格式的论文后，将该论文输入至识别模块，通过识别模块中的文本处理单元(如OCR检测单元)，将PDF格式的论文转换为图片，并根据转换结果记录
论文的页面尺寸信息，即页面的长宽信息；之后利用训练好的DBNet模型检测论文中的页
眉、页脚以及文本行，同时记录页眉、页脚以及文本行各自对应的坐标信息，并结合坐标信
息确定页眉对应的页眉文本框，页脚对应的页脚文本框，以及文本行对应的文本行文本框。

[0112] 进一步的，在确定论文中每个组成部分对应的文本框的同时，还将利用识别模块中的字符识别单元对论文中包含的字符进行提取，即利用PDF Plumer提取各个字符，并确
定各个字符对应的字符坐标；之后利用NMF方法计算各个字符坐标之间的相似度，并选择相
似度大于预设相似度阈值的字符坐标进行去重，将剩余的字符坐标作为目标字符坐标，此
时结合目标字符坐标在识别出的字符中筛选出目标字符，作为对论文中的全部字单元的识
别结果，以用于后续组成论文对应的目标文本。

[0113] 此外，在待识别文本中包含图片、表格和/或公式的情况下，为了能够保证识别处理后图片、表格和/或公式都可以存在于目标文本中，避免内容丢失，可以在识别处理时，将图片、表格和/或公式都采用图片识别的方式进行处理，也就是说，按照图片形式以OCR识别
来对图片、表格和/或公式中包含的内容进行识别，以用于后续创建目标文本，本实施例中，具体实现方式如下：

[0114] 在待识别文本中的待识别内容包含图片内容、表格内容和/或公式内容的情况下，均可以通过识别模块中的文本处理单元对待识别内容进行框选识别，以获得待识别内容的
坐标信息，方便后续按照坐标信息确定图片、表格和/或公式的位置，以达到组成目标文本
的目的。

[0115] 需要说明的是，当待识别文本中包含图片、文字、表格和/或公式的情况下，可以将上述几种识别方法进行整合，分别对每种类型的待识别内容进行识别，以保证识别精准度，
实现后续创建出的目标文本与待识别文本的匹配度较高。

[0116] 此外，在对包含表格的待识别文本进行识别处理时，需要通过文本处理单元识别表格的结构框，字符识别单元完成对结构框内的内容进行识别，将二者组合作为表格的识
别内容，以方便后续创建目标文本。

[0117] 也就是说，在待识别内容包含图片内容、表格内容和/或公式内容的情况下，将以图片、表格和/或公式作为一个识别单位进行识别，不仅可以避免其包含的字符内容过多产
生的影响，还能够提高识别效率，从而实现对包含内容更加丰富的文本也能够识别，提高识
别类型的覆盖范围，保证识别效果。

[0118] 沿用上例，在PDF格式的论文中包含图片、表格和公式的情况下，可以通过识别模块中的OCR检测单元识别图片、表格和公式的长宽信息，并结合长宽信息确定图片、表格和
公式的坐标信息，以方便后续组成目标文本时，可以按照坐标信息添加到识别结果中，组成
包含字符、图片、表格和公式的目标文本。

[0119] 步骤S206，建立所述目标字符与所述文本框的位置关系，并根据所述位置关系生成所述待识别文本对应的目标文本。

[0120] 具体的，在上述获得目标字符以及目标字符对应的文本框后，进一步的，为了能够保证识别出的目标文本与待识别文本之间存在较小的误差，此时可以基于文本框对目标字
符进行定位，实现将目标字符合理且精准的排序在各个文本框内，以根据排序结果生成目
标文本。其中，目标文本具体是指对待识别文本进行识别处理后得到的识别结果；相应的，
位置关系具体是指文本框包含目标字符的关系。

[0121] 基于此，在得到目标字符后，即可通过后端服务器建立目标字符和文本框的位置关系，即确定文本框包含的目标字符，在确定文本框包含的目标字符时，可以优先确定文本
框在坐标系中围成的区域，之后选择字符坐标位于该区域中的目标字符建立位置关系，从
而确定文本框包含的目标字符；在此过程中，可以通过IOU计算每个目标字符和文本框之间
的重合度，选择重合度大于预设阈值的目标字符与文本框建立位置关系，从而精准的确定
文本框中包含的目标字符有哪些，以实现对文本框内包含的目标字符进行排序，从而根据
排序结果生成待识别文本对应的目标文本，保证了识别精准度。

[0122] 进一步的，由于文本框对应待识别文本中的文本组成元素，文本框在待识别文本中具有唯一的位置，而目标字符在待识别文本中也具有唯一的位置，因此在确定目标字符
与文本框的位置关系时，可以从目标字符和文本框的坐标信息出发实现，本实施例中，具体
实现方式如下所述：

[0123] 步骤S2062，确定目标字符对应的字符坐标信息以及文本框对应的文本框坐标信息；

[0124] 步骤S2064，基于字符坐标信息和文本框坐标信息建立目标字符与文本框的位置关系。

[0125] 具体的，字符坐标信息具体是指每个目标字符所对应的坐标；文本框坐标信息具体是指每个文本框所对应的坐标。

[0126] 基于此，为了能够精准的确定文本框和目标字符之间的位置关系，以促进后续生成目标文本的精准度，可以先确定目标字符对应的字符坐标信息，以及文本框对应的文本
框坐标信息，之后基于字符坐标信息和文本框坐标信息建立目标字符与文本框的位置关系
即可。也就是说，选择位于文本框内的目标字符建立位置关系，以此确定每个目标字符位于
哪个文本框，再按照字符坐标信息对文本框内包含的目标字符进行排序，即可生成目标文
本。

[0127] 综上，通过结合坐标信息建立文本框和目标字符之间的位置关系，可以精准的对每个目标字符进行定位，从而有效的提高了识别精准度，以及生成目标文本的效率。

[0128] 更进一步的，在基于坐标信息确定目标字符和文本框之间的位置关系后，即可按照字符坐标信息完成目标文本的生成，本实施例中，具体实现方式如下所述：

[0129] 步骤S2162，根据所述位置关系和所述字符坐标信息，在所述文本框中对所述目标字符进行排序，获得包含目标字符的字符文本框；

[0130] 步骤S2164，按照文本框坐标信息对字符文本框进行排序，根据排序结果获得待识别文本对应的目标文本。

[0131] 具体的，字符文本框具体是指将目标字符添加到相对应的文本框之后获得的矩形框，且其中包含目标字符。

[0132] 基于此，在获得目标字符和文本框的位置关系后，此时可以基于该位置关系和字符坐标信息在文本框中对其包含的目标字符进行排序，以根据排序结果获得包含目标字符
的字符文本框，之后再按照文本框坐标信息对各个包含目标字符的字符文本框进行排序，
即可根据排序结果获得待识别文本对应的目标文本。

[0133] 沿用上例，在得到页眉文本框，页脚文本框以及文本行文本框后，此时可以确定每个字符对应的字符坐标，以及每个文本框对应的文本框坐标，之后选择具有文本框坐标包
含的字符坐标的关系建立各个文本框与各个字符之间的位置关系；如页眉文本框对应的区
域由坐标(0，0)，(5，5)，(0，5)和(5，0)组成，字符坐标分别为(1,1)(1,2)(6,3)……，则此时可以选择字符坐标(1,1)(1,2)……对应的字符建立与页眉文本框的关系，以此类推，直至
全部都完成即可。根据建立结果确定页眉文本框包含字符Z1～Z10，页脚文本框包含字符
Z51～Z55，文本行文本框包含字符Z11～Z50。

[0134] 进一步的，此时可以基于上述位置关系，以及每个字符的坐标在每个存在位置关系的文本框中进行排序，即：在识别出的页眉文本框、页脚文本框或文本行文本框，所框选
的区域对应文本中每一行文本内容的情况下，此时只需要根据每个字符的x轴坐标在x轴方
向进行定位，即可确定每个字符在对应文本框中的排列顺序。或者根据每个字符的x轴坐标
在x轴方向进行初始定位，之后再按照每个字符的y轴坐标在y轴方向进行二次定位，最后根
据两次定位结果确定每个字符在文本框中的排序结果。

[0135] 更进一步的，根据字符Z1～Z10对应的坐标在页眉文本框排序字符Z1～Z10，根据字符Z51～Z55对应的坐标在页脚文本框排序字符Z51～Z55，根据字符Z11～Z50对应的坐标
在文本行文本框排序字符Z11～Z50，根据排序结果即可得到PDF格式的论文对应的目标文
本，即完成对PDF格式的论文的识别处理。

[0136] 综上，通过以坐标为驱动完成对文本框内的目标字符的排序，可以保证字符排序的精准度，从而保证对待识别文本进行识别的精准度。

[0137] 此外，在基于位置关系对文本框内包含的字符进行排序时，考虑到目标字符是经过筛选后得到的字符，此时还可能存在未被排序的其他字符，若将这些字符舍弃可能会影
响识别精准度，因此在存在未排序的其他字符时，可以选择聚类的方式对其进行处理，本实
施例中，具体实现方式如下所述：

[0138] 根据目标字符与文本框的位置关系检测目标字符中是否存在剩余字符；

[0139] 若否，则根据位置关系生成待识别文本对应的目标文本。

[0140] 若是，在目标字符中提取剩余字符，确定剩余字符对应的位置信息；基于位置信息中的高度信息对剩余字符进行聚类，并基于位置信息中的宽度信息对完成聚类的剩余字符
进行排序；根据排序结果获得剩余字符组成的补充文本，并根据目标字符和文本框的位置
关系生成中间文本；将补充文本和中间文本进行整合，获得待识别文本对应的目标文本。

[0141] 具体的，剩余字符具体是指目标字符中还未对应到文本框的目标字符；相应的，补充文本具体是指基于剩余字符组成的文本，相应的，中间文本具体是指基于文本框和目标
字符的位置关系所创建出的文本。

[0142] 基于此，在创建完目标字符与文本框之间的位置关系后，此时可以检测目标字符中是否存在剩余字符，具体检测方式是指检测目标字符中是否存在未与文本框建立位置关
系的字符；若未存在，则说明全部字符都对应到相应的文本框上，之后进行目标文本的生成
处理即可。若存在，则说明还存在部分字符未对应到文本框中，为了能够保证识别的全面
性，此时可以确定剩余字符的位置信息，之后按照位置信息中的高度信息对剩余字符进行
聚类，以实现将高度信息一致的剩余字符聚类到一起，同时按照位置信息中的宽度信息对
聚类到一起的剩余字符进行排序，排序时若文本框以行为单位进行划分，则可以选择相同
高度信息的剩余字符按照x轴方向在文本框内进行排序；或者若文本框未以行为单位进行
划分，则可以选择相同高度信息的剩余字符按照x轴方向进行初始排序，之后再按照高度信
息在y轴方向进行二次排序，以实现根据排序结果获得剩余字符组成的补充文本。

[0143] 进一步的，在得到补充文本后，根据文本框和目标字符的位置关系生成中间文本，最后将补充文本和中间文本进行整合，即可得到待识别文本对应的目标文本。

[0144] 此外，在检测是否存在剩余字符时，还可以根据在目标文本创建完成后检测，即根据目标字符和文本框之间的位置关系创建初始目标文本，之后再检测是否还存在未添加到
初始目标文本的剩余字符，之后在检测到存在剩余字符的情况下，按照上述处理操作生成
补充文本添加到初始目标文本，即可得到待识别文本对应的目标文本。需要说明的是补充
文本的创建过程可参见上述相应的描述内容，在此不作过多赘述。

[0145] 在一个实施例中，假设对论文进行识别后，得到页眉文本框和页脚文本框，此时通过检测确定目标字符还包含剩余字符，为了能够保证识别的全面性，可以根据剩余字符的
高度信息对剩余字符进行归类，并基于剩余字符的宽度信息对归类后的剩余字符进行排
序，排序时按照宽度信息对剩余字符依据x轴坐标进行连接，以根据排序结果获得补充文
本，且结合补充文本中字符的高度信息，确定补充文本对应论文的最下方，则可以确定补充
文本对应论文的页脚内容，之后将页脚内容与页眉内容和正文内容进行整合，即可得到PDF
格式的论文对应的目标文本。

[0146] 综上，通过检测剩余字符的方式可以有效保证识别全面性，从而提高识别待识别文本精准度，实现通过目标文本可以充分反映待识别文本中的内容。

[0147] 此外，为了避免识别后的目标文本中存在重叠字符而影响下游业务处理，还可以在生成目标文本后，对目标文本进行重叠字符检测，本实施例中，具体实现方式如下所述：

[0148] 步骤S2262，在检测到目标文本中包含重叠字符的情况下，对目标文本中的字间距进行调整。

[0149] 具体的，重叠字符具体是指在文本框中排序后的目标字符相互重叠，影响阅读的字符。基于此，在检测目标文本是否包含重叠字符时，可以通过检测字间距的方式实现，即
判断目标文本中是否存在字间距小于预设阈值的情况，若存在，说明当前目标文本中存在
目标字符相互叠加的情况，为了能够方便下游业务使用，可以对目标文本中的字符进行字
间距调整，使得各个字符之间存在一定的距离，保证目标文本中的字符清晰可见，更加便于
下游业务使用。

[0150] 实际应用中，下游业务在使用目标文本时，可以根据需求在可编辑的目标文本中提取信息，用于生成向用户反馈的审阅文本、编辑文本或排版文本等，以方便用户使用。

[0151] 参见图3所示的示意图，当用户通过前端(前端即用户可见的界面，如网站前端界面、APP用户界面)提交PDF格式的待识别文本后，前端可以对待识别文本进行解析，获得PDF
文件流并发送到后端服务器；后端服务器在接收到待识别文本后，为了能够对当前格式的
待识别文本中包含的字符进行精准的识别，可以将待识别文本对应的PDF文件流输入至识
别模块，通过识别模块中的文本框识别单元以及字符识别单元进行处理，以根据识别结果
获得输出的待识别文本中的目标字符，以及目标字符对应的文本框，此时可以建立目标字
符和文本框的位置关系，以根据该位置关系可以确定文本框中包含的目标字符有哪些，从
而实现根据该位置关系可以确定待识别文本对应的目标文件；最后再响应于下游业务的处
理操作，对文件进行信息提取，并创建满足用户使用需求的文本并向用户进行反馈即可。实
现在识别出目标字符后，可以通过文本框对待识别文本中包含的目标字符进行定位，保证
识别出的目标文本是由待识别文本映射而得到的，从而有效的保证了对待识别文本的识别
精准度，降低因字符排序错误而带来的识别误差。

[0152] 下述结合附4，以本申请提供的文本识别方法在住房合同租赁场景中的应用为例，对所述文本识别方法进行进一步说明。其中，图4示出了本申请一实施例提供的一种应用于
住房合同租赁场景中的文本识别方法的处理流程图，具体包括以下步骤：

[0153] 步骤S402，获取PDF格式的待识别文本。

[0154] 实际应用中，对PDF格式文件中的文本进行识别，在很多场景中都得以应用，如PDF转换到WORD格式需要识别文本，或者提取PDF格式文件中的文本进行信息录入需要识别文
本；而通常情况下，PDF文本提取方法大多数采用OCR识别技术，即将PDF转换为图片，再利用OCR识别技术进行检测和识别；还有就是利用PDF plumer等工具包提取PDF文本信息；OCR识
别技术存在字符识别不精准的问题，针对特殊字符错误率较高。而利用文本信息提取工具
无法去除页眉页脚进行识别，而且针对依靠重叠字符进行加粗的方式，在对文本进行识别
时容易重复识别出多个同类型字符。因此亟需一种有效的方案以解决上述问题。

[0155] 本实施例以待识别文本为住房合同，其住房合同包括{页眉‑合同编号：123456789；正文：住房租赁合同，甲方：A，乙方：B，签约时间：2021年5月15日}；且该住房合同为PDF格式。

[0156] 步骤S404，将PDF格式的待识别文本输入至识别模块进行处理，获得待识别文本中的目标字符，以及目标字符对应的文本框。

[0157] 当获得PDF格式的住房合同后，可以将该住房合同输入至识别模块，通过识别模块中的文本识别单元，例如OCR检测单元，首先将PDF格式的住房合同转换为图片，根据转换结
果记录住房合同的页面尺寸信息，即页面的长宽信息；之后利用训练好的DBNet模型(即文
本处理单元)检测住房合同中的页眉、页脚以及文本行，根据检测结果记录相应的坐标信
息，此时DBNet模型输出页眉对应的页眉文本框，页脚对应的页脚文本框，文本行对应的文
本行文本框，且每个文本框分别对应有坐标信息，即每个文本框的位置，以及长宽信息，方
便后续进行文本识别。即确定页眉‑合同编号：123456789对应页眉文本框，位置信息为S1；
确定正文：住房租赁合同，甲方：A，乙方：B，签约时间：2021年5月15日对应文本行文本框，位置信息为S2。

[0158] 进一步的，在确定待识别文本对应的文本框的同时，还可以利用识别模块中的工具提取单元对各个字符进行提取，可选的，利用PDFplumer提取各个字符的文本信息和坐标
信息，该坐标信息为每个字符的位置；之后利用NMS方法对字符进行去重，从而得到待识别
文本中的全部字符单元，以用于后续创建目标文本。

[0159] 步骤S406，确定目标字符匹配的文本框。

[0160] 具体的，在确定页眉文本框，位置信息为S1，文本行文本框，位置信息为S2，以及目标字符后，可以将目标字符与页眉文本框和文本行文本框进行匹配，以确定每个文本框分别对应的字符单元，即确定字符单元“合、同、编、号、1、2、3、4、5、6、7、8、9”对应页眉文本框，字符单元“住、房、租、赁、合、同甲、方、A、乙、方、B、签、约、时、间、2、0、2、1、年、5、月、1、5、日”对应第三文本框。

[0161] 步骤S408，根据文本框对目标字符进行排序。

[0162] 在确定每个字符匹配的文本框之后，为了后续能够生成满足需求的目标格式的文本，可以按照每个字符对应的坐标信息在各个文本框中排序，即由于文本框的坐标限制字
符排序结果，因此按照字符的坐标信息在文本框中进行排序后，可以保证转换后的文本与
PDF格式的文本相匹配；即将字符单元“合、同、编、号、1、2、3、4、5、6、7、8、9”按照各个字符分别对应的坐标信息在页眉文本框中进行排序，根据排序结果获得第一文本；同时将字符单
元“住、房、租、赁、合、同、甲、方、A、乙、方、B、签、约、时、间、2、0、2、1、年、5、月、1、5、日”按照各个字符分别对应的坐标信息在文本行文本框中进行排序，根据排序结果获得第二文本。

[0163] 步骤S410，根据排序结果生成目标文本。

[0164] 具体的，在将各个字符排序到各个文本框之后，根据排序结果即可获得如图5所示的目标文本，可选的，该目标文本为可编辑的WORD格式。

[0165] 此外，在进行文本框和字符匹配时，可能会出现个别字符无法匹配到文本框的情况发生，如待识别文本中包含页脚，而页脚并未匹配到对应的文本框，此时为了能够将页脚
也进行精准的识别，可以针对未识别的页脚中的字符按照高度信息进行聚类，即将未识别
的剩余目标字符按照高度信息进行聚类，将聚类完成的字符按照宽度信息进行排序，即单
行文本中的字符按照宽度信息进行前后顺序排序，每一行文本再按照高度方向坐标(高度
信息)排序，将相应文本行补充到对应的高度位置，本实施例中，以此获得如图6所示的包含
有页眉、页脚和正文的目标文本。

[0166] 本申请提供的文本识别方法，在获取到待识别文本后，为了能够对当前格式的待识别文本中包含的字符进行精准的识别，可以将待识别文本输入至识别模块进行处理，以
根据识别结果获得模块输出的待识别文本中的目标字符，以及目标字符对应的文本框，此
时可以建立目标字符和文本框的位置关系，以根据该位置关系可以确定文本框中包含的目
标字符有哪些，从而实现根据该位置关系可以确定待识别文本对应的目标文本；实现在识
别出目标字符后，可以通过文本框对待识别文本中包含的目标字符进行定位，保证识别出
的目标文本是由待识别文本映射而得到的，从而有效地保证了对待识别文本的识别精准
度，降低因字符排序错误而带来的识别误差。

[0167] 与上述方法实施例相对应，本申请还提供了文本识别装置实施例，图7示出了本申请一实施例提供的一种文本识别装置的结构示意图。如图7所示，该装置包括：

[0168] 获取模块702，被配置为获取待识别文本；

[0169] 处理模块704，被配置为将所述待识别文本输入至识别模块进行处理，获得所述待识别文本中目标字符，以及所述目标字符对应的文本框；

[0170] 生成模块706，被配置为建立所述目标字符与所述文本框的位置关系，并根据所述位置关系生成所述待识别文本对应的目标文本。

[0171] 一个可选的实施例中，所述处理模块704进一步被配置为：

[0172] 将所述待识别文本输入至所述识别模块，通过所述识别模块中的字符识别单元进行处理获得初始字符以及所述初始字符对应的字符坐标；计算所述字符坐标之间的坐标相
似度，根据计算结果筛选目标字符坐标；基于所述目标字符坐标在所述初始字符中筛选出
所述目标字符，并通过所述识别模块输出。

[0173] 一个可选的实施例中，所述处理模块704进一步被配置为：

[0174] 将所述待识别文本输入至所述识别模块，通过所述识别模块中的文本处理单元进行处理获得文本图片以及所述文本图片对应的尺寸信息；检测所述文本图片中包含的文本
组成元素，并基于所述尺寸信息创建所述文本组成元素对应的文本框；将所述文本组成元
素对应的文本框作为所述目标字符对应的文本框，并通过所述识别模块输出。

[0175] 一个可选的实施例中，所述文本组成元素包括下述至少一项：页眉、页脚、文本行；相应的，所述处理模块704进一步被配置为：

[0176] 基于所述尺寸信息确定所述页眉对应的页眉坐标、所述页脚对应的页脚坐标，以及所述文本行对应的文本行坐标；根据所述页眉坐标创建页眉文本框、根据所述页脚坐标
创建页脚文本框，以及根据所述文本行坐标创建文本行文本框；将所述页眉文本框、所述页
脚文本框以及所述文本行文本框作为所述文本组成元素对应的文本框。

[0177] 一个可选的实施例中，所述文本识别装置，还包括：

[0178] 确定模块，被配置为确定所述目标字符对应的字符坐标信息以及所述文本框对应的文本框坐标信息；

[0179] 相应的，所述生成模块706进一步被配置为：

[0180] 基于所述字符坐标信息和所述文本框坐标信息建立所述目标字符与所述文本框的位置关系。

[0181] 一个可选的实施例中，所述生成模块706进一步被配置为：

[0182] 根据所述位置关系和所述字符坐标信息，在所述文本框中对所述目标字符进行排序，获得包含所述目标字符的字符文本框；按照所述文本框坐标信息对所述字符文本框进
行排序，根据排序结果获得所述待识别文本对应的所述目标文本。

[0183] 一个可选的实施例中，所述生成模块706进一步被配置为：

[0184] 根据所述位置关系检测所述目标字符中是否存在剩余字符；若否，则根据所述位置关系生成所述待识别文本对应的所述目标文本。

[0185] 一个可选的实施例中，所述生成模块706进一步被配置为：

[0186] 在所述目标字符中提取所述剩余字符，确定所述剩余字符对应的位置信息；基于所述位置信息中的高度信息对所述剩余字符进行聚类，并基于所述位置信息中的宽度信息
对聚类后的剩余字符进行排序；根据排序结果获得所述剩余字符组成的补充文本，并根据
所述位置关系生成中间文本；将所述补充文本和所述中间文本进行整合，获得所述待识别
文本对应的所述目标文本。

[0187] 一个可选的实施例中，所述文本识别装置，还包括：

[0188] 调整模块，被配置为在检测到所述目标文本中包含重叠字符的情况下，对所述目标文本中的字间距进行调整。

[0189] 本申请提供的文本识别装置，在获取到待识别文本后，为了能够对当前格式的待识别文本中包含的字符进行精准的识别，可以将待识别文本输入至识别模块进行处理，以
根据识别结果获得模块输出的待识别文本中的目标字符，以及目标字符对应的文本框，此
时可以建立目标字符和文本框的位置关系，以根据该位置关系可以确定文本框中包含的目
标字符有哪些，从而实现根据该位置关系可以确定待识别文本对应的目标文本；实现在识
别出目标字符后，可以通过文本框对待识别文本中包含的目标字符进行定位，保证识别出
的目标文本是由待识别文本映射而得到的，从而有效的保证了对待识别文本的识别精准
度，降低因字符排序错误而带来的识别误差。

[0190] 上述为本实施例的一种文本识别装置的示意性方案。需要说明的是，该文本识别装置的技术方案与上述的文本识别方法的技术方案属于同一构思，文本识别装置的技术方
案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。此外，装置实
施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功
能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装
置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构
架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

[0191] 图8示出了根据本申请一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连
接，数据库850用于保存数据。

[0192] 计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网
(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的
任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域
网(WLAN)无线接口、全球微波互联接入(Wi‑MAX)接口、以太网接口、通用串行总线(USB)接
口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

[0193] 在本申请的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示
例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部
件。

[0194] 计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移
动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式
的服务器。

[0195] 其中，处理器820用于执行如下计算机可执行指令：

[0196] 获取待识别文本；

[0197] 将所述待识别文本输入至识别模块进行处理，获得所述待识别文本中目标字符，以及所述目标字符对应的文本框；

[0198] 建立所述目标字符与所述文本框的位置关系，并根据所述位置关系生成所述待识别文本对应的目标文本。

[0199] 上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述
的细节内容，均可以参见上述文本识别方法的技术方案的描述。

[0200] 本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

[0201] 获取待识别文本；

[0202] 将所述待识别文本输入至识别模块进行处理，获得所述待识别文本中目标字符，以及所述目标字符对应的文本框；

[0203] 建立所述目标字符与所述文本框的位置关系，并根据所述位置关系生成所述待识别文本对应的目标文本。

[0204] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本识别方法的技术方案属于同一构思，存储介质的技术方案
未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。

[0205] 本实施例公开了一种芯片，其存储有计算机程序，该计算机程序被芯片执行时实现所述文本识别方法的步骤。

[0206] 上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行
并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或
者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的
或者可能是有利的。

[0207] 所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所
述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内
容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖
区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

[0208] 需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为
依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知
悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申
请所必须的。

[0209] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

[0210] 以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可
作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原
理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权
利要求书及其全部范围和等效物的限制。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

文本识别方法及装置有效专利发明

技术领域

相关背景技术

具体实施方式

[0002]随着互联网技术的发展，文本识别功能成为了大多数业务场景中不可缺少的一项技术，如拍照搜题场...，盲点网为您提供文本识别方法及装置专利转让信息专利转让交易数据查询就上盲点网

文本识别方法及装置有效专利 发明

技术领域

相关背景技术

具体实施方式

[0002]随着互联网技术的发展，文本识别功能成为了大多数业务场景中不可缺少的一项技术，如拍照搜题场...，盲点网为您提供文本识别方法及装置专利转让信息专利转让交易数据查询就上盲点网

文本识别方法及装置有效专利发明