技术领域
[0001] 本发明涉及图像处理领域,具体涉及一种基于深度学习和OCR的票据分类及票据字段提取方法。
相关背景技术
[0002] 基于OCR的票据信息提取技术是指借助OCR技术,将非结构化的票据影像转换为结构化数据,实现票据信息的提取。目前,对票据OCR的处理大概有以下两类:(1)票据影像的人工录入,这种方式需要员工进行人工操作,耗时费力,人力成本较高,且由于人工录入,不可避免带来一些人为错误;(2)简单版式的票据自动识别,一般仅能够对简单的且格式固定的票据进行识别;中国专利公开号CN204965587公开了一种金融票据识别分类存放装置,该装置通过内部翻转轮实现了金融票据的正反面图像识别装置,但该装置需要人工进行分类,且只能针对金融银行类票据,适用票据类型不够广泛。
[0003] 中国专利公开号CN105528604公开了一种基于OCR的票据自动识别与处理系统,该系统包括图像采集模块、快速图像二值化模块、文本块检测与定位模块、单栏文本块的精确定位模块、多栏文本块的精确定位与分割模块、文本识别模块和票据图像检索模块。但该系统不能针对票据中套打、机打字段进行自适应区分,并分别采用不同的方式实现字段定位,导致识别准确率不高。
具体实施方式
[0012] 下面根据图1对本发明的具体实施方式作出进一步说明:参见图1,一种基于深度学习和OCR的票据分类及票据字段提取方法,包括以下步骤:
步骤1:选取多张标准票据图像,截取标准票据图像中的公章图像的外接矩形轮廓,将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,得到深度学习模型;
步骤2:获取待识别的票据图像,将待识别的票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
步骤3:根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在待识别的票据图像中的位置;
步骤4:获取待识别的票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对待识别的票据图像进行倾斜校正;在校正的时候需要保证公章的位置位于最大包围框的轮廓的上方,同时,可以通过Hough变换检测直线的方法提取待识别的原图像中最大包围框的轮廓的所有直线,选取最大包围框的轮廓的所有直线与水平方向的最小夹角为旋转角度进行校正;
步骤5:将待识别的票据图像的公章的外接矩形轮廓通过深度学习模型进行分类,若分类成功,则输出待识别的票据图像的票据类型并判定待识别的票据图像为标准票据图像,执行步骤8,若分类失败,则判定待识别的票据图像为非标准票据图像并执行步骤6;
步骤6:分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域,并分别依次对上方图像区域、左方图像区域、右方图像区域和下方图像区域进行倾斜矫正,将上方图像区域、左方图像区域、右方图像区域和下方图像区域的内容分别与自制表格凭证的票头文字进行匹配从而判断待识别的票据图像是否为自制表格凭证,若匹配成功,则执行步骤7,否则,结束;
步骤7:当待识别的票据图像为自制表格凭证时,对待识别的票据图像内的自制表格进行定位,根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤8:当待识别的票据图像为标准票据图像时,加载预先制定的与该待识别的票据图像相同类型的标准票据模板文件,根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤9:通过文字识别系统将局部图像OCR识别成字符串。
[0013] 所述的步骤1具体包括以下步骤:(1)选取多张标准票据图像作为样本,将多张标准票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
(2)根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在标准票据图像中的位置;
(3)获取标准票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对标准票据图像进行倾斜校正;
(4)将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,基于TensorFlow(后简称TF)深度学习框架,对训练样本进行学习,并生成训练模型Model(即深度学习模型)。
[0014] 所述的步骤6具体包括以下步骤:(1)根据待识别的票据图像中最大包围框的轮廓分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域;
(2)假设待识别的票据图像中最大包围框的轮廓的上方图像区域为票头方向,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别上方图像区域的票头内容,将上方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(3)假设待识别的票据图像中最大包围框的轮廓的左方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转约90度从而保证左方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别左方图像区域的票头内容,将左方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(4)假设待识别的票据图像中最大包围框的轮廓的右方图像区域为票头方向,将待识别的票据图像按照票头方向逆时针旋转约90度从而保证右方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别右方图像区域的票头内容,将右方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(5)假设待识别的票据图像中最大包围框的轮廓的下方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转约180度从而保证下方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别下方图像区域的票头内容,将下方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则,结束。
[0015] 所述的步骤7中的根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:(1)根据已知的自制表格凭证的格式规律,预先制定的自制表格凭证模板配置XML文件;
(2)加载自制表格凭证模板配置XML文件;
(3)获取待识别的票据图像中全部的字段位置坐标;
(4)通过自制表格凭证模板配置XML文件获取待识别区域中的字段(所需要识别的字段)在待识别的票据图像内的具体坐标位置并获取该字段的局部图像。
[0016] 所述的步骤8中的根据标准票据模板文件确定待识别区域并获取待识别区域的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:(1)根据标准票据(本发明中提到的标准票据即为国家标准类发票、国家统一发票或全国统一发票)的格式规律,为标准票据预先制定的标准票据模板配置XML文件;
(2)加载标准票据模板配置XML文件;
(3)获取待识别的票据图像中全部的字段位置坐标;
(4)通过标准票据模板配置XML文件获取待识别区域中的字段(所需要识别的字段)在待识别的票据图像内的具体坐标位置并获取该字段的局部图像。
[0017] 本发明中的标准票据为国家标准类通用发票,包括:增值税专用发票、增值税普通发票、建筑业电子发票、建筑业代开发票、市国税通用机打发票、国税代开发票、国税机打工商业发票、企事业单位通用机打发票。
[0018] 本发明能对标准票据和自制表格凭证进行分类,还能对标准票据和自制表格凭证进行字段定位,本发明借助深度学习和OCR技术对票据图像进行分析,实现票据图像中关键信息的快速准确提取。提升了财务稽核工作效率,释放了生产力,节约了人力成本。
[0019] 本发明的保护范围包括但不限于以上实施方式,本发明的保护范围以权利要求书为准,任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。