（通信与信息系统专业论文）文档图像的文种识别系统.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：55 大小：1.25MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

四川大学硕士学位论文文档图像的丈种识别系统文档图像的文种识别系统通信与信息系统专业研究生：昊长生指导教师：罗代升摘要在当今时代，网络和多媒体技术迅猛发展，在促进了信息交换的同时，也带来了对信息的巨大需求。光学字符识别o c r 作为计算机信息录入的一个重要技术，也得到了飞速发展。文种识别作为o c r 技术的前端和基础，同时也是自动化处理工作中的重要部分，近年来得到了广泛的关注与研究。本文设计和实现了一个文档图像的文种识别系统。该系统运用于我们的实际工作中，取得了较好的效果。该系统由预处理、版面分析、文种识别三大部分组成。本文的主要研究工作有： ( 1 ) 图像预处理。预处理是图像处理中一项很重要的工作，预处理的质量直接影响后续工作的效果和成败。本文着重介绍我们改进的 h o u g h 变换方法，用于文档图像的倾斜校正。这种算法，通过以下措施减小了计算量：采用合适的量化角度，减小量化步长：选择子区域取代完整的图像，减小待处理的数据量；选取特征点集而不是处理区域全部像素，进一步减小待处理的数据量。最后，为了提高图像质量，不是简单地旋转而是用像素面积插值法进行倾斜的校正。 ( 2 ) 采用投影法进行简单版面的分割。改进了常用的递归算法，使用多叉树取代二叉树算法，大大减小了冗余运算，降低了算法的复杂度。为了避开投影法对嵌入式等复杂版面分析中的失效，充分利用投影法简单快捷的优点，我们将投影法应用于区域提取和文字行的切分上。 ( 3 ) 金字塔模型的版面分割。本文提出了一种新的基于形状的版面分析方法一基于金字塔模型的版面分割，解决了复杂版面分析问题。该方法符合人类视觉由粗到精的特点，我们改进了基于连通区的四川大学硕士学位论文文档霉像的文种识别系统特征选择，并取得了较好的分割效果。 ( 4 ) 凹度特征算法。在文种识别部分，我们改进了凹度特征算法，避免了确定文字行参数和计算方差等计算工作；改进了基于小波纹理的文种识别算法，使用可变阈值代替距离公式，使得判决结果可按用户意愿调节，并增加了拒识功能，使识别工作更具人性化、灵活性、交互性；提出了一种叫穿越次数的算法，实验证明这种算法具有很高的准确率，是我们在文种识别工作中的一个有益探索和很大进步。关键词：文档图像处理，h o u g h 变换，倾斜校正，金字塔算法，版面分析，穿越次数法，文种识别璺型盔堂堡主堂竺丝壅苎堡里竺塑塞登望型墨塾 a s t u d yo fl a n g u a g er e c o g n i t i o ns y s t e m f o rd o c u m e n ti m a g e s m a j o r ：c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m s p o s t g r a d u a t e ：w uc h a n g s h e n gs u p e r v i s o r ：l u od a i s h e n g a b s t r a c t i nt h i st h e s i s ，ad o c u m e n ti m a g ep r o c e s s i n gs y s t e mi s d e s i g n e da n d p e r f o r m e d i tc a nb ea p p l i e df o rl a n g u a g ei d e n t i f i c a t i o n t h es y s t e m c o n s i s t so f i m a g ep r e p r o c e s s i n g ，l a y o u ta n a l y s i s ，a n dl a n g u a g e i d e n t i f i c a t i o n t h em a i nc o n t r i b u t i o n so ft h i sd i s s e r t a t i o ni n c l u d e ： ( 1 ) i m a g ep r e p r o e e s s i n g i no r d e rt od e t e c ta n dc o r r e c tt h es l o p ya n g l e s o fa ni m a g e ，am e t h o db a s e do nh o u g ht r a n s f o r mi sp r e s e n t e d t or e d u c e t h ec o m p u t a t i o no fh o u g ht r a n s f o r m ，i ti sm o d i f i e di nt h ef o l l o w i n gw a y s a na p p r o p r i a t eq u a n t i t a t i v e a n g l es t e pi s t a k e nt od e c r e a s en u m b e ro f a n g l e s ；as u b - r e g i o no t h e rt h a nt h ew h o l ei m a g ei su s e dt or e d u c et h e d a t at ob ep r o c e s s e d ；f e a t u r e dp i x e l s ”a r ee x t r a c t e dt or e d u c et h ed a t a f u r t h e r + t oi m p r o v et h ee f f e c to fi m a g er e c t i f i c a t i o n ，t h ea r e a st h a tt h e o r i g i n a lp i x e l so c c u p ya r eu s e dt oc a r r yo u tt h ei n t e r p o l a t i o no fa f t e r r o t a t i o n b l a n kp i x e l s ( 2 ) r e c u r s i v e d i c h o t o m y a l g o r i t h m b a s e do n p r o j e c t i o n o f h o r i z o n t a l v e r t i c a lo r i e n t a t i o ni sap r a c t i c a lb u ti n e f f i c i e n ta l g o r i t h mf o r d o c u m e n tu n d e r s t a n d i n g t oi m p r o v et h e e f f i c i e n c ya n dr e d u c et h e c o m p u t a t i o n a lc o m p l e x i t y ，t h ed i c h o t o m yi sr e p l a c e dw j t hp o l y t o m y a l g o r i t h m ，t h ep o l y t o m ya l g o r i t h mc a nb ea p p l i e dt os u b r e g i o n s e l e c t i o na n dc h a r a c t e rl i n e sd i v i s i o n ( 3 ) an e ws h a p e - b a s e dm e t h o d ，l a y o u tu n d e r s t a n d i n gb a s e do np y r a m i d m o d e l ，i sp r o p o s e dt os o l v et h ep r o b l e mo fc o m p l e xl a y o u ts e g m e n t a t i o n e x p e r i m e n t ss h o wt h a tt h em e t h o dc a ng e th i g hv e r a c i t ya n dh a sh i g h 四川大学硕士学位论文文档图像的文种识别系统 a d a p t a b i l i t y ( 4 ) i nl a n g u a g ei d e n t i f i c a t i o n ，ad e v e l o p e du p w a r d - c o n c a v i t ya l g o r i t h m i s p r o p o s e d t oa v o i dp a r a m e t e rm e a s u r i n go fc h a r a c t e rl i n e sa n d d e v i a t i o nc a l c u l a t i o no f t h e p a r a m e t e r s ； a n i m p r o v e dw a v e l e t t e x t u r e - b a s e dl a n g u a g ei d e n t i f i c a t i o nm e t h o di sp r o p o s e ds ot h a tt h e i d e n t i f y i n gw o r kc a nb em o r ei n t e r a c t i v ea n dm o r ef l e x i b l e ；am e t h o d ， c a l l e dr u nn u m b e ra l g o r i t h m ，i sa l s op r o p o s e dt og e th i g h e rv e r a c i t y k e yw o r d s d o c u m e n t i m a g ep r o c e s s i n g ，s l o p ei m a g e c o r r e c t i o n ， h o u g ht r a n s f o r m ，l a y o u tu n d e r s t a n d i n g ，p y r a m i dm o d e l s ，l a n g u a g e i d e n t i f i c a t i o n ，r u n n u m b e ra l g o r i t h m 四川大学项士学位论文文档图像的文种识别系统第一章综述 1 1论文背景文档图像( d o c u m e n ti m a g e ) 是指内容主要为文字的电子文档形式存在的图像。文档图像通常包含噪声、图形、表格，还会出现某种程度的倾斜，如图1 1 。在当今时代，网络和多媒体技术迅猛发展，在促进了信息交换的同时，也带来了对信息的巨大需求。模式识别技术作为新一代计算机智能接口的重要组成部分，可以有效地改善计算机输入信息的能力，已成为研究热点。光学字符识别o c r ( o p t i c a l c h a r a c t e rr e c o g n i t i o n ) 作为模式识别的一个重要分支，也出现了引人注目的发展。但是复杂的版面格式常常导致o c r 无法直接运用，因此作为o c r 技术的前端技术和基础，版面分析与文种识别就成为关键的问题。。图i - 1 文档图像 1 2 论文工作及组织结构本文介绍了一个文档图像的文种识别系统，该系统运用于我们的实际工作中，取得了较好的效果。该系统由预处理、版面分析、文种识别三大部分组成，如图1 2 。图i 2 文种识别框图口ujn l 大学硕士学位论文文档图像的文种识别系统文档图像的预处理包括去噪、倾斜校正等，预处理的效果直接影响字符识别或文种识别的精度。通常的步骤是先去噪，再倾斜校正。去噪的目的是为了得到一个较干净的图像，倾斜校正是为了更好地进行版面分析。这种各阶段独立的方法不能完全利用各阶段的特点进行综合处理，要么增加了难度，要么限制了效果。比如去噪，通常采用平滑滤波，但该方法对二值图像的效果并不好，中值滤波对噪声有很好的效果，但对字符笔画有损伤。我们在版面分析的同时，也进行噪声的清除，不但能清除孤立噪声，对细长赢线和细长条块也有效地去除。我们采用多层次各阶段交互的预处理方法，实验结果表明，该方法大大提高了预处理的效果，从而提高了字符识别或文种识别的精度。由于扫描等原因，文档图像经常会出现一定程度的倾斜，而大多数图像处理方法都要受到倾斜的影响：由于歪斜，将使o c r 中的字符分割困难，3 。以上的歪斜引起字符明显的变形，大部分o c r 方法难以适应：在表格处理中，图像的歪斜会引起表格对正、识别和表格中固有信息的移去发生困难。图像的倾斜校正分为手工校正和自动校正。由于靠人眼进行手工校正费时费力，因此文档图像的自动校正成为一件非常有意义的工作，而文档图像的特殊性使得自动校正成为可能。目前用于倾斜校正的方法很多。如b a g d a n o v l l 】等用基于投影的方法进行倾斜检测，但是在应用中由于所需的投影方向较多，从而导致计算量增大；y a n f 2 l 等提出了利用行与行之间的相关性进行倾斜角检测的方法，这一方法不仅很耗时，而且如果文档中出现图片，将严重影响到结果的准确性；s u n 3 】等利用梯度信息进行倾斜角的估计，这同样是一个比较耗时的运算过程，而且当文档中出现较大面积的图片时，这一方法也不能够保证准确性：r o n d e l l 等用f o u r i e r 变换和神经网络来实现倾斜检测，尽管这一方法适合于手写文本，但其速度较慢，这主要是由于f o u r i e r 变换和多层神经网络的收敛较慢造成的； o g o v m a n1 5 提出的最近邻方法主要通过对相近邻字符对之间的方向向量的统计得到图像的倾角，这种方法对纯文本图像倾角检测的效果很好，速度也很快，但易受噪声的干扰；牛轶峰1 6 】等用可变模板检测倾斜角，采用遗传算法进行快速优化搜索，能够精确检测文本的倾斜角度，四川大学硕士学位论文文档图像的文种识别系统并且不受倾角大小和文字方向的影响，具有较强的抗噪声性和较快的收敛速度，但是如果模板定义得不准确，就有可能收敛到较差的解上，而且如果遗传算法参数选择不当也会导致错误的计算结果。h o u g h 变换是h o u g h 在1 9 5 9 年首先提出来的，最初是为了检测图像中间的直线段 7 1 ，现在已经是图像分析中一个经典的工具，并广泛用于模式识别的各个领域。我们使用h o u g h 算法进行倾斜角的检测，但是经典的h o u g h 算法运算量太大，为此我们作了一些改进。版面分析是文档图像分析的重要组成部分，受到了越来越多的重视。由于复杂的版面格式导致o c r 系统无法直接运用或效果极差，另一方面用户可能希望同时保留原始的版面信息，因此版面分析成为一个关键的技术。版面分析被定义为从文档图像中提取几何结构( 8 】。一个图像根据其内容所占区域的位置、大小、形状以及属性的不同被划分为许多块，每一块区域可能代表字符行或图形等。版面分析的任务，就是把原始文档图像中包含的文本、表格、图像、图形等不同性质的区域划分开，以利于后续的分析处理。版面分析可以分为基于形状的方法和基于纹理的方法两类，其中基于形状的方法又可以分为自顶向下、自底向上、混合法。基于形状的方法主要利用了文档图像中各个不同区域的结构分布特征，例如文本、图像般以矩形的方式存在，各个结构单元呈层次关系，各个区域之间一般有明显的间隔，如较大的空白或分割花纹等。在这类方法中，自顶向下的方法从版面的全局特征开始，一个页面首先分割成几个大的区域，然后每个区域再递归分割成子区域，代表性的有林雁平等【a l 、l i uj i m i n g 等1 0 、王海琴等1 、w a n gky 等【12 1 、n a g yg 等【1 3 1 提出的版面分折算法。自底向上的方法从像素点开始，将相邻的部分根据局部特征的相似性合并成为一个小区域，小区域再连续地合并为大区域以0 】，其中刘定强与张j 所中提出的基于组件的中文版面分析、周杰与马洪的基于数学形态学的版面分析、陈明等人的一种可信度指导的版面分析是其中典型的代表算法。另外还有将两种方法结合起来的混合法 2 1 , 2 2 ，以及主要依据背景特征进行分割的基于背景的方法等 1 2 3 , 2 4 。这类方法的主要缺点是很大程度地依赖于特殊的规则和经验性四川大学硕士学位论文文档图像的文种识别系统的阈值，对日益复杂的版面格式的适应性较差。基于纹理的方法主要思路是将图像看作是一些具有不同纹理的区域的组合。文本具有一系列相同方向的文本行，行中具有一系列大小基本一致的字符。这种相对一致的纹理特性完全不同于图像，因此可以用来进行版面分析。这类算法近来得到了比较大的发展【2 扣3 0 】。本文提出一种新的基于形状的版面分析方法。首先介绍金字塔模型，然后描述了该模型在版面分析中的应用。在过去的二三十年里，人们对文档图像的文种识别技术的研究日渐深入，提出了一系列的算法。这些算法中，有的是从组成文字的连通区域中提取局部特征进行识别，有的是提取文档的攘体特征进行识别。在基于局部特征的方法中，w o o d 等人将文字行在水平方向上投影，根据投影图中峰值的位置识别罗马字母、俄文、阿拉伯文、中文、韩文【3 l 】；c h e wl i mt a n 等人提出利用连通区域外接框的长宽比、分布图等特征区分中文、泰米尔语、拉丁文、阿拉伯文l 3 21 ：s p i t z 提出利用垂直方向的凹度分布来区分东方文种( 中日韩) 和西方文种1 3 3 1 。基于整体特征的算法中具有代表性的算法有：边缘特性处理( e d g e a t t r i b u t ep r o a e s s i n g ) 、多通道盖伯滤波( m u l t i c h a n n e lg a b o r f i l t e r i n g ) 【3 4 】、小波分解( w a v e l e td e c o m p o s i t i o n ) 、c s a r 法( e i r c u l a r s i m u l t a n e o u sa u t o r e g r e s s i v e ) 1 35 1 。这些算法的共同点是提取文档的整体特征，不需要进行连通区域划分。本文介绍三种我们使用的文种识别算法，其中穿越次数法和凹度特征算法属于局部特征算法，适用于要求识别精度较高的非实时环境中，而小波纹理算法属于整体特征算法，适用于要求识别精度不高的实时环境中，如果进一步研究，可能还会提高识别精度，是一种很有前途的算法。本文的组织结构安排如下：在第2 章中介绍我们在文档图像的倾斜校正中所使用的方法，第3 章介绍基于投影的简单版面分析方法，第4 章提出一种基于金字塔模型的版面分析方法，用于解决复杂版面情况，第5 章介绍一种改进的基于凹度局部特征的文种识别算法，作为对照，第6 章介绍我们在文种识别的探索过程中自己提出的一种叫穿越次数的算法，说明基于局部特征的算法可以获得较高的识别准确率，在第7 章介绍一种基于小波纹理的全局特征的文种识别算法，第四川大学硕士学位论文文档图像的文种识别系统 8 章对全文作出总结。四川大学硕士学位论文文档图像的文种识别系统第二章h o u g h 变换法倾斜校正倾斜校正是文档图像预处理中一项较重要的工作，因为很多文档图像都有一定程度的倾斜，而大多数图像处理方法都要受到倾斜的影响。 h o u g h 变换是目前最好的倾斜校正方法。 2 1 h o u g h 变换 h o u g h 变换是一种有效的检测直线的算法，因为直角坐标系x y 空间上的一点对应于极坐标p - 0 空间上的一条曲线，而x y 空间上同一条直线上的各点在p - 0 空问对应的曲线均相交于一点，故此点的o 值即该直线在x y 空间的倾斜角度，如图2 1 所示。h o u g h 变换就是先把直角坐标系的目标点映射到极坐标系上进行累积，即先使直角坐标系平面上任一直线上的所有点均累积到极坐标系的同一点集中去，然后通过寻找极坐标系中点集的峰值来发现较长的直线特征。由于这种累积的统计特性，因而可容忍直线的不连贯性，这样文档图像中即使没有直线，也会因为文字行间较强的方向特性而检测出倾斜角度。，狐| | n c a ) p 、0 的意义 ( b ) 矗) 巾备点在p 一9 空同的轨漆图2 - 1h o u g h 变换示意图设直角坐标系中点( x ，y ) ，其变换后的极坐标为( p ，0 ) ，则h o u g h 变换可表示为： p = x c o s 0 + y s i n 0( 2 - 1 ) 四川大学硕士学位论文文档图像的文种识别系统 2 2 h o u g h 变换的算法原理 h o u g h 变换的基本思想是：把目标像素的直角坐标变换成极坐标，并在一个累加器中给该点计数，然后对累加器中同一角度进行行列求和，找出较大极值对应的角度即为倾斜角度。即用h o u g h 变换检测文本图像倾斜角度的算法可设计为：在p , 0 合适的最大值与最小值之间建立一个离散的参数空间。例如： p = p m i n p m a x ，0 = 0 m i n 一0 m a x 其中我们取p m i 。= o ，p 。= s q r t ( w + w + h + h ) ，0 m i 。= 0 ，0 。= 18 0 ，w 为图像的宽，h 为图像的高。建立一个累加器a ( p ，0 ) ，并将每个元素清零。 a 2 z e r o s ( p m a x - p m i n ，o m a x - o m i n ) 将图像中的每个象素点( x , y ) ，对0 空间的每个取值0 ，计算p = x c o s o + y s i n 0 ，并在相应的累加器加1 ：a ( p ，0 ) = a ( p ，0 ) + 1 。对a ( p ，o ) 进行行列累加，得到a ( o ) ，则a ( 0 ) 中最大元素所对应的角度0 即为文本图像倾斜角度。 m a f l a b 语言的算法程序如下： a = z e r o s ( f m a x - p m i n ，0 m a x - 0 m i n ) ； f o rx = i ：w f o r y = l ：h f o r 0 = 0 m i n ：0 m a x p = x c o s 0 + y s i n 0 a ( p ，o ) = a ( p ，o ) + 1 e n d e n d e n d a = s u r n ( a ，1 ) ；对a ( p ，o ) 进行行列累加，得到a ( 0 ) s l o p e a n g l e = m a x ( a ) ；四川大学硕士学位论文文档图像的文种识别系统 2 3 改进h o u g h 变换 h o u g h 变换的优点在于它抗噪声的能力强，并且不受图像中直线走向的限制。但如何解决精确度和运算复杂度的矛盾以及它对存储空间的要求是应用h o u g h 变换的主要困难。参数空间量化得越精细( 或分辨率越高) ，算法的精度越高，但算法所需的存储空间和运算量也越大。通过实验统计表明，对1 。内的倾斜角度的文档图像，各种识别方法都能取得较高的精度。故角度量化不用取太高的精度，取l 。的步长即可，大大减小了运算量。另一个减小运算量的措施是，不使用完整的文档图像，而是使用文档图像的一个子区域即可。减少采样点也是减小运算量的有效措施，如果对每个象素点都进行h o u g h 变换，则计算量相当大。根据人类视觉特点，人判断图像倾斜主要根据文字行的底部基线的倾斜情况，或者是文字行之间的空白条的倾斜情况，如图2 2 所示。故将每个文字的底部基线的中点，或者行间空白矩形条的中心点，作为采样点，必将大大减小运算量。一翱瓣图2 2根据文字行的底部基线或行间空白矩形条判断倾斜 2 3 1 子区域的选取通常文档中文本行之间具有较强的方向性，且相邻文本行之闯的距离相对固定，因此检测页面图像豹倾角不必对整个图像进行扫描计算，只须选择台适的文本子区域，其文本行的方向危对应于整个文档图像的倾斜角。由于文档图像边缘可能会出现大段黑区或噪音，这些区域不仅会影响倾角的检测，而且会大大增加计算量。因此，在选择被测子区域时，首先考虑将图像边缘区域去除，并且应保证其一定的大小，即子区域r 满足： r = ( x ，y ) 1 w l x 墨w 2 ，h l y 3 ，如果不能满足此条件，就选最大的那个子区域。子区域应当选取字密度较大的区域，我们采用投影法( 见3 1 ) 进行选择，如图1 1 是一幅较复杂的文档图像，包含有文字、噪声、表格，还有倾斜。图2 3 是他的垂直投影曲线，其中( b ) 是( a ) 经平滑处理后的曲线。从( b ) 中可以看出，曲线的山峰对应的区域就是原图像文字密度较大的区域，如果后续工作是文种识别，则只需选取坡度较宽的一个山峰就可以了。单单垂直投影选取的区域，可能还有无用的空白等区域。需要再作水平投影；有的图像可能要水平投影才行。总的说来，用递归的纵横投影法，总能选取出一块合适的区域。 ( a ) 图2 - 3 垂直投影曲线如果所选的区域包含图片内容，子区域应重新选取。所选予区域中是否为纯文本，须在分析其内部连通区的特征之后才可判定( 见 2 3 2 ) 。纯文本子区域的重新选取采用上述同样的方法，只是选取的是上一山峰的次山峰即可，同时必须满足上述区域大小条件。四川大学硕士学位论文文档图像的文种识别系统 2 3 2 特征点集的确定在予区域中，确定每个字符( 或粘连字符) 的连通区的闭包盒。为方便起见，称每一个连通区为一个对象。一行文本中有三类对象： ( 1 ) 对象闭包盒底线与基线重合，包括大部分普通字符如a 、 s 、 m 等； ( 2 ) 对象闭包盒底线在基线之上( a s c e n d ) ，包括部分标点符号如一、+ 、木等； ( 3 ) 对象闭包盒底线在基线之下( d e s c e n d ) ，包括少数普通字符如 p ，y ， q 等，以及部分标点符号如，、。、；等。由此可见，大部分普通字符的最底象素点与文本行基线重合，仅存在少数字符如p 、q 等的闭包盒穿过基线的情况，并且其底线到基线的距离：l 3 * h c ，h c 为字符闭包盒高度。标点符号以及字符i 、j 上的小圆点虽然不在基线上，但其闭包盒底线到基线的距离与闭包盒的高度之间不存在确定规律，且不满足上述条件。为了减少这些点对基线方向角计算的影响，仅选取满足如下条件的对象c ： c = c i iw ( c i ) d r v h ( c i ) d h ，l i k ( 2 - 3 ) 其中c 为满足条件的候选对象集合，w ( c i ) 与h ( c i ) 分别为对象c i 闭包盒宽和高，d w 、d h 分别为闭包盒宽和高的阈值，k 为对象的个数。本文将对象闭包盒的最底象素行中点作为特征点。在纯文本区域中，由于文本行相互平行，因此对应予不同的文本行的特征点可分为几个不同的集合。而含有图片的区域，特征点的分布是发散的，无法划分成几个不同的集合。由于这些特征点大部分位于文本行基线上，故由这些点拟合的直线基本代表了文档图像的倾斜情况，但由于存在少量特征点不在基线上，因而拟合的直线与实际基线之间存在一定的误差。但是由于b o u g h 变换的累积作用，这些不在基线上的少量特征点的影响将被忽略，最后得到的将是精确的倾斜角度。四川大学硕士学位论文文档图像的文种识别系统 2 4像素面积插值法倾斜校正利用上面h o u g h 变换法得到的倾斜角度，将图像旋转即可进行文档图像的倾斜校正了。设文档图像的倾斜角度为伍，建立同一个坐标原点的两个坐标系，分别设为( x ，y ) 和( x ，y ) ，其中x 、y 、x 和y 均大于0 ，原点为( 0 ，0 ) ，两个坐标系的夹角为，如图2 - 4 所示。当坐标值可取连续值时，有 x = ( c o s ( i ) x + ( s i n a ) y ( 2 - 4 ) y = 一( s i n a ) x + ( c o s a ) y ( 2 5 ) f ( x ，y ) ：f ( x ，y ) ( 2 - 6 ) f ( x ，y ) 和f ( x ，y ) 表示的是同一像素的值。将式( 2 - 4 ) 和( 2 - 5 ) 代入式( 2 - 6 ) 得 f ( x ，y ) = f ( ( c o s n ) x + ( s i n 旺) y ，卜( s i n ) x + ( c o s u ) y ) ( 2 7 ) ( o 0 ) y | | r r ( x ，y ) - ，一一，( i ，y ) | r y ， x i 图2 - 4夹角为的同原点的两个坐标系数字图像是离散的，而( x ，y ) 是连续的点，为此，引进3 个记号， z n 是最接近z 的整数， z s 是小于且最接近z 的整数， z l 是大于且最接近于z 的整数，那么改进式( 2 - z ) 可以得到3 个算法。 a p ( x ，y ) = f ( x 。，y 。) ，其中x 。= x n ，y 。= y n b p ( x ，y ) = ( x l x ) ( y l - y ) f ( x 。，y 。) + ( x l x ) ( y - y 。) f ( x ，y 1 ) + ( x x 。) ( y 1 _ y ) f ( x l ，y 。) + ( x x 。) ( y - y 。) f ( x l ，y 1 ) ， ( 2 8 ) 其中 x ，= x s，x l = x l ，y 。= y s ， y l = y 1 ， s 1 = ( x 1 一x ) ( y 1 一y ) ，s 2 = ( x x ：) ( y 1 一y ) ， s 3 = ( x x ，) ( y y ：) ，四川大学硕士学位论文文档图像的文种识别系统 s 4 = ( x 1 - x ) ( y - y ，) ，s l 、s 2 、s 3 和s 4 分别表示以( x ，y ) 为中心的倾斜像素在相邻的4 个像素中所占的面积，如图2 5 所示。利用这些面积，我们可以使用像素面积插值法，即一个像素的颜色值，等于它在相邻的区域中所占的面积与相应区域的颜色值的积之和。名八少图2 5 倾斜像素在相邻像素中所占的面积 c 前两种算法已较好地实现了图像的倾斜校正。但上述算法忽略了一个问题，即由于图像本身是倾斜的，那么它的像素应该也是倾斜的，如图2 - 6 所示。p 1 p 9 分别表示倾斜像素的相邻像素，p 表示倾斜像素。所以，还需要进一步改进算法。由于像素的倾斜，那么它必会在相邻的9 5 像素中占有一定的面积，可以根据该像素的中心点( x ，y ) 和图像倾斜的角度，计算出像素的4 条边的线性方程，然后根据这4 4 方程计算出这个像素点分别在相邻的9 5 像素中所占的面积s 。再用得到的面积和相应的像素点的颜色值f ( x ，y ) ，改进式( 2 7 ) 得到点( x ，y ) 的颜色值f ( x ，y ) ，即 9 f ( x ，y ) = 乏：f ( x i ，y i ) + i i ( 2 - 9 ) 四川大学硕士学位论文文档图像的文种识别系统 p 1p 2 p 3 p 4p 5p 6 p 7p 8 p 9 图2 - 6 倾斜像素理的质量窟接影响届臻工律的鸯坌杀和 y , o u g h 变换穷! 盎，用予文档图像的赖施，峨小了计算盘。采用台适的量忧角取代完整的圈像。减小褥处理盼数耀域垒部像紧，避一步减小待处理的数不建谪单地旋转筛悬用像拳蔺积插值 ( b ) 算法a 的校正结果四川大学硕士学位论文文档图像的文种识别系统理的质量直接影响后续工作的效果和 h o u g h 变换方牲，用于文档图豫的颊施减小了计算墨。采用合适的量化角取代完整的图像减小待处理的数据域垒部像素。进步减小待处理的数不是简单地旋转布i 是用像豢面积插值 ( c ) 算法b 的校正结果图2 7 图像倾斜校正结果四川大学硕士学位论文文档图像的文种识别系统第三章基于投影的简单版面分析 3 1投影任何一个图像都是由像素构成的：我们约定图像文件上的背景所对应的像素是白点( 值为o ) ，文字、图形、图像等所对应的像素是黑点 ( 值为1 ) ，那么，一个像素行( 列) 的黑点数的总和，就是这一像素行( 列) 的投影值，把所有像素行( 列) 的投影值都统计出来，就得到整个图像文件的水平( 垂直) 投影，用公式表示为： p 所= f ( x j ，y i ) ，如图3 1 所示是一幅六行文字的图像及其投影。投影是这样的一种特征函数：它把二维图像的像素分布特征简化为：x 轴和y 轴上的两个一维函数。投影算法正是从这两个一维函数出发来进行版面分析的。从图3 一l 可以看出，一行的文字越多，投影值就越大，而空白行的投影值则几乎是零( 如果没有噪声的影响，空白行所对应的投影值就是零) 。通常将投影值小于某个闽值d 并且具有一定宽度的连续区间称为低谷( v a l l e y ) ，而将位于两个相邻低谷之间的、投影值大于阙值d 的连续区间称为脉冲( p i t c h ) 。例如，在图3 1 中：若取阈值d = d 1 则y 轴上就有五个低谷，六个脉冲。 y 理的质量直接影响后续工作的效罘和 h o u g h 变换方击用于文档图像的倾施硪小了计算量采用合适的量化角取代完整的图像减小待处理的数据域全部像素，进一步减小待处理的数不是简单地旋转丽是用像素面积插值图3 - l 图像的行投影和列投影 x 四川大学硕士学位论文文档图像的文种识别系统一般而言，低谷对应着空白行，而具有一定的周期性的脉冲则对应着文字行，周期性不明显的脉冲则可能对应着其它的图形、图像，也可能是由行列不对齐的版面投影形成的。脉冲和低谷的这种周期性，正是基于投影的版面分析算法的基础。 3 2基于投影的多分法算法原理基于投影的多分法是这样的：首先，求出整个图像版面的水平( 或垂直) 投影，并尽可能多地找出可供分割的低谷位置，从而将各区域作出尽可能多的分割。这样，就充分地利用了一次提取的特征，从而避免了同一特征的多次抽取，减少了冗余运算，降低了算法的时间复杂度。然后在另一个方向上作投影，重复上述的过程，把它们各分为更小的区域，如此重复下去，构成一个递归过程，直到分出各个分栏为 l e 。 l 这是一个版面示意j i 这是第二这是第二分 1 分栏，栏 3 lz 我爱你。同 i 翅量l 爱着你，重斟l 黻i 就像老鼠爱大米。图3 - 2 一个版面示意图和它对应的多叉树模型这个过程可以用一个多叉树模型来表示。原始的图像文件，即最初的版面，是树的根结点( b o o tn o d e ) 、最终的分栏是叶结点( l e a f n o d e ) ，而中间状态的区域就是中间结点。图3 - 2 是一个版面的示意图和它对应的多叉树，图中，圆表示初始的版面；椭圆表示中间状态的待分区域；方框表示最终的分栏。四川大学硬士学位论文文档图像的文种识别系统 3 3多分算法的实现过程为了讨论的方便，先将有关的变量做如下说明： ( 1 ) s t a r t ：脉冲的起点 ( 2 ) e n d ：脉冲的终点 ( 3 ) w i d t h ：脉冲的宽度 w i d t h = e n d s t a r t 如果脉冲正好对应于文字行，则其宽度实际上就是行高 ( 4 ) d is t ：相邻脉冲之间的距离假设p i t c h 2 表示一个脉冲，p i t c h l 表示紧接在p i t c h 2 前面的、并与p i t c h 2 相邻的那个脉冲，则 p i t c h 2 的d is t = p i t c h 2 的s t a r t p i t c h l 的e n d 如果脉冲正好对应于文字行，则其间距实质上就是行距。 ( 5 ) 脉冲的周期性：一股地，文件由很多行组成，而行的高度大体相等，并且同一段落的行间距也是相等的，因而脉冲的w i d t h 和d i s t 应该在一定范围内具有周期性。整个算法由四个核心过程构成：用动态规划法求阈值d ：根据n 求出区域中的所有脉冲：求出脉冲的周期性；根据脉冲的周期性和经验规则对区域做出切割。用动态规划法求阈值d 阈值d 直接影响到脉冲的正确选择，从而决定了整个算法的成败，因此这一过程是非常关键的。实验证明，仅仅根据字号的大小确定一个静态的d 值，切割的效果往往很不理想。为此，我们可以采用动态规划等方法，求出一个合适的闽值d ，以便取得较好的分割效果。根据d 求区域中的所有脉冲这个过程可以描述如下： f i n d p i t c h 0 f o r = 0t o 投影总数d o b e g jn i f b i t s i 1 耋d ，则标志一个p i t c h 的开始：s t a r t = i ；四川大学硕士学位论文文档图像的文种识别系统 i f b i t s i d ，则标志一个p i t c h 的结束：记录p i t c h 的有关参数e n d ，w i d t h ，d i s t e n di f e n d 由于噪声的影响，有些p i t c h 被分割对待，造成几个不同的p i t c h ，这样的假p i t c h 应该加以合并。所以在这个过程中还有一个p i t c h 的合并过程，这是为了纠正噪声所引起的误差。下面是p i t c h 的合并算法： b i n d p i t c h o f o ri = ot op i t c h 总数一1d o b e g i n i f ( ( p i t c h i w i d t h d e l t a w i d t h ) & & ( ( p i t c h i + l 】w i d t h d e l t a w i d t h ) ) 则将其合并：修改p i t c h i 】的有关参数，删除p i t c h i + l 】 e n d i f e n d 求脉冲的周期性这个过程通过排序、类比等手段对脉冲的宽度、脉冲间距等做出检测，并求出周期性脉冲所占的百分比如果这个百分比低于3 0 ，也就是周期性相当差，一般就认为该区域不是文本区域。区域的切割这个过程根据一些经验规则和所求得的脉冲及其分布规律，将一个区域分为几个子区域。如果该区域的脉冲分布整齐，即具有相当的文字行的特征时，就不再切割它，将它作为文本分栏保存，退出递归；如果脉冲的分布规律性较差，那么就认为这个区域是图形或图像，这样的区域也不做切割，而是作为图像分栏保存起来，并退出递归。介于这两种极端情况之间的区域，一般应加以切割，算法描述如下： d i v i d e ( r e g i o n ) b e g in f i n d d i v i d o r 找出赖以切割的分割位量 i f ( d i v i d o r n u m = = 0 ) ，则保存分栏并退出四川大学硕士学位论文文档图像的文种识别系统 a d d c o l u m n ( r e g i o n ) r e t u r n e n di f 根据d i v i d o r ，将区域分为d i v i d o r n u m + 1 个子区域s u b r e g i o n f o r i = 0t 0d i v i d o r n u m + 1d o d i v i d e ( s u b r e g i o n i ) e n d 3 4 实验结果我们用2 0 0 幅文档图像进行了实验，取得了较好的效果。如图3 3 ，像这样的版面，该方法仅需要一次水平投影与一次垂直投影即可正确地进行版面分割。色滤光片、导光板增亮、逆变器、柔性电、路、镀膜设备、t 鱼刻、膜仪清洗、切刻、检测、光修复、熟压焊接、邦分器光率，b 怖胍。、胜1 ) 一、用器件、波长分割器、j 滤波嚣、整台嚣、光棚晶体、光通信测试仪器、、定位嚣、光纤熔揍机、圈3 - 3 一次水平投影与一次垂直投影的分割结果但是我们也发现，对于像图3 4 这样的嵌入式等复杂版面，该方法不能进行较好的分割。我们的结论是，投影法可以应用到简单版面和特定环境中的版面分析以及特殊运用，比如区域提取( 见2 3 1 ) 和文字行的切分等。复、举计 t j i i 大学硬士学位论文文档图像的文种识别系统繇够激黜 7e 胎体质芥乍：谯一咤甘扑气的螂- k 士木鲁椭气惝簸；t 抵太l ，山靠悱- i i 羹束太量山霸、藕米蕞量耳悻一大謇胡， f 骛、豆一、肆瞻赫冉生由，* “，牛由、鼻膏青、t 韵也有朴气 t 拘功烛图3 - 4 嵌入式版面下面对文字行的切分作一简单的介绍，因为基于局部特征的文种识别的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）文档图像的文种识别系统.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）文档图像的文种识别系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档