(计算机应用技术专业论文)结合区域分割的物体识别方法研究.pdf_第1页
(计算机应用技术专业论文)结合区域分割的物体识别方法研究.pdf_第2页
(计算机应用技术专业论文)结合区域分割的物体识别方法研究.pdf_第3页
(计算机应用技术专业论文)结合区域分割的物体识别方法研究.pdf_第4页
(计算机应用技术专业论文)结合区域分割的物体识别方法研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人声明所里交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得重废由e 电太堂或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:代松 签字日期: 2 。7 年r 月矽日 学位论文版权使用授权书 本学位论文作者完全了解重麽虫e 电太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权 重庞自电太堂可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:饥牧 导师签名:蒡伟z 签字日期: 。7 年t 月鸩日签字日期:b o 罗年f 月彬日 重庆邮电大学硕士论文 摘要 摘要 物体识别是当前机器视觉研究领域的一个重大课题,其研究的目的是 如何在以图像或视频作为输入的实际应用系统中更准确的识别出物体。以 往的物体识别技术大多把物体分割和物体识别分开来研究,而如今把分割 和识别同时考虑,越来越引起人们的关注。本文在总结和分析现有的物体 识别技术的基础上,深入地研究了在图片数据库中如何自动的检测、识别 和分割物体的问题,其中许多问题的研究都是当前机器视觉研究中的热点 和难点,针对这些问题,本文主要工作如下: 首先,研究使用无监督学习策略形成视觉字典。针对多类物体识别在 自底向上的判别式模型下,提取图像局部特征后,为了自动地形成视觉字 典,在使用七均值、f c m 等传统无监督聚类方法的基础上,引入亲和传播 聚类方法对特征进行归类,形成视觉字典,建立了底层特征与视觉字典之 间的联系,实现了基于小样本来建立大规模物体模型的方法。并通过实验 证明亲和传播聚类是一种更为精细的聚类方法,比传统方法较好。 其次,为了建立视觉字典基元与实际图像块之间的联系,在学习过程 中引入j o i n tb o o s t i n g 算法。利用该算法可以在不同的类别之间进行特征共 享,实现了多类物体识别。实验结果表明,该方法与目前主流的基于小样 本学习理论的支持向量机方法相比有效好的识别效果。 关键词:物体识别,图像分割,视觉字典,特征共享,j o i n tb o o s t i n g 算法 重庆邮电大学硕士论文 a b s t r a c t a b s t r a c t a s 锄i n l p o r t 觚tp r o b l e mi nm o d c mm l l i mv i s i o n s e a r c hf i e l d ,t h e 咖d yo f o b j e c tr e c o g n i t i o na i m st 0r c c o g i l i z eo b j e c t s 璐i i l gi i 】1 a g eo rv i d e o 嬲i i l p mi np r a c t i c a l s y s t e ms u c ht h a tt l l er c s u l ti s ,i i lt e m so fp r e c i s i o ni m p r o v e m e n t t i l ee a d i e ro b j e c t r e c o g l l i t i o nt e c l l l l i q u e sm o s ys e p a r a :t es e g m e n t a t i o na n dr e c o g i l i t i o n ,w h e n 蛐gi 1 1 :t 0 a c c o 哪t l l ee 伍c i e n c yo fr e c o g 咄i o n ,n l ew h o l ei sb e 讹r ,i th 鹪b e c o m em o r c 孤dm o r c p o p u l a lt h em a i l lc o m e n to fn l i s 枷c l ei st l l a th o w t 0i d e n t i 匆o b j e c ta c c l l r 纰e l y ,f 斑 赳l de 丘i e c t i v e l y a sa i l a l y z i i l gt h ee x i s t i n go b j e c tr e c o g l l i t i o nt e c m q u e s ,“sp a p e r i 1 1 v e s t i g a t e s n l e p r o b l e m o fa c l l i e v i i l ga u t o m a t i cd e t e c t i o n , r e c o 鲥t i o n , a 工l d s e g m e n t a t i o no fo b j e c tc l a s s e si np h o t 0 卿h s ,a i l dm a i l yp r o b l e m sa r eh o ti s s u e si n m a c l l i n ev i s i o nr e s e a r c h ,s e v e r a lk c yi s s u e s 嬲f o l l o w s : f i r s t l y w er e s e 觚c hm eu n s u p e r v i s e ds 仃a t e g yo fl e 锄i i l gv i s u a ld i c t i o n a r i e s a r e r e x t r a c t i n gt l l el o c a lf - e a t u r e s ,o l l rb o 位0 m - u pd i s c r i i i l i m 舱m o d e ll l s e ss o m e 拓a d i t i o n a l u n s u p e r v i s e dc l u s t 嘶n go fk - m e a n sa n d 缸z z yc - m e 孤:l si i l d 印e i l d e m l y , 觚di n t r o d l l c e s t 1 1 ea m n i 够p r o p a g a t i o na l g o r i m mt 0g r o u pt l l ef e a t u r e sf o re s t a b l i s l l i n gt 1 1 er e l a t i o n s m p b e “e e nf e a t u r ea i l dv i s u a ld i c t i o i l a 】t l l ee x p e r i m e n t a lr c s u l t ss h o w 也a tt l l ea l g o r i m m 西v e sa c c u r a t er e s u l t s e c o i l d l y ,i 1 1o r d e rt 0c r e a t em er e l a t i o n s l l i pb e “v e e nv i s l i a ld i c t i o i l a 巧砒l dt 1 1 e a c t u a li m a g ep a t c k 、ei n t r o d l l c ej o i n tb o o s t i n ga l g o r i t l l mi n t om el e a r n i i 培p r o c e s s t h ea l g o r i t h ms h a r e sf - e a t u r e s 锄o n go b j e c t sf o rm u l t i c l a s so b j e c tr e c o g m t i o n 1 k e x p e r i m e n t a lr e s u l t ss h o wm a tt h ea l g o r 讹吼i sb e t t e rt 1 1 趾t l l es u p p o r tv e c t o rm a c h i i l e m e m o dt h a tb 嬲e do ns m a l ls 锄叩l el e 锄i n gt l l e o r y k e yw o r d s :o b j e c tr e c o g 血i o n ,h i l a g es e 舯e n 诅t i o n ,s 砌d i c t i o n 哪s l l a r e d f e a t u r e ,j o i n tb o o s t i i 培a l g o r i t h m 重庆邮电大学硕士论文 目录 目录 摘要i a b s 臼j a c t i i 第一章绪论1 1 1 论文选题背景1 1 2 物体识别国内外研究现状3 1 2 1 传统的基于语法结构方法4 1 2 2 基于外观模型的方法5 1 3 论文主要工作7 1 4 论文组织结构7 第二章结合图像分割的物体识别理论基础9 2 1 图像分割的概念9 2 2 结合图像分割的物体识别1 0 2 2 1j i g s a w 方法1 1 2 2 2 马尔可夫随机场方法12 2 2 3 条件随机场方法1 2 2 2 4 解译图方法l3 2 1 3 小结1 4 第三章结合亲和传递聚类的物体识别的研究1 5 3 1 无监督学习视觉字典1 5 3 2 常用聚类算法1 6 3 2 1 聚类分析简介1 6 3 2 2 常用聚类算法1 7 3 3 亲和传递聚类算法2 1 3 4 实验测试2 5 3 4 1 实验设备及环境2 5 3 4 2 算法测试方案2 6 3 4 3 实验结果及分析2 7 3 5 小结2 9 m 重庆邮电大学硕士论文 目录 第四章基于j o 谳b 0 0 s t i n g 的物体识别方法3 0 4 1 特征共享3 0 4 2j o 缸b o o s t i n g 算法31 4 2 1j o i n tb o o s t i n g 算法一3l 4 2 2f i r s t - b e s t 搜索算法“3 3 4 3 实验测试3 4 4 4 ,j 、结3 6 第五章总结及未来的工作3 7 5 1 总结3 7 5 2 未来的工作3 8 致谢- 3 9 攻硕期间从事的科研工作及取得的研究成果一4 0 参考文献4 1 重庆邮电大学硕士论文 第一章绪论 第一章绪论 虽然人类识别自然界的万事万物相当容易,但对计算机自动识别来 说,却是一个相当困难的问题。在已有研究中,大多数物体识别方法是针 对特定的物体实例和表现形式,如人脸、字符、车牌、前视或侧视的车等, 这时建模、学习、推理与数据都有很强的针对性,从而也就缺少了通用性 和可扩充性。当前,物体识别的前沿研究是如何对大规模物体类别,而不 再是对单个物体实例进行识别。因此如何让计算机在近百万物体中识别出 是什么物体是一项有重要意义且富有挑战性的事情。 1 1 论文选题背景 物体识别( o b j e c tr e c o g n i t i o n ) 是当前国内外计算机视觉与模式识别领 域的研究热点,它是任何一个以图像或视频作为输入的实际应用系统中的 核心问题和关键技术【卜”】。这类系统的性能和应用前景都依赖于其中物体 表示和识别所能达到的水平,如在军事和民用中都有着广泛需求和应用的 智能视频监控、车辆辅助驾驶、盲人提供视觉伺服、数字图书馆和i n t e r n e t 互联网中所需的在海量视频或图像库中基于内容的检索、基于内容的图像 和视频编码与压缩、以及各类身份识别和认证系统等。 广义上,物体识别涵盖计算机视觉、模式识别,图像处理等方向。事 实证明它的发展为传统学科,如统计、应用数学、人工智能、机器人学等 注入了新的活力。它与神经、心理、认知科学相关联,同时它的发展与许 多新兴信息学科,如计算机图形学、计算机艺术( 动画与计算机绘画等) 、 网络搜索引擎,知识发掘,计算机移动通讯,传感器网络( s e n s o rn e t w o r k ) 等的发展息息相关。随着计算机和网络通讯技术的飞速发展,物体识别、 图像处理、模式识别等方面的研究与应用,已成为国际上研究热点。 物体识别是以计算机为辅助手段,从静态图像或动态图中识别物体, 问题一般可以描述为:给定一个景物的静止或视频图像,利用已存储的物 体数据库确认景物中有什么物体。虽然人类识别自然界的万事万物相当容 易,但对计算机自动识别来说,却是一个相当困难的问题。当前,物体识 别的前沿研究是如何对大规模物体类别。如几百类常见物体,而不再是单 重庆邮电大学硕士论文 第一章绪论 个物体实例进行表示和识别,这导致在建模、学习、推理与数据四个方面 都遇到很大的挑战,具体而言有以下六点【l b ”j : ( 1 ) 物体在图像中以任意姿态和视角出现,系统无法预先知道其具体 尺度和视角;同时,每种特征都只在一定尺度范围内具有可感知意义,不 同尺度下和不同视角下,对识别起作用的特征是不同的。已有大部分识别 算法都是针对某一固定尺度下对某种视角进行学习,而没有考虑如何同时 处理不同尺度与视角的情况,这会导致识别的丢失率比较高;在低尺度情 况下,物体本身的本质信息已经丢失;这些情况下识别必须依靠其所在图 像区域的上下文相关信息,即场景信息来帮助进行推理,提升识别率。 ( 2 ) 同一类物体往往有自己特定的颜色,由于颜色的检测和识别具有 简单和快速的特点,在许多实际的检测和跟踪系统中都采用颜色作为主要 的检测手段。但是在不同的光照条件下,物体识别率会急剧的下降。其主 要原因是硬件的成像与光照的关系并不是线性的。当光线太强时会出现饱 和;当光线较弱时,阴影部分就会出现信噪比较低。上述两种情况下,物 体的色度都会发生变化;这正说明了为什么一个基于颜色检测的系统只能 在给定的条件和硬件环境下运行,而当光照或硬件发生变化时会失效的原 因。如何设计一种有效地避免光线带来对物体识别的影响,解决光线问题 成为其中的关键。 ( 3 ) 遮挡问题是物体识别中不可回避的问题。我们所要识别的物体可 能被其他物体部分遮挡,周围被遮挡的物体无法成像,丢失了一些重要的 信息,使得准确识别目标物体的难度增加。如何设计一种目标物体图像部 分遮挡或残缺时的识别方法,包括最小特征集的选择和确定、特征信息缺 损时的识别方法以及遮挡率与识别有效性的研究就显得十分重要。 ( 4 ) 同一类物体可能在大小上存在巨大的差异性。比如人的身高从 1 0 0 c m 2 4 0 c m 之间变化,这就给同一类物体识别方法的设计带来了很大的 困难。 ( 5 ) 由于所使用的物质材料、工具和表现技法的互异性以及物体的表 示方法的不同,会使得识别难度加强。比如在绘画上,不同的绘画种类, 产生着各自特殊的审美意趣,如油画的变化多端的肌理感的技法美感,版 画的黑白灰关系中的刀法趣味,中国画的富有生气的笔墨情趣等。设计一 种有效地针对物体变形对物体识别的造成影响的方法,对物体识别来说是 一项挑战。 ( 6 ) 大多数物体类别的类内结构变化非常大,如钟、椅子和衣服等, 每类都具有千变万化和千姿百态的表现形式。如何在统一建模框架下来描 2 重庆邮电大学硕士论文 第一章绪论 述这类物体,给出数学模型定义,同时要能使得模型的学习是基于小样本, 类似人类感知机理人能从少量几个到1 0 0 个左右样本中学习而推广到 一般,即举一反三能力强,从而才可保证大型系统的实现具有可行性。传 统的针对单个物体实例所建立的表示方法,如目前流行的机器学习算法, 在处理类内变化维度大的物体时都会遇到所谓的“维度灾难”问题,即所需 的样本数量呈维度的指数方式增长,则需要上百万的正、负样本,再加上 同时处理大规模物体类别,就使得其不再实际可行和有效。 为此,在物体识别的研究过程中,必须考虑以上的六点挑战,下面首 先具体分析问题的本质以及国内外研究现状。 1 2 物体识别国内外研究现状 物体识别一直是计算机视觉中比较活跃的研究领域。几十年来在学者 们坚持不懈的努力下,物体识别在许多方面取得了重大的发展。随着对人 类视觉系统的深入了解,更多先进的数学工具的使用、计算机存储能力的 提高和运算能力的增强,使物体识别领域发展到当今现状。 第一个建立起计算机视觉系统理论的是英国的d a v i dm a r r 视觉计算 理论,这一理论立足于计算机科学,系统地概括了心理生理学和神经生理 学等方面取得的所有重要成果,为广大计算机视觉研究者所接受,并大大 促进了计算机视觉学科的发展。 m a r r 【2 0 】认为,视觉就是要对外部世界的图像构成有效的符号描述,它 的核心问题是要从图像的结构推导出外部世界的结构。视觉从图像开始, 经过一系列的处理和转换,最后达到对外部现实世界的认识和理解。他的 视觉计算理论框架可分为三部分,如图1 1 所示。 第一阶段( 早期阶段) :将输入的原始图像进行处理,抽取图像中诸如 斑点、端点、边缘片断、有效线段、线段组、曲线组织和边界等基本特征, 这些特征的集合称为基元图( p r i m i t i v es k e t c h ) 。这一阶段的目标在于把原 始二维图像中的重要信息更清楚地表示出来。 第二阶段( 中期阶段) :指在以观测者为中心的坐标系中,由输入图像 和基元图恢复场景可见部分的深度、法线方向和轮廓等信息,这些信息包 含了深度信息,但不是真正的物体三维表示,因此称为二维半图( 2 5 d i m e n s i o n a ls k e t c h ) 。它的作用是揭示一个图像的表面特征。马尔声称, 早期视觉加工的目标就是要建立一个二维半图的要素图,这是把一个表面 3 重庆邮电大学硕士论文 第一章绪论 解释为一个特定的物体或一组物体之前的最后一步。 第三阶段( 后期阶段) :在以物体为中心的坐标系中,由输入图像、基 元图、二维半图来恢复、表示和识别三维物体。 图1 1 视觉系统的三个层次 然而m a r r 视觉理论有两个明显的缺点:被动性,即整个视觉过程 中只依赖初始给定的若干图像,是一个严格“自下而上”的处理过程,没有 “自上而下”的反馈过程,导致很多视觉问题为不适定问题,无解或解不是 唯一的;复原性,即视觉的首要任务就是重建景物的三维模型来完成各 种视觉任务,实际上,很多视觉问题不必进行三维复原就可以求解,特别 是在被动视觉框架下,复原三维物体有时是不可能的。m a r r 视觉理论的这 两个特点使其在理论及应用方面都受到极大地限制。 总之,在当今国内外计算机视觉领域中,物体表示与识别通常可以区 分为两类方法:基于结构的方法或称基于语法的方法,与基于外观模型的 方法。 1 2 1 传统的基于语法结构方法 主要有随机上下文无关语法、带属性的语法,以及视觉部件的多层次 分解等。在上个世纪7 0 年代,基于语法的方法是主流,它表达了物体多 层次分解和构成的语法特性,如著名华人科学家傅京生【2 1 】在上个世纪7 0 年代提出的语法模式识别,b i e d e m a n 【2 2 1 提出的通过部件识别物体等,但 由于当时没有数学模型来建立语法基元( p r i m i t i v e ) 与真实图像块( i m a g e 4 重庆邮电大学硕士论文 第一章绪论 p a t c h ) 之间的对应,使其与真实图像之间产生很大的语义鸿沟,而无法处 理自然图像,同时缺少学习能力,也就没有取得非常好的进展,这些主要 是受当时的种种条件不足的限制,具体分析主要体现在建模、学习、推理 计算和测试标准图像数据库四个方面: ( 1 ) 缺少统一建模的数学框架来对各种物体统一表示,如,如何统一 马尔可夫随机场( m a r k o vr a n d o mm o d e l ,m r f ) 等图模型( g r a p h i c a lm o d e l ) 和稀疏编码( s p a r s ec o d i n g ) 与随机上下文无关文法( s c f g ) 等。没有统一的 表示框架,物体之间就无法通过相互合作和竞争来完成最终识别; ( 2 ) 缺少建立语法基元( p r i m i t i v e ) 到真实图像块( i m a g ep a t c h ) 对应的真 实外观模型( r e a l i s t i ca p p e a r a n c em o d e l ) ,没有这种对应,基于语法规则的 推理就成了纸上谈兵,根本无法应用到真实自然场景图像中,而只能处理 简单的人工合成图像; ( 3 ) 缺少好的机器学习算法来解决检测和分类问题,没有学习,表示 模型的参数和推理算法的计算都只能定性分析,而无法定量分析,也就无 法进行实际应用; ( 4 ) 当时缺少建立大型的图像数据库的条件,没有客观标准( g r o u n d t r u t h ) ,也就无法进行学习,以及检验算法的结果。 1 2 2 基于外观模型的方法 基于外观模型的方法主要有基于全局外观和基于局部外观两种方法。 基于全局外观模型,如主成分分析( p r i n c i p a lc o m p o n e n ta n a l y s i s ,p c a ) , 通用主成分分析等,以及基于局部外观模型,如,以尺度不变特征点变换 ( s c a l ei n v a r i a n tf e a t u r et r a n s f o r m ,s i f t ) 2 3 】与基于熵的显著性度量 ( e n t r o p y b a s e ds a l i e n c y ) 【2 4 】表的各种不变性特征点方法( i n v a r i a n tf e a t u r e p o i n t ) ,图像块( p a t c h e s ) 的编码字典( c o d eb 0 0 k ) 【2 5 1 ,c o n s t e l l a t i o n 【2 6 】模型、 b a g o f - w o r d s 与b a g o f - f e a t u r e s 【2 7 】模型等。发展到9 0 年代,基于外观模 型的方法由于与真实图像相结合紧密而十分好用,逐渐为大多数研究者所 采用,但是这类方法依赖于物体实例的某些表现形式下外观的纹理特征, 而没有对物体本质上多层次分解和构成特性进行表示,所以它们无法表达 类内结构变化大的物体,也就是说这类方法是放弃了原本基于结构语法方 法的优点。基于外观模型方法中根据是基于全局外观还是局部外观而有所 不同,其中,基于全局外观模型的方法是将物体的图像看作高维图像空间 中一点,对其作数学上的线性或非线性变换,投影到某些低维的特征子空 5 重庆邮电大学硕士论文 第一章绪论 间中,形成对物体的表示,识别就表现为在所得特征空间中对样本点的聚 类分析和决策分类,对于一个大规模物体识别系统,不仅有很多类内 ( i n t r a c l a s s ) 结构变化大的物体,同时也存在很多不同类类间( i n t e 卜c l a s s ) 有 较大的相似性,这导致在特征空间通过划分来识别就力不从心,以及现实 图像中物体之间的遮挡会导致基于全局外观的表示失效,这些都是基于全 局外观模型方法不可逾越的困难;基于局部外观模型是将物体看作由一组 局部外观块组成,这些局部外观块的选取可以通过先检测某种不变性特征 点,如s i f t ,再以特征点为中心取一定形状和大小的区域,或按照某种信 息度量准则来取局部外观块,如f r a g e m e n t 模型,然后将这些局部外观块 作为基元对物体进行编码,如c o d eb o o k 方法,b a g o f w o r d s 与 b a g o f f e a t u r e s 方法,或者再在其相互之间加入一些几何形状模型约束, 如c o n s t e l l a t i o n 模型及其相关改进模型,最后进行识别;基于局部外观模 型的方法从形式上看也对物体做“分解 ,这可以使得其表示能力有一定 的提高以及可以应付一些遮挡情况,但是它采用的“分解”没有真正从语 法意义上体现物体的多层次分解和构成特性,没有显式的结构分解分析指 导,也就没有语法上统一表示和多层次构成的能力。 数据是学习和建模的根本,没有好的数据,一切就无从谈起。这点在 国际计算机视觉界已经引起足够的重视,成为大家关注的一个焦点,目前 比较流行的几个数据库有: ( 1 ) 美国麻省理工学院人工智能实验室l a b e l m e 数据库【2 引,其主要特 点是基于网络平台的在线物体标注,此数据库拥有较多的标注物体数目 ( 十万余物体) 。主要不足是物体种类单一,标注细节不足,缺乏层次化的 场景和物体分解。 ( 2 ) 美国加州理工大学的c a l t e c h1 0 l 数据库【2 9 1 ,其主要特点是物体种 类较丰富( 共有1 0 l 类物体) 。主要不足为图片质量差( 低解译度、单一视 角、简单背景) 。 ( 3 ) 美国加州大学伯克利分校的b e r k e l e y 分割图像数据库1 3 0 】。其主要 特点是拥有细致的人工分割结果,同一幅图像经过多人标注,以最大程度 降低个人理解带来的误差。主要不足为图像数目太少( 仅仅拥有3 千余幅 图片) 。 物体识别的研究在国内取得了很大进展,湖北莲花山计算机视觉和信 息科学研究院、微软亚洲研究院、清华大学、中科院计算所、中科院自动 化所、北航,北京理工,武汉大学、华中科技大学等国内许多所著名大学 和研究机构已经开展了物体识别关键技术的研究。其中,湖北莲花山计算 6 重庆邮电大学硕士论文第一章绪论 机视觉和信息科学研究院【3 1 1 ,目前在人工标注图像和视频数据库上,已形 成了充分规模,对各类场景和物体图像在各个层次上进行多尺度人工标 注,标注涵盖从高层的场景级标注到多尺度的物体级标注,标注的物体类 别涵盖2 0 0 类,已完成了6 0 余万个自然物体的标注。 1 3 论文主要工作 物体识别的研究课题有着广泛的应用前景,它是任何一个以图像或视 频作为输入的实际应用系统中的核心问题和关键技术之一。 物体识别的过程通常为:第一步对待识别物体建立表示,第二步在一 定训练样本集上学习表示模型的参数,第三步基元所得模型,设计从图像 中检测与识别物体的算法并训练算法,第四步在实际测试图像上对算法进 行测试和性能评估。其过程如图1 2 所示: 图1 2 物体识别流程图 本文的主要工作主要有以下几个方面: 第一,研究了无监督策略学习视觉字典。引入亲和传播聚类方法对特 征进行归类,形成视觉字典,建立了底层特征与视觉字典之间的联系,实 现了基于小样本来建立大规模物体模型的方法。 第二,为了建立视觉字典基元与实际图像块之间的联系,在学习过程 中引入j o i n tb o o s t i n g 算法。利用该算法可以在不同的类之间进行特征共 享,实现了多类物体检测和识别。 1 4 论文组织结构 本章概述了多种目前流行的物体识别方法。基于研究内容,本论文组 织结构如下: 第一章:绪论。主要介绍了本课题的相关研究背景、发展状况及国内 7 重庆邮电大学硕士论文第一章绪论 外的研究成果,分析了当前研究中存在的主要问题,确定论文的研究内容 和组织结构。 第二章:结合物体识别的图像分割理论基础。简单介绍了图像分割的 概念,结合物体分割的识别的算法。 第三章:研究了使用无监督聚类策略学习视觉字典。采用了无监督方 法自动生成视觉字典,建立了底层特征与视觉字典之间的联系。 第四章:把j o i n tb o o s t i n g 算法引用到学习算法上。利用该算法在不同 类别之间进行特征共享,实现处理固定尺度下的物体识别。 第五章:结论和未来工作。总结了本文的主要工作,并指出了下一步 有待继续研究的问题。 8 重庆邮电大学硕士论文 第二章结合图像分割的物体识别理论基础 第二章结合图像分割的物体识别理论基础 物体识别是一项具有挑战性的研究工作,物体识别的前沿研究是如何 对大规模物体类别,而不再是单个物体实例识别。而物体分割是物体识别 中最基础性的工作。本章首先介绍了传统上图像分割的基本概念,然后概 述了结合物体分割和识别方法。 2 1 图像分割的概念 图像分割【3 2 】是图像工程中的一项基本技术,在计算机视觉、面向对象 的多媒体技术等重大领域中具有基础性地位。图像分割技术几乎出现在所 有与图像相关的领域,具有广泛的应用需求。从一幅带有复杂背景的图像 中提取出观察者感兴趣的对象,即图像对象分割,是图像分割的最高目标, 也是其发展的显著趋势。因此,对图像对象分割理论及其相关技术进行研 究具有十分重要的意义。通过将图像分为有意义的或具有相似属性的空间 连贯区域,对图像进行了基于区域的描述,便于下一步的分类识别。 图像分割的方法之多可以用浩如烟海形容,但实现一个面面俱到的通 用分割技术还面临很大的困难,短时间难以解决。目前,在实现这样的技 术方面有了较明显的进步。与分割相关的综合理论体系支持有了新的发 展,包括物体识别,机器学习等一些主要的技术逐渐成熟,以及多学科的 融合交叉促进了图像处理和计算机视觉的发展。但离实现任意目标的商业 应用还很远,原因自然是计算机的信息理解能力远落后于人脑的处理能 力,计算机的“智能 水平低下暂不能满足图像理解的需求。只有随着信 息处理技术的综合发展,信号处理和心理认知等多学科的交叉,相应的图 像处理和图像理解等领域才能不断有新的突破。 图像分割的目的是根据物体的某些特征将一幅图像分成若干个“有意 义”的互不交叠的区域,使得这些特征在某一区域内表现一致或相似,而 在不同区域间则表现明显的不同。这里的“有意义 可以指灰度、色彩、 纹理以及其它特定的属性等,目标可以是单个区域,也可以是多个区域的 并集。 定义2 1 设集合,表示一幅图像,集合r 代表整幅图像的中的所有区 9 重庆邮电大学硕士论文 第二章结合图像分割的物体识别理论基础 域,则图像分割就是在给定均匀测度度量尸的条件下,将,划分为个非 空子集( 区域) 墨,心,r 的过程。该划分需要满足下述五个条件: ( 1 ) u 马= 尺; ,兰j ( 2 ) 对所有的f 和当f ,有墨nr ,= : ( 3 ) 对f = 1 ,2 ,有p ( r ) = 豫乙匹; ( 4 ) 对,有p ( 冠u 足,) = 剐脚; ( 5 ) 对,2 = l ,2 ,足是连通的区域。 其中p ( r ) 是对所有在集合墨中元素的逻辑谓词,代表空集。 上述条件( 1 ) 表明分割结果中全部子区域的总和应能包括图像中所有 像素。条件( 2 ) 表明分割结果中各个子区域是互不重叠的,即一个像素不能 同时属于两个区域。条件( 3 ) 表明分割图像的某个区域的像素应该具有某些 相同的特性。条件( 4 ) 表明属于分割图像的不同区域的像素应该具有不同的 特性。条件( 5 ) 表明分割图像的某一个子区域内的像素应该相互连通,其连 通性的表现可以由四连通、或者八连通的定义来决定。 这个定义中,最为关键的就是一致性谓词尸,根据p 的涵义不同,划 分出的图像区域的“意义 也就不同。“意义 实际上就是指一致性属性, 通常具有下述几个不同的级别: ( 1 ) 像素级:分割出的区域,具有像素级上特征的一致性,通常表现 为色彩范围的一致性,如通过设定像素值阈值提取出的肤色区域; ( 2 ) 区域级:分割出的连通区域具有区域级上特征的一致性,通常表 现为纹理特征、区域形状特征等方面的一致性,如利用纹理特征提取出的 草地区域; ( 3 ) 对象级:分割出的连通区域,具有对象意义上的一致性,也就是 说整个区域或者同时隶属于某一个对象区域,或者同时属于非对象区域。 本文所阐述的图像对象分割,是将图像中有实际意义的对象提取出 来,也就是要达到对象级的一致性属性。其实这是进一步进行图像识别、 分析和理解的基础,也是计算机视觉的重点和难点。 2 2 结合图像分割的物体识别 图像中的区域具有不同的特征,可以看作不同的模式,- 个模式类似 一组具有某些共同特征的模式群,而模式又可以看作是由一个或多个模式 1 0 重庆邮电大学硕士论文 第二章结合图像分割的物体识别理论基础 符( 即特征) 组成。模式识别的目的是将不同的模式分类,将目标从背景中 分离出来,或者说,将不同的区域分割开来。 图像分割的最高目标是图像对象分割。这不同于一般意义上的图像分 割得到的结果,如图2 1 所示,图像分割是将图像分割成若干具有底层特征 一致性的区域,而图像的对象分割强调分割提取出具有实际意义的对象。 本文中阐述的对象,是指在人类视觉场景中具有独立意义的目标,如场景 中的人,车等具有独立意义的实体。这一分割目标具有广泛的应用需求, 在计算机视觉、基于内容的图像检索等很多领域中,能够从一幅带有复杂 背景的图像中提出具有实际意义的对象,是这些领域中更本质的需求,具 有重要意义。 图2 1 结合物体分割的物体识别方法 物体识别和图像分割是紧密相关的,没有物体或物体局部识别,分割 就无法进行,而没有分割,物体识别也是不可能的,结合物体识别的图像 分割可以使分割变得更加有效,如图2 2 所示。在分割的时候考虑到识别 的效率问题,从整体上进行分割是为了更好地进行识别,这已经成为当今 的研究热点。下面介绍一下结合图像分割的物体识别的国内外常用方法。 r 物体识别 么1 自入、反馈 是供伪 提倒 ,i l 月理佑 弋。7 图像分割 图2 2 物体识别和图像分割相互关系 2 2 1j i g s a w 方法 b o r e n s t e i n 和u l l m a n 【3 3 】提出了一种基于类别的自底到上联合使用灰度 重庆邮电大学硕士论文 第二章结合图像分割的物体识别理论基础 层、纹理和边界轮廓的分割方法。先获得图像的特征信息,接着基于区域 的相似度对图像进行分割。这种方法针对形状变化和背景的不同可以极大 的提高分类的结果,如图2 3 所示。 碎片匹配 2 2 2 马尔可夫随机场方法 图2 3j i g s a w 方法 覆盖 马尔可夫随机场f 3 4 】是一类考虑空间像素点之间空间关联的统计学方 法。统计学方法的实质是从统计学的角度出发对数字图像进行建模,把图 像中各个像素点的灰度值看作具有一定概率分布的随机变量把图像看成 格点集g 上的组态空间s : 1 ,2 ,) 的一个组态,由于自然景物等的图像往 往具有一些局部相联系( 空间不变性) 的结构,而马尔可夫随机场基于图像 数据的局部相关性,用一个二维随机场描述图像模型,它用条件概率描述 图像的数据分布,条件概率只与相邻格点有关;由于相邻系统m r f 与邻位 势g i b b s 场是一致的,这些结构可以抽象地归结为组态间基于相邻系统的能 量函数,从而可以把一幅图像用一个能量函数取到最小值时的组态,即用 g i b b s 分布达到最大处的组态表示,通过能量函数或g i b b s 分布来对图像建 模。 对于马尔可夫随机场而言,参数估计是非常重要的,它是马尔可夫分 割算法的一个重点研究问题,参数估计的正确性不仅能保证图像分割的准 确性,也能保证算法的自适应性。然而参数估计的复杂性是制约其应用的 一个瓶颈,因此必须选择正确的参数估计方法和优化计算方法,以保证估 计的正确性和收敛的快速性。然而,基于马尔可夫场的分割算法不能有效 地处理图像的模糊性,如部分容积效应、灰度重叠及灰度非均匀性等。 2 2 3 条件随机场方法 条件随机场【3 5 1 ( c o n d i t i o n a lr a n d o mf i e l d s ,以下简称c r f ) 是一种基于 1 2 重庆邮电大学硕士论文第二章结合图像分割的物体识别理论基础 统计的序列标注和分割的方法识别模型,它由j o h nl a f f e r t y 等人在2 0 0 1 年首次提出,是一种新的概率图模型,标注序列的结构可以看作一般的无 向图,也是在给定输入节点条件下计算输出节点的条件概率的无向图模 型。它不需要以隐马尔可夫模型为代表的“生成模型那样的严格独立假 设,同时,由于c r f 计算全局最优输出节点的条件概率,并克服了最大熵 马尔可夫模型和其他“非生成”模型所存在的标记偏置的问题。c r f 不再 单独计算每个节点标注的条件概率分布,而是计算整个标注序列在整个观 测序列下的条件概率分布,解决了“标注偏差问题 。因此,c r f 模型可 以更好地拟合真实世界的数据。c r f 的优点是能有效整合多种特征,即使 有些特征之间存在交叉现象,还是能发挥很好的性能。 2 2 4 解译图方法 美国洛杉矶加州大学( u c l a ) 统计系及计算机系朱松纯教授【3 6 4 7 l 提出 了解译图的方法,他认为自然图像可以被看成是一个构成式系统,它是高 度复杂又高度结构化的。其中包含各种各样的物体,每个物体又可被分解 为不同的构成部件,子部件,如此类推,这种多层次的分解是递归的,抽 象出来就定义了图像语法,能统一表达成千上万的物体;物体本身变化各 异,在图像中呈现千姿百态,并且图像中物体之间和同一物体内部不同部 分之间都有着各种各样的空间关系和语义关系,如邻接关系、共圆关系、 遮挡关系和支撑关系等等,这些关系形成了图像的上下文相关信息。为此, 物体表示就是要能从语法上对其构成规则进行描述,形成各个层次上的基 元库,即视觉字典,从语义上对其上下文关系进行描述,形成关系库,两 者综合得到随机上下文相关图像语法,形成视觉表示性知识;物体识别就 是首先建立视觉字典基元与实际图像块之间的对应,基于小样本学习各种 基元以及其符号表示与真实图像对应的模型,在贝叶斯框架下,通过自底 向上辨别式模型计算各种多尺度特征对视觉字典基元和不同关系进行测 试,基于图像语法进行多层次组合,结合自顶向下产生式模型共同推理, 建立它们之间的有效调度,即计算顺序,这些共同形成视觉计算性知识。 例如类内( i n t r a c l a s s ) 结构变化大的物体,如钟、椅子和衣服等,必须要用 构成( c o m p o s i t i o n ) 式方法来建模,对其语法进行描述。从构造方式上来说, 这类物体虽千百万化,但其结构分解是有规则的,如钟可分解为:外框、 表盘、指针、表示时间的数字,其中的每一个子部件( p a r t ) 的表现形式相对 物体来说交化就小得多了,如外框常见的是方形、圆形或椭圆形等,表示 重庆邮电大学硕士论文 第二章结合图像分割的物体识别理论基础 时间的数字可以是罗马数字或阿拉伯数字等。对其建模,一方面要能对这 种构造方式进行表示,同时对子部件之间的关系进行描述,而子部件本身 也可能进一步通过构造式模型来描述。通过这种构造式方法对大量视觉模 式建模,最终处于分解最底层的一些子部件基元就可以抽象形成视觉字 典,它们反过来逐级向上通过构成组合出大量的物体及其各种表现形式, 从而能处理类内结构变化大的问题,如图2 4 所示。 基于与或图这样一种统一建模表示框架,从图像中识别物体的推理计 算就表现为通过图像自底向上的对图像数据进行计算,同时结合所建立的 物体与或图表示模型作为自顶向下的视觉知识指导,共同来求解图像的解 译图,其中每个节点的标号表示识别结果,同时解译图将物体的分解情况 和各种关系情况,通过一个图结构表示,附加在图像上,这与传统的识别 算法中只是简单的通过给图像中的每个区域赋一个物体类别的标号相比 而言,对物体识别和表示有了更加全面的解释,更符合人的认知机理,也 能支撑后期更上层视觉中更多的实际应用开发。 2 3 小结 图2 4 基于解译图的分割方法 本章主要介绍了图像分割的概念,总结了国内外结合物体识别和分割 算法。通过将图像分为有意义的或具有相似属性的空间连贯区域,对图像 进行了基于区域的描述,为进一步的研究工作做准备。 1 4 重庆邮电大学硕士论文第三章结合亲和传递聚类的物体识别晌蔓壁窒 第三章结合亲和传递聚类的物体识别的研究 在视觉通路的各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论