模式识别与分类.ppt_第1页
模式识别与分类.ppt_第2页
模式识别与分类.ppt_第3页
模式识别与分类.ppt_第4页
模式识别与分类.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别与分类,导言,Clustering/Classification 统称,如下问题,人眼识别物 中医看舌苔/脉搏 图谱辨别化合物,低维与高维数据,模式识别与分类,数据预处理,值域调整range scaling,自标度化 Autoscaling,均值0方差1模长,模式识别与分类,数据预处理,标准化 Normalization,模长为1,色谱面积归1,质谱最大为1,模式识别与分类,数据预处理,变换法,原变量相加/减/除等,组合法,模式识别与分类,数据预处理,特征的选择,模式识别与分类,数据预处理,协方差矩阵C与相关矩阵R,方差j=1,p,协方差j,k=1,p;jk,模式识别与分类,数据预处理

2、,方差-协方差矩阵,简称协方差矩阵如下:,对称矩阵,模式识别与分类,数据预处理,相关矩阵如下:,其中,但对于Autoscaling后的数据,s=1。C即为R。,模式识别与分类,无监督方法,模式识别与分类,PCA,得分score载荷loading,d为主成分数,模式识别与分类,PCA,投影判别法,数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类,模式识别与分类,PCA实例1,原始数据X(95),返回,模式识别与分类,方差百分数,主成分数的确定,指定 ,如90% 相应的d,PCA实例1,特征值1,对于相关矩阵, 1的成分为主成分,Scree检验,nPC在2-3间斜率下降 因此d=

3、2合适,模式识别与分类,得分图,主成分图形解释,PCA实例1,3个聚类分属三人,t1对t2作图,t1最重要,模式识别与分类,主成分图形解释,PCA实例1,载荷图,l1对l2作图,特征在主成分上的投影各变量的相关信息夹角越小,相关性越高高度相关的特征取1即可,载荷大小是重要性的度量位于原点的载荷不重要,金属间的相关性大于卤素间的Cu与Cl反性相关,l1最重要,距原点距离越大,该特征权重越大,Cu,模式识别与分类,主成分图形解释,PCA实例1,相似系数或相关系数表 Cu Cu 1.000 Mn Mn 0.697 1.000 Cl Cl -0.950 -0.692 1.000 Br Br -0.53

4、0 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084,相似系数,相关系数,模式识别与分类,得分图,主成分图形解释,PCA实例1,特征的选择,5个全取,取Cu/Br/I 仍能分类 效果略差,取Cu/Mn/Cl 分类效果差 l2无效果,3个,仅1个1 2.57,0.38,0.05 一维投影结果,原始数据,模式识别与分类,主成分图形解释,PCA实例1,双重图,biplot,t1各元素均有贡献t2由Br和I表征,Cu/Mn/Cl/I将对象聚为2组Br将对象聚为另2组,模式识别与分类,PCA实例1,应用示例烟叶硅烷化色谱,辽宁凤城烟叶不同部位烟叶的区分,模式

5、识别与分类,FA,用少数几个通用因子描述矩阵中的特征,抽象因子需经旋转变换成实因子TTFA,包含d个因子的特征参数,各因子对应1个起因,与对应因子相关的载荷分数,由剩余p-d个和通用因子无关的特殊因子构成,如噪声因子,模式识别与分类,FA,目标转换因子分析Target Transformation FA,变换矩阵,抽象载荷,目标,预测目标,均值相对偏差relative deviation估计两者的一致性,模式识别与分类,FA实例TTFA,多环芳烃HPLC-DAD数据,有3个重要因子,模式识别与分类,多环芳烃HPLC-DAD数据,FA实例TTFA,已知4物的纯光谱 但仅3个主因子 F补一列,模式

6、识别与分类,多环芳烃HPLC-DAD数据,FA实例TTFA,283.331545.91126.4-58.497 102.72120.36217.71172.22 3.665-106.13-223.13-169.66 -63.573-628.81-435.2476.663,111.23112.88282.74274.61 38.03685.85873.30428.345 52.66370.73415.276-24.929 110.5432.7193.991310.645 14.72625.2127.38911.377,模式识别与分类,聚类分析,无监督学习方法,根据相似性度量,物以类聚,分类方法是

7、把未知对象分配到已存在类中,聚类分析步骤,n个样本n类,模式识别与分类,聚类分析,距离与相似性度量的方法,明氏Minkowski距离,欧氏Euclidean距离,曼哈顿Manhattan距离city-block距离,模式识别与分类,聚类分析,距离与相似性度量的方法,马氏Mahalanobis距离,基于协方差矩阵C的向量运算,基于马氏距离的相似性量度,完全相似 Sij=1完全不相似 Sij=0,马氏距离可避免特征向量的相关性引起的失真无需对数据进行调整,模式识别与分类,聚类分析实例,6个血清样本的分级聚类,对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离,模式识别与分类

8、,聚类分析实例,6个血清样本的分级聚类,4*,5 并5*,1*,3 并3*,模式识别与分类,聚类分析实例,6个血清样本的分级聚类,6个血清样本 实际上可分为两类,模式识别与分类,聚类分析,A、B聚后新距离的算法,加权均连weighted average linkage,单连法(最近距离)single linkage,全连法(最远距离)complete linkage,其他方法,模式识别与分类,有监督方法,模式识别与分类,LLM,以分类(疾病判断)为例,存在一判别面,用垂直的法线(权)矢量w表示,与类1中任一样本矢量的夹角 ,与类2中,线性判别函数s(标量),,s0 ,s0,模式识别与分类,LLM,步骤,已知样本作训练得法线矢量w,未知样本计算s并预测分类,初值w,可随机确定,不符,模式识别与分类,LLM实例,数据,初值,模式识别与分类,LLM实例,修正w,不修正,须修正,以后还需修正1次,最终,判别,模式识别与分类,LLM实例,程序,llm.m,初值不同,w也不同,作业1,重现TTFA法对PA

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论