贝叶斯分类器经典讲解_第1页
贝叶斯分类器经典讲解_第2页
贝叶斯分类器经典讲解_第3页
贝叶斯分类器经典讲解_第4页
贝叶斯分类器经典讲解_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贝叶斯算法贝叶斯算法玉1381702年出1742年成1763年4月学界叶駆亠为黯篁家学盒镐 出嚅矗尊归纳于概率论孰理论,并创酩充计理论,对孩址决计推断、统计的估算零做出了贡hl个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症 可用数据来自化验结果:正+和负-有先验知识:在所有人口中,患病率是0008 对确实有病的患者的化验准确率为98%,对确实 无病的患者的化验准确率为97 %总结如下P(cancer)=0.00 & P(-icancer)=0.992P(+lcancer)=0.9 & P(-lcancer)=0.02P(+l-icancer)=0.035 P(- l-i

2、cancer)=0.97问题:假定有一个新病人,化验 结果为正,是否应将病人断定为求后验概率P(cancer|+) 和 P(cancer|+)亠L这里先解释什么是条件概率p(aIb)在求解公式为生的条彳P(A|£)=P(AB)趴Ii町护叫H ; F乜-贝叶斯定理的意义在于,我们在生 活中经常遇到这种情况:我们可以很容 易直接得岀P(A|B), P(B|A)则很难直接 得出,但我们更关心P(B|A),贝叶斯定 理就为我们打通从P(A|B)获得P(B|A)的 道路。贝叶斯定理贝叶斯定理下面不加证明给出贝叶斯定 理公式P(B A)=P(A|B)F(B)P(A)I®P(BA)-的定

3、义表示在没有训练数据前假设A拥有的初 始概率。P(A)被称为A的先验概率.P(AIB)表示假设B成立时A的概率 机器学习中我们关心的是P(BIA),即 给定A时B的成立的概率,称为B的 后验概率机器语言贝叶斯定理的解释P(B A)=P(A|B)P(B)P(A)P(BIA)随着P(B)和P(AIB)的增长而增长,随 着P(A)的增长而减少,即如果A独立于B时被观 察到的可能性越大,那么B对A的支持度越小Bmap = argmaxP(51 A) = argmaxP(A)BwHBwH评分标准P(4 I ®P(B) = argmaxP(A | b)P(B)BwHH:假设候选集NP (AIB)

4、=HP(4IB)1表示使P (BIA) 最大的B值1、条件独立性朴素贝叶斯分类器1 L*V1IIM给定类标号y,朴素贝叶斯分类器在估计类条件概 率时假设属性之间条件独立。条件独立假设可以形 式化葩癢达如下:1其中每个训练样本可用一个属性向量X二(X,X2,X3”XJ表示,各个属性之间条件独立。朴素贝叶斯分类器比如,对于一篇文章 uGood good study,Day day up/'用一个文本特征向量来表不: x=(Good, good, study, Day, day , up)o一般各个词语之间肯定不是相互独立的,有一定 的上下文联系。但在朴素贝叶斯文本分类时,我 们假设个单词之

5、间没有联系,可以用一个文本特 征向量来表示这篇文章,这就是“朴素”的来历。/作素贝叶斯如何有了条件独立假设,就不必计算X和Y的每 一种组合的类条件概率,只需对给定的Y, 计算每个人的条件概率。后一种方法更实 用,因为它不需要很大的训练集就能获 得较好的概率估计。/分类属性的条件概率P(XY=y)怎么计算呢?它一般根据类别y下 包含属性Xj的实例的比例来估计。以文本 分类为例,人表示一个单词,P(Xj|Y=y)= 包含该类别下包含单词的xi的文章总数/ 该类别下的文章总数。贝叶斯分类器举例假设给定了如下训 练样本数据,我们学习的 目标是根据给定的天气状 况判断你对PlayTennis这个 请求的

6、回答是Yes还是No。p(y = yes9/14p(y = no) = 5/14DayOutlookTerrperat uroHumidityWindPI ayTennisI D1SunnyHotHighWeak1 D2SunnyHotHighStrongI D3OvercastHotHighWeakYes.I D4RainMi IdHighWeakYes.1 D5RainCoolNormalWeakYes.1 D6RainCoolNormalStrongD7OvercastCoolNormalStrongYes.D8SunnyMildHighWeakD9SunnyCoolNormalWeak

7、Yes.D10RainMi IdNormalWeakYes.D11SunnyMildNormalStrongYes.D12OvercastMi IdHighStrongYes.D13OvercastHotNormalWeakYes.D14RainMildHighStrong1outlook贝叶斯分类器temperatue humdity wind打网球y = yes , no. I . I .我们需要利用训练数据计算后验概率玖Yeslx)和P(Nolx), 如果P(Yeslx)>P(Nolx),那么新实例分类为Yes,否则为NooX =贝叶斯分类器举例;表的数据,并结合朴素贝outloo

8、k overcast temperatue = coo 1 humdity= normal wind = strong. I .贝叶斯分类器举例贝叶斯分类器举例P(Outl(=1/5P(W=4/5P(Qo)=3/5)id = Strong=3/5DayOut Io okTempe ratur eHumid ityWindPlayTennisD1Sunn yHotHighWeakNoD2Sunn yHotHighStro ngNoD8Sunn yMi IdHighWeakNo1iD14RainMi IdHighStro ngNoD6RainNorm alStro ngNo贝叶斯分类器举例P(Ou

9、tlook = SunnylNo)=3/5)Temperature = Cool INoP( 二 4/5ind = Strong |Ni贝叶斯分类器举例i贝叶斯分类器举例18r 、p(xiy = no)= |44*| = p(Y = no) = 5/14P(XI Y = NO)*P(Y = NO) = * 625 14875、ippP贝叶斯分类器举例DayOut Ioo kTemper atureHumidi tyWindPlayTe nnisD3Overca stHotHighWeakYes? D4RainMildHighWeakYesD5RainCoolNormalWeakYesD7Ove

10、rca stCoolNormalStrong:YesD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYosD12Overca stMildHighStrongYesD13Overca stHotNormalWeakYes贝叶斯分类器举例FT. .us - J 厂_. .、.古*. v3/9P(OutIook = Sunny|Yes)=2/9 P(Temprature = Cool |YeI FT f. “4;贝叶斯分类器举例I FT f. “4;贝叶斯分类器举例=3/9I (Wi nd = Stro

11、ng |Yes)I FT f. “4;贝叶斯分类器举例I FT f. “4;贝叶斯分类器举例P(XIY = YES)P(P = YES) = -% 9 9 u i892339 9_283P(XIY = YES) = -*-*-9 9p(p = yes) =9/14 2pHI FT f. “4;1大于1由于i-i';p(xiy = yes)p(p = yes)= i89P(X IY = NO)P(Y = NO)=87 5IW:广贝叶斯分类器举例准备工作阶段分类器训誘段应用阶段亠一N 一 条件概率的m估廿hI假设有来了一个新样本1x1= (Outlook =Cloudy,Tempratur

12、e = Cool,Humidity = High,Wind =帥Strong)要求对其分类。我们来开始计算1计算到这里,大家就会意识到,这里,我们可以直接得到后验概率P(Yes |瞅x1)= P(No | x1)=0,这时二者相等,o条件概率的m估计I1,都会出现上述的窘来估计类条件概率的方法太脆弱了,尤OP(X.| Y)=叫+mpn + mn是Y中的样本总数,1%是Y中取值Xj的样本数,m是称为等 价样本大小的参数,而P是用户指定的参数。如果没有训练集(即n二0),则P(xjyj)二p,因此p可以看 作是在Y的样本中观察属性值xi的先验概率。等价样本大 小决定先验概率和观测概率n/i之间的平

13、衡类C下单词总数 +1V I+込血女(、类C下单词总数 先骚概十P(C)-整个训练本的单词总数条件概剰® 0 =类C下单词tk在各个文档中出现的赠+1基本用理誇项式模型中,设某文档阿如山),滤该文档中出现过的单词,允许重复V是训练样本的单词表(即抽取单词,单词出现多次,只算一个),|V|则表 示训练样本包含多少种单词。在这里,m=|V|, p=1/|V|。P( tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据,而P(c)则可 以认为是类别c在整体上占多大比例(有多大可能性)。多项式模型举例给定个新样本Ch i nese Ch i nese Ch i nese Tokyo

14、 Japan,对其进行分类。iddoc类别I n c=Chi n a?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo JapannoChinese多项式模型举例该文本用属性向量表示为d=(Chinese, Chinese, Chinese,Tokyo, Japan)类别集合为Y=yes, nooQp(YES)=n3P(NO)=-12ddoc类别In 1 c=China?HChinese Beijing Chineseyes1Chinese ChineseShangha iyes1Chi

15、nese Macaoyes1Tokyo Japan Chineseno1341!J;卩1 q字典里包括六个单词亠g:P(Chinese | yes) = (5+1 )/(8+ )=6/14=3/7P (Japan | yes)=P (Tokyo | yes) =(0+1 )/(8+ )=1/14P (Ch i nese | no) = (1+1)/(3+6) =2/9P (Japan |no) =P (Tokyo | no) = (1 +1) / (3+6) =2/9p(yesld)=(3/7)3X 1/14 X 1/14X8/11=108/184877-0.00058417P(nold)=(

16、2/9)3 X 2/9 X 2/9 X 3/11 =32/216513=0.00014780因此,这个文档属于类别chinaoiddoc类别I n c=Chi na?1ChineseBeijingChineseyes2Chinese ChineseShanghaiyes3Chinese Macaoyes4TokyoJapan Chineseno先验概率P ( c )=类C下文件数整个训练本的文件总数条件概率P(tk IC)=类£下单词0的文件数+1类c下文件数+2在这里,m二2, p二 1/2。p(tjc二YES)二 Y P(tClc=yes)( 1 -p(t Jc=yes)P(YE

17、S) = -4伯努利模型举例d=Chinese Chinese Ch i nese Tokyo Japan:doc类别In c=Chi n a?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan ChinesenoFl伯努利模型举例P(I. 1 <lyes)iddoc类别In c=Chi n a?1Chinese Bering Chineseyes2Chinese Chinese Shangha iyes3Chinese Macaoyes|yes) = (3+1)/(3+

18、2) =4/5P(lyes)二 P( lyes)二 P(二(1+1)/(3+2)二 2/5P (Japan | yes) =P (Tokyo | yes) = (0+1)/(3+2) =1/5I艸、伯努利模型举例P(I no) = (1+1)/(1+2) =2/3Tokyo JapanChineseP( | no)=P (no) = (1+1 )/(1+2) =2/3P(Beijing|no) =P (Macao | no) =P(Shanghai|no) = (0+1 )/(1+2) =1/3hlrj I Irj I I伯努利模型举例=P(yes) x P(Chinese|yes) x P(Japan|yes) x P(Tokyo|yes) x (1-P(Beijing|yes) x (1 - P(Shanghai|yes) x (1-P(Macao|yes)=3/4X4/5X1/5X1/5X(1 -2/5) X(1 -2/5)X(1- 2/5)=81/156250.005AI J A-=1/4 X 2/3 X 2/3 X 2/3 X(1-1/3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论