基于加权策略的SVM多元分类器.ppt_第1页
基于加权策略的SVM多元分类器.ppt_第2页
基于加权策略的SVM多元分类器.ppt_第3页
基于加权策略的SVM多元分类器.ppt_第4页
基于加权策略的SVM多元分类器.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于加权策略的SVM多元分类器 华南理工大学信息网络工程研究中心广东省计算机网络重点实验室曹鸿董守斌张凌 全国搜索引擎与网上信息学术研讨会 目录 算法描述传统一对多 OVA 方法加权阈值策略 OVA WWT 系统模块实验结果结论 传统OVA One Vs All 方法 主要思路 主要思路训练N个不同的二元分类器 第i个分类器用第i类中的训练样本作为正的训练样本 而将其他样本作为负的训练样本当对一个新文档进行分类时 分别运行N个二元分类器 选择输出相似度值最大的那个分类器的结果 传统一对多 OVA 方法 形式化描述 给定个l训练样例 其中 i 1 l 且是xi的类标签 则第i个SVM分类器要解决下面的最优化问题 用下面的k个决策方程计算x与k个类别的相似度 最终判定x隶属于决策方程输出相似度最高的那个类别 Classofx 阈值策略 阈值策略 把一篇文档归属到某些相关类别中的方法RCut PCut和SCut传统OVA使用的是RCut策略 传统一对多 OVA 方法 缺点 1 比较文档对N个类别的相似度 简单地取相似度最大的那个类别 由于这N个相似度是由N个不同的分类器产生 简单地取最大值作为阈值策略并不合适 2 对所有类别一视同仁 而实际上 有些类别属于 弱势类 其类别信息容易被 强势类 所淹没 导致 弱势类 文档被误分到 强势类 中的不公平现象 本文对OVA的改进 提出加权阈值策略 WeightedRCut WRCut 通过给不同类别的相似度结果赋以一定的权重值后再进行比较 实现 弱势类 和 强势类 之间的势力均衡 以消除使用单一的RCut策略所造成的不公平现象 目录 算法描述传统一对多 OVA 方法加权阈值策略 OVA WWT 系统模块实验结果结论 加权阈值策略 OVA WWT 算法描述 先解SVM最优化问题 用决策方程计算出文档对N个类别的相似度 再对各类别运用WRCut阈值策略 文档x属于加权相似度最大的类别Classofx ai也可以通过对训练集的学习而得 目录 传统一对多 OVA 方法加权阈值策略 OVA WWT 系统模块实验结果结论 系统模块结构 目录 算法描述传统一对多 OVA 方法加权阈值策略 OVA WWT 系统模块实验结果结论 实验结果 数据集 北京大学网络实验室提供的CWT100G数据集之200M训练集 11个类别 模型 200M数据的2 3用于构建分类器模型 剩余1 3作开放测试集进行分类测试 SVM使用线性核函数 评测标准 微平均准确率 宏平均准确率 宏平均召回率 宏平均F1值和时间 其中时间是包括训练和分类的总时间 实验结果1 分类器的比较 1 实验结果1 分类器的比较 2 性能曲线图时间柱状图 实验2 阈值策略的比较 1 对WRCut中各类别的权重值 本文将训练集随机划分为训练 训练集 占3 4 和训练 测试集 占1 4 从经验值出发 在反复训练的过程中自动调整权重值 权重调整范围为0 9 1 9 每个类的权重分别递增0 1 当权重的增加使得精度下降时 该权重减0 1 取宏观F1达到最大值时各类别所得权重 总训练时间为58 587秒 这个时间对总训练时间而言是可忽略的 实验2 阈值策略的比较 2 经过学习得到的11个类别各自的权重值 实验2 阈值策略的比较 3 RCut策略与WRCut策略精度比较曲线 目录 算法描述传统一对多 OVA 方法加权阈值策略 OVA WWT 系统模块实验结果结论 结论 本文提出了一对多算法的改进版本OVA WWT算法基于OVA WWT和SVMlight二元分类算法 实现了SVMlight的多元分类器MSVMlight 在CWT100G上进行了一系列开放性实验 通过与多种分类器进行性能比较 证明对CWT100G数据集而言 MSVMlight在准确率和时间性能要优于其他三种分类器 针对CWT100G数据集进行阈值策略选择实验 结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论