【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施

上传人：O*** IP属地：江苏上传时间：2016-07-03 格式：DOC 页数：45 大小：928.50KB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施_第2页

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施_第3页

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施_第4页

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施_第5页

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 第一章绪论研究背景截止 2012 年 12 月，我国手机用户人数已迈过 11 亿大关，全国移动短信发送量达到条，移动彩信业务量达到条 1。短信业务虽然极大地方便了人们的交流，但同时也成为了不法分子有利可图的渠道。通过短信渠道滋生的虚假广告、非法宣传等信息，已经对人们的生活带来了很大的干扰，对公共安全也是一种妨害，甚至于这种行为会造成通信高峰期时的通讯拥塞。曾有运营商对垃圾短信的相关情况做了调查 1，在参与调查的 10000 用户当中，有用户在过去 3 个月中收到过不同形式的广告短信，有用户接收过有色短信，有用户在近三个月中收到过各种形式的诈骗短信。垃圾短信不仅影响了人们的日常生活，对用户的个人隐私和财产也是一种极大的隐患，公信力会因此受到损害，公民的诚信体系也会因此而被质疑。垃圾短信的泛滥同时还增加了移动网络遭受恶意网络攻击以及病毒侵害的可能在 2012 会上，电信地方公司被曝出鼓励短信群发公司进行垃圾短信发送活动，这是央视第三次曝光垃圾短信问题。前两次分别为： 2006 年，垃圾短信已经成为一种社会公害； 2008 年，分众传媒滥发垃圾短信、泄露手机机主个人资料，被曝光后分众无线叫停短信及彩信业务。因此，是否对垃圾短信行为进行整治成为大众关注的问题对于运营商而言，如何建立垃圾短信过滤平台、开展研究拦截垃圾短信的相关工作，有重要的实用价值和经济价值。一方面可以对人民的财产起到保护作用，也能保障人们的正常生活。此外过滤垃圾短信也可以捍卫国家安全，稳定社会治安。垃圾短信的定义垃圾短信，从发送者角度来讲，指内容违法、不符合正常通信行为的批量发送的短信。从接收者来讲，指违背了接收者的主观意愿，而且对接收者造成了干扰的短信。从发送者和接收者来看，常见的垃圾短信有以下定义： 1、从发送者来看，垃圾短信指涉嫌违法内容的垃圾短信，依据中华人民共和国电信条例对垃圾短信划定出 9 个标准 2： 1 中国移动 ,中国移动垃圾短信治理通报 ,2011 年 2 月 2 1) 反对宪法所确定的基本原则的； 2) 危害国家安全，泄露国家秘密，颠覆国家政权，破坏国家统一的； 3) 损害国家荣誉和利益的： 4) 煽动民族仇恨、民族歧视，破坏民族团结的； 5) 破坏国家宗教政策，宣扬邪教和封建迷信的； 6) 散布谣言，扰乱社会秩序，破坏社会稳定的； 7) 散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的； 8) 侮辱或者诽谤他人，侵害他人合法权益的； 9) 含有法律、行政法规禁止的其他内容的。 2、从接收者角度来看，垃圾短信是指该短信并非由接收者事先主动约定或者定制而接收，或者因发送频率较高、已对接收者造成干扰甚至引起投诉的短信。这类短信不仅包括虚假广告、银行类诈骗信息等，还包括发送者手机中病毒而引起的无具体实际内容的垃圾短信，垃圾短信的形成原因虽然垃圾短信不法分子为了达到自身某种利益采用的宣传手段，但深究其原因，还是由于法律的欠缺和各通信运营商监管不力造成的，形成垃圾短信的主要原因有以下几点 3： 1、短信是一种属于低成本、低门槛、高阅读量的宣传方式。该形式不需要消耗大量的人工成本，也不需要印制大量的传单、名片，仅通过不同种类的短信群发器，插入就可以随意发送上万条。综合其他宣传手段，短信是目前成本最低、点对点发送到达率的通信方式。 2、运营商缺乏有效监管。在我国，三大运营商对移动设备入网都对用户入网都不强制推广实名制，由于短信发送不收取任何形式的漫游费，导致发送者可以将某地的拿到全国任何地方发送，给发送者身份和终端的识别都造成了很大困难，给非法短信息群发者身份的提供了可乘之机，使之具有非常强的隐蔽性。 3、缺乏有效的法律支撑。从目前立法状况来看，虽然中华人民共和国电信条例对电信的运营活动进行了较为明确的规范，互联网信息服务管理办法对互联网信息的服务行为和使用行为也有切实的要求 4。但作为综合性法规，针对电信经营活动和互联网信息服务活动这些具体的通信方式，还是难以进行具有针对性的规范和调整，客观上缺乏有效的执行力，不能对违法行为起到约束和管理。 3 垃圾短信现状调查根据 2011 年上半年手机短信息状况调查报告的内容，与垃圾短信相关的用户统计大致有以下几点 5： 1、用户每周平均约收到垃圾信息，占用户全部接收短信的虽然从占比上较去年同期略有下降 (,但总量上还是呈上涨趋势，户均较去年增长。 2、在用户收到的垃圾短信息中，按照内容分类，占比最高的信息分别是涉嫌欺诈类的短信、冒充银行扣款类信息、违法出售票据类信息，接收过这三种信息的用户分别占到了 3、在关于垃圾短信责任的调查中，大部分用户 (还是坚持认为垃圾短信泛滥的主要原因是运营商不作为，次要原因才是短信息发送者从中牟利。 4、通过调查对垃圾短信的治理效果可以看出，超过一半 (的用户认为治理初见成效，反应近半年来收到垃圾短信有所减少，仍有超过一成 (的用户反应垃圾短信不减反增。用户仍希望能加大垃圾短信治理力度，降低接收量。 5、随着用户对垃圾短信的深恶痛绝，对垃圾短信的举报比例也在逐年增长。除了 12321 举报中心外，通过运营商的举报量也达到了除了这两个举报渠道，直接向公安部门举报和通过 12300 投诉的比例也略有增长。去年垃圾短信的举报比例已经接近三成，用户对垃圾短信的反感已渐渐从思想转换到了行动上。垃圾短信的危害性垃圾短信给用户和运营商都带来了损失。垃圾短信的泛滥不仅严重干扰了人们的正常生活，也浪费了人们大量时间，同时影响了移动网络下的正常通信，其危害主要表现在以下几个方面：从对社会影响来看 6，垃圾短信不仅助长了社会的不良风气，甚至已经危害到了国家安全。通过垃圾短信，非法发动分子可以批量传播民族仇恨和封建迷信，在进行诈骗的同时也影响了社会的安定团结。这些短信或多或少会对青少年产生不良影响，具有十足的危害性。从占用通讯资源的角度来看，大量的发送垃圾短信信息，会占用一定的通讯资源，这可能造成通讯忙时的拥堵，甚至可能造成通讯中断。这在造成运营商损失的同时，也会给广大用户带来极大的不便。如果能降低减少垃圾短信的发送量， 4 可以节约运营商的运营成本，减少资源消耗，为用户正常通信留出宝贵空间。从手机用户的体验来看，处理垃圾短信无异于浪费时间。一条垃圾短信从查看到删除至少需要花费 1 分钟的时间，如果每天都收到垃圾短信，无形中会浪费人们较多的时间。而且，大量的垃圾短信会造成人们对短信接收的敏感度，有可能因为怀疑该信息是垃圾短信信息而错过查看重要信息。从内容服务商 ( 业务发展来看 7，垃圾短信在无形中也间接制约了用户在对垃圾短信的诈骗陷阱已深恶痛绝的同时，也对业的服务短信产生了同样的反感，长此以往，必定会降低信服务的用户感知，造成客户流失。垃圾短信治理措施理论治理措施治理垃圾短信，理论上可以通过以下几个途径： 1、对信息服务商的市场准入制度做进一步明确 8。在中华人民共和国电信条例中，虽然有对增值电信业务经营商的条件有相关规定，但对其行业和从业人员的具体资质都没有一个明确的规定。这给垃圾短信发送者一个很大的可乘之机，垃圾短信的主要来源都是这些无资质的短信群发商。如果要控制垃圾短信的来源，就要从细化市场准入条件入手，进一步要求从业人员的资质。 2、推广实名制的手机入网机制 9。根据工业和信息化产业部要求， 2010 年 9 月起，全国都需要实施实名制手机入网，要求新入网用户必须使用身份证，对于旧用户也应在 2内完成补充登记。如果能有力贯彻这一举措，垃圾短信用户将会对发送行为有所忌惮，除了能起到震慑作用外，还能方便公安机关和运营商对垃圾短信发送源头的跟踪监控。 3、加大执法力度，扩大监管范围，完善相关法律机制 10。一是对于涉嫌发送违法信息（强迫、诈骗、引诱消费）的信息商，经落实发送行为后交由信息主管部门进行高额罚款甚至是吊销服务许可；二是由信息管理部门（工业和信息化产业部、通信管理局等）出面，对运营商和信息服务商同时进行处罚；三是将监管范围扩大，将所有信息服务商无论其何种性质均纳入监管范围。四是借鉴其他地方的短信送审制度。如香港的非应邀电子讯息条例就规定，公众可以选择将自己的号码提交至拒收讯息登记册，如果任何正常促销的企业没有过滤这种拒收名单，将短信发送到了已登记的用户号码中，将 5 面临 100 万元港币的罚款或 5 年的监禁。即便是向允许发送的用户发短信，也必须注明短信来源。 4、由信息管理部门宣贯执行行业自律，纠正这种忽视社会效益而只顾经济效益的企业行为。对于运营商而言，运用技术手段来限制群发垃圾短信的频率是完全能够实现的，也符合企业自身经营发展的目标。 5、建立完善的后续处理机制 11。可以从提高用户投诉处理效率入手，加强政府部门监管力度，扩充投诉渠道、有效响应投诉。工信部通过各地的通信管理局设立专门的垃圾短信监督管理机构，及时查处违规行为。 6、通过各种途径的宣传培养用户的维权意识，鼓励手机用户配合实名制登记以维护切身权益，引导用户积极配合执法部门，提高自身防范意识，及时举报收到垃圾短信的相关信息。运营商治理措施各通信运营商目前再用的垃圾短信治理措施主要有用户举报和技术拦截，下面为大家一一列举： 1、根据用户举报，核实处理 12 各通信运营商都有自己的垃圾短信平台面向用户收集垃圾短信活动信息，以下是几个主要的垃圾短信举报方式： 1) 中国移动用户在接到垃圾短信后，可编辑“不良信息发送端号码 +短信内容”发送到 10086999 短信平台免费举报； 2) 中国联通用户如果收到垃圾短信，可以将其号码及垃圾短信内容转发至“ 10010”短信投诉举报平台免费举报； 3) 所有用户都可以通过 12321 网络不良与垃圾信息举报受理中心进行举报，举报方式有通过电话、互联网站、电子邮箱、短信、站等五种。 2、通过技术手段拦截 13 除举报途径外，各通信运营商还采取了其他方式拦截垃圾短信，常用的途径有： 1) 黑名单监控技术。对核实的垃圾短信用户的短信发送予以限制，用户在一定周期内可以向短信中心提交短信，但该短信无法下发至接收人； 2) 基于关键字规则的过滤技术。关键字内容由国家安全部门、工信部核准后才能使用； 3) 根据相关规定限制用户一定周期内的短信发送量； 4) 引导用户安装手机软件过滤垃圾短信。 6 治理措施中涉及的算法讨论垃圾短信治理中涉及的算法归类综述通过查阅相关资料，从现有的垃圾短信识别方法的分析对象、承载介质、拦截方式、分析算法等维度入手，将各种识别方法做了一个简要的对比和概括，现有的垃圾短信识别方法基本上有以下几种：表 1垃圾短信拦截方式整体说明分析对象承载介质拦截方式分析算法短信内容用户通信行为运营商短信监控中心发中拦截决策树算法、最大熵算法、显示规则算法短信内容运营商短信监控中心发中拦截朴素贝叶斯算法短信内容智能手机接收拦截朴素贝叶斯算法短信内容各类接收拦截支持向量机分类）算法短信内容智能手机接收拦截基于规则的特征选择算法短信内容智能手机接收拦截算法用户通信行为运营商计费系统发前拦截决策树从以上内容可以看出，大部分垃圾电信的识别都是建立在分析短信的内容上的。当该方法的承载介质位于运营商短信监控中心时，它所起到的作用是在发送过程中拦截 (即发中拦截 )，当该方法的承载介质位于用户的手机终端时，它所起到的作用是在用户收到后判断是否属于垃圾短信，当判断内容是垃圾短信时对用户屏蔽该信息。对于这两种方法的缺陷是垃圾短信制造者已经完成了发送行为，且给用户造成了一定压力。最后提到了一种由基于运营商计费系统承载的垃圾短信识别系统，识别方法属于发前识别，是比较理想的拦截方式。对于这些算法的具体实现步骤将在第三章研究方法讨论中描述，在此不再赘述，下面将举例说明现有的垃圾短信识别方法的优缺点。现有垃圾短信过滤方法举例经过查阅大量的技术资料，对现有的识别方法做了初步归纳，总了如下几种垃圾短信的过滤方法： 1、结合短信传输，基于内容和用户状态的垃圾短信过滤方法 14 该方法首先分析了短信的传输方式： “ SP 机”和“手机机 ” ，然后给出了基于短信内容和基于发送状态的识别方法，进而提出在手机部署软件通过设置黑白名单的方式来拦截垃圾短信。除此之外，还利用随机验证码的技术在一定程度上可以预防垃圾短信。最后又从短信的传输入手，提出了垃圾短信追踪 7 的两种途径，最终为垃圾短信的诉讼提供法律保证。 2、基于查询词扩展的中文垃圾短信检索 15 传统的拦截系统为了提高运算效率，假定文本中词与词之间是孤立的，这样的话如果一个关键词出现在垃圾短信文本中，那么它在一定程度上与该文本相关。然而这是一种充分非必要的相关性，当有同义词来代替这个关键词时，对这种相关性的判断就失去了意义。因此，提出了机遇查询词扩展的垃圾短信检索方法：先利用已设定的关键词作为查询词，在此基础上根据文本内容中与关键词共同出现的上、下文信息的进行词扩展；然后利用查询词集合和扩展词集合综合考察中文短信文本，这样可以增大垃圾短信息的检索率。 3、基于复杂网络的垃圾短信过滤算法 16 在对短信发送接收网络形式化表达的基础上，以短信的上下行发送行为和通话主被叫关系数据为例，对比分析短信发送网络的网络特性，挖掘垃圾短信用户在网络上的异常发送接收行为，以此提出一个基于语音通话关联度和短信回复比率的过滤算法 (法 )。通过实验和分析论证，该算法能够高效识别垃圾短信发送用户，降低误判率率。 4、基于数和贝叶斯方法的垃圾短信在线过滤方法 17 该方法提出了一种综合集成黑白名单过滤模块和综合评价函数模块的垃圾短信在线过滤系统架构，引入了两层数和基于朴素贝叶斯的概率计算方法，对疑似垃圾短信从内容、长度、频率等特征上进行深入分析，实现了海量短信的实时高效过滤，并有效地解决了传统垃圾短信过滤系统中存在的问题。 5、基于智能手机的垃圾短信过滤系统 18 该方法描述了一种智能手机垃圾短信过滤系统的设计与实现方法。包括了该系统的主要功能、总体架构、模块设计和相应的业务流程等。该系统设计了五层过滤模型：黑白名单过滤层、用户通讯录过滤层、公共黑白名单过滤层、基于用户自定义关键字过滤层和基于内容过滤算法过滤层，旨在通过该方法实现在手机上的过滤功能。 6、基于用户通信特征的挖掘分析判断垃圾短信用户 19 该方法通过使用决策树法深度挖掘用户的通信特征、消费行为来判断哪些用户属于垃圾短信用户，通过关停用户通信功能或拆机来达到拦截垃圾短信的目的。该判断实现于用户发送垃圾短信前，可以有效降低由垃圾短信发送造成的网络拥塞和用户对垃圾短信的感知。 8 现有垃圾短信过滤方法的缺陷性以上算法虽然全面且准确度高，但在实际处理时由于短信并发量巨大，这些算法对系统的处理性能要求很高，也导致以上优秀的垃圾短信过滤方法在现实应用中难以完全发挥作用。综合现有的治理措施和过滤方法，可以看出目前各种算法存在的主要缺陷有： 1、关键字规则的过滤技术响应滞后。理论上，通过关键字识别可以精准识别垃圾短信用户，但在实际操作中，对关键字的提炼归纳对垃圾短信拦截起着决定性的作用。不法分子利用量的空格、非法字符填充短信，同样的内容也能千变万化，虽然可以通过肉眼判断短信内容，但从关键字归纳到关键字正式拦截，还需要经过较长的审核周期，处理速度上严重滞后。 2、发送峰值控制策略不能随意变更，容易被不法分子掌握规律。限制用户固定周期内的短信发送量能减少部分垃圾短信，但不法分子通过试探性发送来获得上限值，使发送量低于上限要求，通过细水长流的方式向用户发送垃圾短信直到被举报。 3、基于手机终端的垃圾识别系统，虽然运算量较小，但这部分软件只能安装在智能手机上，无法普及到所有用户。而且该类软件需要读取大量的用户后台信息，更加降低了用户使用的安全性。 4、基于用户通信行为的挖掘模型很符合我们的效果预期，即把垃圾短信发送行为扼杀在萌芽状态。该模型虽然使用了法，对决策树各个分支都进行了精确的计算，但该算法仍存在部分问题。一是受法限制，属性取值最多的属性并不是最优选择 ;二是取值虽然信息熵所选取的通信维度已不全适合垃圾短信的用户特征，现有的垃圾短信群发频率较以前相比有了明显的差异；三是法是单变量函数，在分析用户时只提取了垃圾短信用户，忽略了与非垃圾短信用户的通信特征对比，会导致较高的误判率；最后由于该模型将判别结果直接交由运营商计费部门对“疑似垃圾短信用户”做关停通信功能处理，容易引起用户不满和投诉。本文的研究方向无论是根据用户反馈还是主动拦截，从事发处理时间来看，他们共同的特征就是全部属于事中拦截或事后限制。当运营商采取措施时，已经有大量的垃圾短信流向用户，如果能对不法分子发送垃圾短信行为进行预测，将垃圾短信发送扼杀在初期，则能大幅降低垃圾短信发送量，提高用户感知。 9 从另一方面讲，基于内容的垃圾短信拦截对系统的消耗较大。对于庞大的用户群而言，受系统性能影响，对内容拦截的频率和范围都会打折扣。如果能建立一种不以分析内容为拦截手段的拦截措施，对提升拦截效率、降低系统负荷都是很有好处的。本文致力于研究如何预测垃圾短信用户，旨在通过一些垃圾短信用户异于普通用户的行为来对垃圾短信用户进行分析，找出有潜在发送垃圾短信可能的用户，对这些用户实时最严格的监控措施，与垃圾短信监控手段结合，遏制垃圾短信发送。最终形成的结果是一个缩小范围的垃圾短信监控用户名单，在这个名单中出现垃圾短信用户的概率远远大于正常监控的全量用户，本模型提供的是一种辅助手段，具体的拦截策略还需要垃圾短信监控平台根据自身的情况结合本结果制定。 10 第二章需求调研垃圾短信用户特征分析从运营商角度，可以获取的用户信息有：入网渠道、入网证件类型、证件号码、产品订购信息、套餐与资费信息、通话详单、短信详单、各类增值业务使用清单、费用明细等内容。为了便于分析，我们将这些信息归纳为四大类：入网信息、订购信息、详单信息、账单信息。在这些用户信息中，部分与垃圾短信发送行为有着密切的联系，它们之间存在着哪些关联，将是我们接下来要分析的重点。通过初步对垃圾短信发送号码的跟踪分析，我们提取了如下特征：入网行为特征分析从垃圾短信号码入网的受理营业厅、入网证件、办理的主套餐资费、办理密集性来看，垃圾短信号码入网不同于普通消费者申请号码入网的行为主要有以下几点： 1、受理营业厅多为代理渠道 95%以上的垃圾短信号码都通过与运营商合作的社会代理网点办理入网。由于运营商自主经营的营业网点对用户入网信息审核管理较为严格，大部分垃圾短信用户都不会选择通过运营商自主经营的营业网点来办理入网手续。因为运营商自主经营的营业网点会对用户所提供的能够表明身份的证件信息做办理数量限制，不允许同一证件办理超过规定个数的号码（一般为 5 个），更不允许同一个人在无委托证明的情况下使用多个证件办理号码。 2、入网证件违规现象严重前期调研表明，垃圾短信用户在入网时使用的身份证件存在诸多问题。从户籍部门提供的身份证编码规则可以看出，部分身份证号码存在明显的造假特征，如代表用户所在省份的前两位代码在编码表上根本不存在，代表用户出生日期的年月日不符合常识等。这些号码会批量出现在一些规模较小，日常业务量偏低的社会代理网点，办理时业务量集中，不符合日常办理频率。代理网点则在有利可图的情况下忽略这种异常行为，纵容用户获取垃圾短信发送载体。由于该类用户从流程上的入网手续合法，无法直接对用户做出限制，导致日后不法分子利用获取的手机号码在未来的某一天突然发送垃圾短信。 3、主套餐资费选择集中 11 由于发送垃圾短信需要产生费用，为了尽可能降低成本，垃圾短信用户会优先选取短信资费便宜、月保底消费较低的营销套餐来进行违法活动。这就造成了某些低端套餐被不法分子利用，最终沦为发垃圾短信的“ 专属套餐 ”。例如，某运营商针对学生推出的“欢乐短聊卡”就成了重灾区，该卡的保底消费仅为条短信仅需要。垃圾短信用户利用虚假信息办理了大量该卡用户发送信息，导致该卡被迫停止发展用户。给企业带来了极大的损失和麻烦。发送行为特征分析通过大量数据调研，垃圾短信用户发送垃圾短信具有突发性、异地性、集中性、无目的性等特征，具体表现如下： 1、突发性垃圾短信用户办理号码后并不立即向用户发送。这些号码会被囤积 1月甚至更久，在未来的某一天突然使用。发送垃圾短信可能在某个时段内突然批量发送，也可能在 24 个小时内匀速发送。没有固定的时段，在 24 小时内随机出现，毫无规律可言。 2、异地性垃圾短信用户通常向外省发送大量信息，而不针对本省用户。分析该类用户的使用地点，也大都不在甘肃境内。这与垃圾短信用户的发送目的有关。如一些车辆走私低价处理的信息主要针对广东省用户发送，是由于这些不法活动主要集中在广东活跃。 3、集中性经统计，一张垃圾短信号码通常活跃不超过 3 天，且在活跃周期内的发送量很高。活跃天数与运营商的响应速度有关。运营商发现某号码有发送垃圾短信的行为后会迅速屏蔽该用户发送的短信，如果发现及时，就能减少大量的垃圾短信发送到用户手机。这些垃圾短信用户可能在某个时段内突然批量发送，也可能在24 小时内匀速发送。总而言之，就是在不被运营商发现的情况下尽可能多的发送垃圾短信。 4、无目的性绝大部分垃圾短信并不针对具有某种共同特征的用户，而是随机大量发送。研究垃圾短信的接收用户号码可以发现，这些接收号码可能集中在某一个号段（指手机号码的前 7 位相同）或某一个地区，但并不针对“老年人”、“白领” 、“ *小区住户 ” 等这样具体的类别。 12 消费行为特征分析经过研究垃圾短信用户的手机消费账单可以发现，垃圾短信用户的消费 95%都用来发短信，很少产生语音通话费用。用户的充话费活动频繁，基本上是即充即用。这与普通用户的使用习惯很不一样。大部分用户的短信费只占整体话费的30%以内，话费仍以语音通话为主。而且为了避免缴费麻烦，大量用户会根据自己的消费水平一次性充足 1 个月甚至更久的话费。运营商期待的治理效果运营商希望能通过有效手段对垃圾短信用户做到“封锁号码办理途径、早发现早处理”的治理，具体描述如下： 1、封锁号码办理途径运营商希望能将垃圾短信扼杀在摇篮之中，从办理渠道和入网用户使用虚假证件等异常情况下及时发现垃圾短信用户，封锁垃圾短信号码入网。如能及时发现某代办厅的入网量突然大幅度增长，并分析出这种增长并不由正常用户办理引起，则可以基本判定该代办厅办理了垃圾短信号码。如某营业厅平时的日均入网量不足 5 人，但突然某天增长到了 200 人。经核查发现，这些用户使用的证件均来自于外省，而且办理时间集中，即便是业务发展最好的营业厅也达不到该水平，从这些因素上就能基本认定该营业厅办理了大量非法号码，虽然尚不能确定这些号码都被用来发送短信，也需要对该营业厅进行整顿，必要时可以对该批次号码做限制功能使用处理。 2、早发现早处理运营商希望能识别已经开通但尚未使用的垃圾短信号码，对这些号码进行严密监控，一旦发现这些号码发送短信行为异常于普通用户，就能作出迅速反应，限制用户发送。模型的研究方向根据本章第一节分析的垃圾短信号码的行为特征，结合本章第二节运营商期待的治理效果，来构建垃圾短信号码识别模型。模型建立的基础是不侵犯用户隐私数据，仅通过运营商能获取的入网资料、用户费用信息、使用量信息等构建模型。本模型不针对用户的短信内容做任何跟踪，也不对用户的通信对象做深入分 13 析。该模型需要的数据仅是某些字段中的部分数据：如证件号码前两位，通话对端号码前 7 位（仅针对手机用户）等，在模型建立过程中会尽力避免少接触用户隐私数据，保证用户资料安全。通过挖掘等相关技术，识别垃圾短信疑似用户以形成高风险名单，可以降低人工审核的压力和人力资源投入成本，提高监控系统监控拦截准确率和效率，减少垃圾短信对客户的骚扰行为同时保障客户正常的短信发送不受影响。本方案中的垃圾信息发送号码识别模型仅针对网内点对点垃圾短信号码进行识别，如联通运营商只针对联通用户向联通用户发送垃圾短信的行为进行识别，而不识别向电信用户发送垃圾短信的行为。确立模型分析指标综合本章第一节提到的针对垃圾短信用户不同特征的分析，计划选入如下字段进行建模：表 2垃圾短信用户模型分析指标字段分类字段名称字符类型入选原因解释入网信息入网日期础信息入网信息服务号码 3) 基础信息入网信息主套餐资费名称 00) 基础信息入网信息最低消费限额否存在养卡风险入网信息入网时长 (月 ) 用户发送风险低于新用户入网信息入网渠道 0) 基础信息入网信息入网渠道类型 0) 代办厅风险远高于自营厅入网信息入网证件归属地 5) 外省风险远高于本省短信发送指标短信发送量送越多风险越高短信发送指标短信离散度核是否全发给了不同用户短信发送指标 1小时内发送峰值否非正常用户短信发送指标单天发送峰值送越多风险越高短信发送指标单天内最大同号段数核是否属于无目的的群发通话情况语音主叫次数次数越低风险越高通话情况语音被叫次数次数越低风险越高通信消费上月短信通话费用比比越高风险越高通信消费本月短信通话费用比比越高风险越高缴费情况上上月缴费次数数越少风险越高缴费情况上月缴费次数数越少风险越高缴费情况本月缴费次数数越少风险越高上表列举了分析的维度和选取每个指标的原因。下面对其中涉及到的指标的 14 运算规则作一说明：入网行为关键指标涉及的指标有：入网日期、用户号码、主资费套餐名称、最低消费限额、入网时长、入网渠道类型、入网渠道名称、入网证件归属地等。其中大部分指标属于基础信息，可以从系统后台直接获取，需要通过计算才能得到的结果字段如下： 1. 入网时长：用户自入网到当前统计所经历的自然月； 2. 入网渠道类型 :分为运营商自主经营的营业厅（简称自营厅）和由社会代理经营的各种代理网点（简称代办厅）； 3. 证件归属地：根据全国户籍管理中心提供的省份编码，对身份证的前两位进行比对。发送行为关键指标涉及的指标有：短信发送量、点对点短信离散度、 1 小时内发送峰值、单天发送峰值、单天内最大同号段数。这些数需要对用户的详单做汇总统计处理，统计算法如下： 1. 点对点短信发送量 =对统计周期内用户发送短信条数求和。 2. 点对点短信离散度 =用户发送的总人数 (剔重 )之和 /总条数之和。对于正常用户而言，在大多数情况下，发短信的行为始终围绕这个一批固定的用户，而不是每个用户只发一条。 3. 1 小时内发送峰值：统计周期内，用户每小时的短信发送量的最大值。 4. 单天内发送峰值：统计周期内，用户每天短信发送量的最大值。 5. 单天内最大同号段数：统计周期内，用户每天发送的对端号段（手机号前 6位）短信量之和的最大值。通话行为关键指标涉及的指标主要包括主叫通话次数和被叫通话次数。根据前期分析，垃圾短信用户的通话次数均低于普通用户平均水平。这两个数据需要对用户的语音详单做汇总统计处理，计算方法如下 : 1. 主叫通话次数 =话单标识为主叫的条数之和，剔除了对运营商服务号码的呼叫次数（如电信运营商需剔除对 10000 的主叫次数，联通运营商需要剔除对10010 的主叫次数，移动运营商需要剔除对 10086 的主叫次数）。 15 2. 被叫通话次数 =话单标识为被叫的条数之和，剔除了运营商服务号码对用户的呼叫次数。消费行为关键指标涉及的指标有：上上月短信通话费用比、上月短信通话费用比、本月短信通话费用比、上上月缴费次数、上月缴费次数、本月缴费次数。计算公式如下： 1. 上上月短信通话费用比 =统计周期上推两个月的短信费用 /(短信费用 +通话费用 )； 2. 上月短信通话费用比 =统计周期上推一个月的短信费用 /(短信费用 +通话费用 )； 3. 本月短信通话费用比 =统计周期月短信费用 /(短信费用 +通话费用 )； 4. 缴费次数 =单个自然月内缴费记录条数之和。 16 第三章挖掘算法比较及选取数据挖掘技术说明数据挖掘主要用于关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等，通过分析每个数据，从大量数据中寻找其规律的技术。由于垃圾短信用户和普通用户的在入网、通信、消费等方面有很大的区别，这些区别主要体现在析维度中提到的入网行为关键指标、发送行为关键指标、通话行为关键指标、消费行为关键指标上的数值差异上，所以我们需要通过这些维度的数值差异来判断哪些用户属于垃圾短信用户，哪些用户属于正常用户。这个问题在数据挖掘中属于典型的分类问题。涉及垃圾短信识别的数据挖掘技术探讨目前有多种数据挖掘方法被运用到垃圾短信识别当中，这些算法的共同点是都属于分类算法。常用的分类算法主要有朴素贝叶斯 (类算法、神经网络算法、决策树算法、 K 近邻算法 ( 支持向量机分类算法 ( 。下面就来简单介绍一下这些算法及算法在垃圾短信识别中的应用。朴素贝叶斯 (法及应用要了解朴素贝叶斯算法，首先要理解什么是贝叶斯算法。贝叶斯算法 20是指把一个事物的多种属性看成一个向量，这些向量的集合被定义为属性集。对于这个事物可能出现的类别也根据不同的种类建立向量，这些向量被定义为种类集。由于属性集和种类集的关系不确定，通过计算属性向量和类别向量之间同时发生的概率来对事物进行训练学习过程，当出现新的事物时，可以根据训练结果来预测新事物与旧种类之间的关联程度。朴素贝叶斯是指假定这个事物的不同属性之间没有联系，相互条件独立。基于朴素贝叶斯算法的垃圾短信识别算法 21主要有以下几个步骤： 1、收集一定数量的垃圾短信和非垃圾短信，建立正集和负集； 2、提取独立字串及出现次数（字频），处理正集和负集中的所有短信； 3、正集和负集分别建立字串到字频的映射关系并存储到对应的哈希表； 17 4、计算每个映射关系在和洗标中出现的概率； 5、根据正负集所对应的的哈希表，推断出当新的短信中出现某字串时该短信为垃圾短信的概率。神经网络算法及应用人工神经网络 22是科学家模拟人类或者动物大脑的结构和功能所建立的数学模型，它是由人或者动物的神经网络运动而启发建立的。在抽象和简化的基础上模拟人类大脑工作，定义了人工神经网络，其由大量的节点以及节点之间的相互关联构成。这些节点称为神经元或单元，每个神经元都代表一种特殊的输出函数，称为激励函数。神经元之间的连接具有权重，代表对通过该连接信号的加权值。整个神经网络的输出由网络的连接方式，节点间的权重和激励函数决定，通常都是对某种函数或算法的逼近。神经网络的特点主要包括以下几个方面： 1、神经网络的训练时间非常长，在训练过程中会涉及大量的参数，通常这些参数是需要通过大量反复试验才能确定适合的设置，对普通人来说这些参数是比较难理解的，最后输出的结果就依赖使用者的经验。 2、神经网络具有自适应性以及很强的学习能力，而且抗干扰能力非常强，可以对未经过训练的数据进行分类，所以神经网络在数据挖掘方面也产生了很大的推动作用。 3.、神经网络算法一般是通过数学统计学的原理建立的学习方法，在计算机领域，特别是图像以及语音识别技术，人工智能技术方面有着广泛的应用。目前针对文本的神经网络算法 23的步骤简要概括如下： 1、直接将文本中出现的词条作为特征来分析（简称； 2、提炼词条数量，将词条数量缩小至一定的数量级； 3、对文本向量做基于空间变换的特征选择 (简称 4、建立文本分类规则，选取合适的特征 ( 5、重建合适的网络神经结构，从而起到分类的作用。决策树算法及应用决策树是数据挖掘中最常用的一种分类方法，它简单、有效而且迅速，是建立在实例基础上的归纳学习算法。决策树所解决的问题就是从一堆没有规则、没有次序的事例中推理出树形结构的分类规则 24。常用的决策树算法有法，法和法。法是一种非递增的单变量决策树，除了抗噪性较 18 差之外，虽然计算了信息增益，但其结果偏向于数量级较高的特征属性，所以即便计算获得的属性是最大值，也不能代表这个算法最优，存在较多的缺陷 25。基础上做了较大改进，通过信息增益率这一指标来选取属性，克服了片面与不足，构造时能够进行剪枝处理，可处理不完整的数据，也能将连续的属性离散化 26。以看成是升级版，它可以生成多分支的决策树，目前主要应用于大数据集上，计算速度更快，占用资源更少 26。目前针对垃圾短信识别的决策树算法 28运行过程主要如下： 1、不基于内容，以用户的通信特征、通信消费特征为分析样本； 2、选取垃圾短信用户样本，按比例建立测试集和训练集； 3、采取法构建决策树模型； 4、生成结果并验证； 5、设计基于运营商计费系统的过滤方案应用法是一种基于成熟理论的简单算法。该算法是的具体思路是：如果一个样本集中的 k 个特征空间最相似的样本都属于某一个类别，则这个样本本身也属于这个类型 29。该方法的缺点是运算量比较大，因为需要对每一个目标文本计算其到全体已知样本的距离后，才能获得最邻近点的数量和具体信息。使用该方法时，需要对数据做预处理，剔除对分类结果影响较小的样本。如果样本容量较大，分析结果较为准确，如果样本容量小则会用以产生误分。以应用到垃圾邮件 30过滤当中，其具体步骤简要说明如下： 1、提取样本信息的词干信息； 2、将常用的特征单词过滤掉，利用信息增益对特征做选择； 3、建立初始的训练样本集合； 4、在 K=1 的条件下设置匹配阈值的最大、最小值； 5、将相似度大于匹配阈值最大值的最邻近邮件判断为垃圾邮件，剩余部分判断为正常邮件； 6、当正常邮件被误判为垃圾邮件时，剔除掉训练集中能与之匹配的相关邮件； 7、当垃圾邮件被误判为正常邮件时，进一步判断相似度是否不大于匹配阈值的最小值，如果小于则将该邮件放入样本集，如果大于则不作处理。支持向量机分类算法 (应用支持向量机算法（用于解决小样本学习，可以处理任何形式的线 19 性可分问题，并将任何非线性可分问题通过提高或降低特征空间的维度来构造成线性可分问题进一步分析 31。可处理文本的分类问题，在垃圾短信识别中 32的应用步骤如下： 1、对样本集中的样本进行分词处理； 2、对于高维度的特征空间做降维处理； 3、将样本集和测试集中的文本表示为向量； 4、计算向量权重并得到最终结果。挖掘技术对比及选择神经网络算法因本身较为复杂，不能处理非数值型数据，收敛速度慢，对机器运算性能要求较高，而本模型需每月优化，故神经网络算法不适用于本模型。虽然决策树不善于处理线性关系，但逻辑回归可以很好的做到这一点。决策树对非线性关系的处理能力很强，但实际上很多非线性关系都可以近似地描述成线性关系，并能取得很好的效果。线性关系具有简洁、易理解等优点，也可以对数据的过度拟合起到一定的降低作用。由于算法逻辑不同导致了决策树和逻辑回归的差别。决策树在算法上采取了不可分割的方法，虽然失去了对全局的把握，但能够深入到数据细部。当形成分层时，它和其他节点或层面的关系就被切断了，以后只能在局部中进行挖掘。如果分析局部结构，逻辑回归不如决策树准确。根据以往经验和结合算法优越性以及本地的实际情况，这里我们选取决策树实现性运算。由于其善于处理非数值型数据，它能减少对数据预处理的工作垃圾短信用户的识别是一个预测的过程，其最终结果只需要判断这个用户“是”或者“不是”的概率，属于单一输出。这符合决策树的输出特征。在垃圾短信用户特征中，有大量的非数值型数据，和其他算法相比，能节约大量的数据预处理时间。这些特征之间的相关性低，基本上呈独立状态，不能用线性关系来描述，不适宜使用其他算法。算法适用性说明通过以上对比分析，我们选取了决策树中法实现模型。在这些数据挖掘算法中，法在以下几个方面体现了较好的优越性： 1、易于理解和实现。根据前期调研的多个维度，可以梳理出树状结构来描述用户的垃圾短信特征，这种结构容易被大家接受和认可。 20 2、数据的准备过程简单。根据调研的分析维度，可以不对数据做特殊处理，如剔除空白字段或剔除非法值等。 3、决策方法简单明了，可以较容易推出相关的逻辑表达式。 4、能兼容多种数据类型和常规属性。不用将每一个维度统一成数字型数据处理，允许出现字符型、日期型字符存在。 5、能够处理大型数据源，处理速度快，处理时间相对较短。 6、输出结果仅有一个值，即该模型的可信度。通过值的大小来对用户判断结果做描述，评测简单。行业名词介绍以下文章可能出现数据运营平台、垃圾短信监控平台、垃圾短信举报平台等与企业有关的业务名词，现对各名词进行解释：表 3垃圾短信用户识别模型业务名词解释名词释义数据运营平台指承载该垃圾短信用户识别模型建设、数据处理的数据仓库垃圾短信监控平台对垃圾短信进行监控的核心网元，由国家安全部门授权建设，用以对采集的短信数据进行分析处理以及执行具体垃圾短信治理策略的业务平台垃圾短信举报平台指运营商设立的用于举报垃圾短信的审核系统，由人工对用户举报内容进行核实，继而提交垃圾短信监控平台通过策略进行管理用户黑名单指通过监控平台判定或由垃圾短信举报平台人工核实确认的发送垃圾短信的发送方号码列表高风险名单经过数据运营平台的垃圾短信号码识别模型推测出的、有较大可能是或将是垃圾短信发送号码的用户名单 21 第四章建模过程建模思路及运行范围建模思路针对垃圾短信用户识别建模主要通过以下几个步骤： 1、

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施

文档简介

温馨提示

最新文档

评论

相关文档

【毕业学位论文】（Word原稿）通过决策树对垃圾短信用户进行预识别处理垃圾短信治理措施