【毕业学位论文】(Word原稿)通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施_第1页
【毕业学位论文】(Word原稿)通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施_第2页
【毕业学位论文】(Word原稿)通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施_第3页
【毕业学位论文】(Word原稿)通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施_第4页
【毕业学位论文】(Word原稿)通过决策树对垃圾短信用户进行预识别处理 垃圾短信治理措施_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第一章 绪论 研究背景 截止 2012 年 12 月 ,我国手机用户人数 已迈过 11 亿大关, 全国移动短信发送量达到 条,移动彩信业务量达到 条 1。短信业务 虽然极大地方便了人们的交流,但同时也成为了不法分子有利可图的渠道。 通过短信渠道 滋生 的 虚假广告、非法宣传等信 息,已经对人们的生活带来了很大的干扰,对公共安全也是一种妨害,甚 至于这种行为会造成通信高峰期时的通讯拥塞。 曾有运营商对垃圾短信的相关情况做了调查 1,在参与调查的 10000 用户当中,有 用户在过去 3 个月中收到过不同形式的广告短信,有 用户接收过有色短信,有 用户在近三个月中收到过各种形式的诈骗短信。垃圾短信不 仅影响了 人们的日常 生活, 对用户的个人隐私和财产也是一种极大的隐患,公信力会因此受到损害,公民的诚信体系也会因此而 被质疑。 垃圾短信的泛滥 同时还 增加了移动网络遭受恶意网络攻击以及病毒侵害的可能 在 2012 会上 ,电信地方公司被 曝 出 鼓励短信群发公司进行垃圾短信发送活动 , 这是央视第三次曝光垃圾短信问题。前两次分别为: 2006 年,垃圾短信已经成为一种社会公害; 2008 年,分众传媒滥发垃圾 短信、泄露手机机主个人资料 ,被曝光后分众无线叫停短信及彩信业务。 因此 ,是否对垃圾短信行为 进行整治成为大众关注的问题 对于运营商而言,如何建立垃圾短信过滤平台、开展研究 拦截垃圾短信的相关工作,有重要的实用价值和经济价值。一方面可以对人民的财产起到保护作用,也能保障人们的正常生活。此外过滤垃圾短信也可以捍卫国家安全,稳定社会 治安 。 垃圾短信的定义 垃圾短信, 从发送者角度来讲,指内容违法、不符合正常通信行为的批量发送的短信。从接收者来讲, 指 违背了接收者的主观意愿,而且对接收者造成了干扰 的短信 。 从发送者和接收者来看, 常见的垃圾短信有以下 定义 : 1、 从发送者来看,垃圾短信指 涉嫌违法 内容 的垃圾短信 ,依据中华人民共和国电信条例对垃圾短信划定出 9 个标准 2: 1 中国移 动 ,中国移动垃圾短信治理通报 ,2011 年 2 月 2 1) 反对宪法所确定的基本原则的; 2) 危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一的; 3) 损害国家荣誉和利益的: 4) 煽动民族仇恨、民族歧视,破坏民族团结的; 5) 破坏国家宗教政策,宣扬邪教和封建迷信的; 6) 散布谣言,扰乱社会秩序,破坏社会稳定的; 7) 散布淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪的; 8) 侮辱或者诽谤他人,侵害他人合法权益的; 9) 含有法律、行政法规禁止的其他内容的。 2、 从接收者角度来看, 垃圾短信是指该短信并非由接收者 事先主动约定或者定制 而 接收 , 或者因 发送频率较高、已对 接收者造成干扰甚至引起投诉的 短信 。这类短信不仅包括虚假广告、银行类诈骗信息等,还包括发送者 手机中病毒而 引起的 无具体实际内容的垃圾短信 , 垃圾短信的形成原因 虽然垃圾短信 不法分子为了 达到自身 某种 利益采用的宣传手段 , 但 深究其原因,还是由于法律的欠缺和各通信运营商监管不力造成的, 形成 垃圾短信 的主要原因有以下几点 3: 1、 短信是一种属于低成本 、 低门槛、高阅读量 的宣传方式。 该形式不需要消耗大量的人工成本, 也不需要印制大量的传单、名片 , 仅通过不同种类 的短信群发器, 插入 就可以 随意 发送上万条。 综合其他宣传手段, 短信是目前成本最低、 点对点发送到达率的通信方式 。 2、 运营商 缺乏有效监管 。在 我国 , 三大运营商对移动设备入网 都 对用户入网都不强制推广实名制,由于短信发送不收取任何形式的漫游费,导致发送者可以将某地的 拿到全国任何地方发送,给发送者身份和终端的识别都造成了很大困难, 给非法短信息群发者身份的提供了可乘之机,使之具有非常强的 隐蔽性 。 3、 缺乏有效的法律支撑。从目前立法状况来看,虽然中华人民共和国电信条例 对电信的运营活动进行了较为明 确的规范, 互联网信息服务管理办法对 互联网信息 的 服务行为和使用行为 也有切实的要求 4。但作为 综合性法规,针对电信经营活动和互联网信息服务活动这些具体的通信方式 , 还是难以 进行具有针对性的规范和调整, 客观上缺乏有效的执行力,不能对 违法行为起到约束和管理。 3 垃圾短信现状调查 根据 2011 年上半年手机短信息状况调查报告的内容,与垃圾短信相关的用户统计大致有以下几点 5: 1、 用户每周平均 约 收到 垃圾信息 , 占用户全部接收短信的 虽然从占比上较去年同期略有下降 (,但总量上还是呈上涨 趋势,户均较去年增长 。 2、 在用户收到的 垃圾短信息中, 按照内容分类,占比最高的信息分别是 涉嫌欺诈类的短信 、冒充银行扣款类 信息 、违法出售票据类信息,接收过这三种信息的用户分别占到了 3、 在关于垃圾短信责任的调查中, 大部分用户 (还是坚持认为垃圾短信泛滥的 主要原因是 运营商 不作为 , 次要原因才是 短信息发送者从中 牟利。 4、 通过调查对垃圾短信的治理效果可以看出,超过一半 (的用户认为治理初见成效,反应近半年来收到垃圾短信有所减少,仍有超过一成 (的用户反应 垃圾短信不减反增。用户仍希望能加大垃圾短信治理力度, 降低接收量 。 5、 随着用户对垃圾短信的深恶痛绝,对垃圾短信的举报比例也在逐年增长。除了 12321 举报中心外,通过运营商的举报量也达到了 除了这两个举报渠道,直接向公安部门举报和通过 12300 投诉的比例也略有增长。去年垃圾短信的举报比例已经接近三成,用户对垃圾短信的反感已渐渐从思想转换到了行动上。 垃圾短信 的危害性 垃圾短信给用户和运营商都带来了损失。垃圾短信的泛滥 不仅 严重 干扰了人们的正常生活, 也浪费了人们大量时间,同时 影响了移动网络下 的正 常通信,其危害主要表现在以下几个方面: 从 对社会影响来看 6,垃圾短信 不仅助长了社会的不良风气,甚至已经危害到了国家安全。通过垃圾短信,非法 发动 分子可以批量传播民族仇恨和封建迷信 ,在进行诈骗的同时也影响了社会的安定团结。这些短信或多或少会对青少年产生不良影响,具有十足的危害性。 从 占用 通讯资源 的角度 来看,大量的发送垃圾短信信息,会占用一定的通讯资源,这可能造成通讯忙时的拥堵,甚至可能造成通讯中断。这在造成运营商损失的同时,也会给 广大 用户 带 来极大的不便。如果能 降低减少 垃圾短信 的发送量, 4 可以节约运营商的运营成本,减少资 源消耗,为用户正常通信留出宝贵空间。 从手机用户的体验来看,处理垃圾短信无异于浪费时间。一条垃圾短信从查看到删除至少需要花费 1 分钟的时间,如果每天都收到垃圾短信,无形中会浪费人们较多的时间。而且,大量的垃圾短信会造成人们对短信接收的敏感度,有可能因为怀疑该信息是垃圾短信信息而错过查看重要信息。 从 内容服务商 ( 业务发展 来看 7,垃圾 短信在无形中 也间接制约了 用户 在 对垃圾短信的诈骗陷阱已深恶痛绝的同时,也对 业的服务短信产生了同样的反感,长此以往,必定会降低 信服务的用户感知 ,造成客户 流失 。 垃圾短信治理措施 理论治理措施 治理垃圾短信,理论上可以通过以下几个途径: 1、 对 信息服务商的市场准入制度 做进一步 明确 8。 在 中华人民共和国电信条例 中,虽然有对增值电信业务经营商的条件有相关规定,但对其行业和从业人员的具体资质都没有一个明确的规定。这给垃圾短信发送者一个很大的可乘之机,垃圾短信的主要来源都是这些无资质的短信群发商。如果要控制垃圾短信的来源,就要从细化市场准入条件入手,进一步要求从业人员的资质。 2、 推广实名制的手机入网机制 9。 根据工业和信息化产业部要求, 2010 年 9 月起,全国都需要实施实名制手机入网,要求新入网用户必须使用身份证,对于旧用户也应在 2内完成补充登记。如果能有力贯彻这一举措,垃圾短信用户将会对发送行为有所忌惮,除了能起到震慑作用外,还能方便公安机关和运营商对垃圾短信发送源头的跟踪监控。 3、 加大执法力度,扩大 监管范围 ,完善相关法律机制 10。 一是对于涉嫌发送违法信息(强迫、诈骗、引诱消费)的信息商,经落实发送行为后交由信息主管部门进行高额罚款甚至是吊销服务许可;二是由信息管理部门(工业和信息化产业部、通信管理局等)出面,对运营商和信息服务商同时进行处罚 ;三是将监管范围扩大,将所有信息服务商无论其何种性质均纳入监管范围。四是借鉴其他地方的短信送审制度。如香港的非应邀电子讯息条例就规定,公众可以选择将自己的号码提交至拒收讯息登记册,如果任何正常促销的企业没有过滤这种拒收名单,将短信发送到了已登记的用户号码中,将 5 面临 100 万元港币的罚款或 5 年的监禁。 即便是向允许发送的用户发短信,也必须注明短信来源。 4、 由信息管理部门宣贯 执行 行业自律,纠正这种忽视社会效益而只顾经济效益的企业行为。对于运营商而言,运用技术手段来限制群发垃圾短信的频率是完全能够实现的,也符合企 业自身经营发展的 目标 。 5、 建立完善的后续处理机制 11。可以从提高用户投诉处理效率入手,加强政府部门监管力度,扩充投诉渠道、有效响应投诉。工信部通过各地的通信管理局设立专门的垃圾短信监督管理机构,及时查处违规行为。 6、 通过各种途径的宣传培养用户的维权意识,鼓励手机用户配合实名制登记以维护切身权益,引导用户积极配合执法部门,提高自身防范意识,及时举报收到垃圾短信的相关信息。 运营商 治理措施 各通信运营商目前再用的垃圾短信治理措施主要有用户举报和技术拦截,下面为大家一一列举 : 1、 根据用户举报,核实处理 12 各 通信 运营商都有自己的垃圾短信平台面向用户收集垃圾短信活动信息 ,以下是几个主要的垃圾短信举报方式: 1) 中国移动用户在接到垃圾短信后,可编辑“不良信息发送端号码 +短信内容”发送到 10086999 短信平台免费 举报; 2) 中国联通用户如果收到垃圾短信,可以将其号码及垃圾短信内容转发至“ 10010”短信投诉举报平台免费举报 ; 3) 所有用户都可以通过 12321 网络不良与垃圾信息举报受理中心进行举报,举报方式有通过电话、互联网站、电子邮箱、短信、 站等 五 种。 2、 通过技术手段拦截 13 除举报途径外,各通信运营商还采取了其他方 式 拦截垃圾短信,常用的途径有: 1) 黑名单监控技术 。对核实的垃圾短信用户的短信发送予以限制,用户在一定周期内可以向短信中心提交短信,但该短信无法下发至接收人 ; 2) 基于关键字规则的过滤技术。关键字内容由国家安全部门、工信部核准后才能使用 ; 3) 根据相关规定 限制 用户 一定 周期内的短信 发送量 ; 4) 引导用户安装手机软件过滤垃圾短信。 6 治理措施中涉及的算法讨论 垃圾短信治理中涉及的算法归类综述 通过查阅相关资料, 从 现有的垃圾短信 识别方法的分析对象、承载介质、拦截方式、分析算法 等维度入手,将各种识别方法做了一个简要的对比和概括, 现有的垃圾短信识别方法基本上有以下几种 : 表 1垃圾短信拦截方式整体说明 分析对象 承载介质 拦截方式 分析算法 短信内容 用户通信行为 运营商短信监控中心 发中拦截 决策树算法、最大熵算法、显示规则算法 短信内容 运营商短信监控中心 发中拦截 朴素 贝叶斯算法 短信内容 智能手机 接收拦截 朴素 贝叶斯算法 短信内容 各类 接收拦截 支持向量机分类 ) 算法 短信内容 智能手机 接收拦截 基于规则的特征选择算法 短信内容 智能手机 接收拦截 算法 用户 通信行为 运营商计费系统 发前拦截 决策树 从以上内容可以看出,大部分垃圾电信的识别 都是建立在分析 短信的内容 上的。当该方法的承载介质位于运营商短信监控中心时,它所起到的作用是在发送过程中拦截 (即发中拦截 ),当该方法的承载介质位于用户的手机终端时,它所起到的作用是在用户收到后判断是否属于垃圾短信,当判断 内容 是垃圾短信时对用户屏蔽该信息。对于这两种方法的缺陷是垃圾短信制造者已经完成了发送行为,且给用户造成了一定压力。最后提到了一种由基于运营商计费系统承载的垃圾短信识别系统,识别方法属于发前识别,是 比较理想的拦截方式。 对于这些算法的具体实现步骤将在第三章研究方法讨论中描述,在此不再赘述,下面将举例说明现有的垃圾短信识别方法的优缺点。 现有 垃圾短信 过滤方法 举例 经过 查阅大量的技术资料,对现有的识别方法做了 初步 归纳,总了如下几种垃圾短信 的 过滤方法: 1、 结合短信传输,基于内容和用户状态的垃圾短信过滤方法 14 该方法 首先分析了短信 的 传输方式: “ SP 机”和“手机 机 ” , 然后 给出 了 基于 短信内容 和基于 发送 状态的识别方法, 进而提出在手机部署软件通过 设置黑白名单 的方式来拦截垃圾短信。除此之外,还 利用随机验证码的技术在一定程度上可以预防垃圾短信。最后 又 从短信的传输入手,提出了垃圾短信追踪 7 的两种途径,最终为垃圾短信的诉讼提供法律保证。 2、 基于查询词扩展的中文垃圾短信检索 15 传统的 拦截系统 为 了 提高运算效率 ,假定 文本中 词与词之间是孤立的, 这样的话 如果一个关键词出现在垃圾短信文本中,那么它在一定程度上与该文本相关。 然而 这是一种充分非必要的相关性,当有同义词来代替这个关键词时,对这种相关性的判断就失去了意义。 因此,提出 了机遇查询词扩展的 垃圾短信检索方法:先 利用 已设定的 关键词作为查询词,在此基础上根据文本内 容中与关键词共同出现的 上、下文信息的进行词扩展; 然后 利用查询词集合和扩展词集合综合考察中文短信文本,这样可以增大垃圾短信息的检索率。 3、 基于复杂网络的垃圾短信过滤算法 16 在对短信发送接收网络形式化表达的基础上,以 短信的上下行发送行为和通话 主被叫关系数据为例,对比分析短信发送网络的网络特性,挖掘 垃圾短信用户在网络上 的异常 发 送接收行为,以此提出 一个基于语音 通话关联 度和短信回复比率的过滤算法 (法 )。 通过实验和分析 论证,该 算法能够高效 识别垃圾短信发送用户, 降低误判率 率。 4、 基于 数和贝叶斯方 法的垃圾短信在线过滤方法 17 该方法 提出了一种综合集成黑白名单过滤模块和综合评价函数模块的垃圾短信在线过滤系统架构,引入了两层 数和基于朴素贝叶斯的概率计算方法,对疑似垃圾短信从内容、长度、频率等特征上进行深入分析,实现了海量短信的实时高效过滤,并有效地解决了传统垃圾短信过滤系统中存在的问题。 5、 基于 智能手机 的垃圾短信过滤系统 18 该方法描述了一种 智能手机垃圾短信过滤系统的设计与实现 方法 。包括了该系统的主要功能、总体架构、模块设计和相应的业务流程等。该系统 设计了五层过滤模型: 黑白名单过滤层 、 用 户通讯录过滤层 、 公共黑白名单过滤层 、 基于用户自定义关键字过滤层和基于内容过滤算法过滤层 ,旨在通过该方法实现在手机上的过滤功能。 6、 基于用户通信特征的挖掘分析 判断垃圾短信用户 19 该方法 通过 使用决策树 法 深度挖掘用户的通信特征、消费行为来判断哪些用户属于垃圾短信用户,通过关停用户通信功能或拆机来达到拦截垃圾短信的目的 。该判断实现于用户发送垃圾短信前,可以有效降低由垃圾短信发送造成的网络拥塞和用户对垃圾短信的感知。 8 现有垃圾短信过滤方法的缺陷性 以上算法虽然全面 且 准确度高, 但在实际 处理时 由于短信 并发 量 巨大, 这些算法对系统的处理性能要求很高,也导致 以上 优秀的 垃圾短信过滤方法在 现实应用中难以完全发挥作用。 综合现有的治理措施和过滤方法,可以看出目前各种算法存在的主要缺陷有: 1、 关键字规则的过滤技术 响应滞后。 理论上 ,通过关键字识别 可以精准识别垃圾短信用户,但在实际操作中,对关键字的提炼归纳对垃圾短信拦截起着决定性的作用。 不法分子利用量的空格、非法字符填充短信, 同样的内容也能千变万化, 虽然可以通过肉眼判断短信内容, 但从关键字归纳到关键字正式拦截,还需要经过较长的审核周期,处理速度上严重滞后 。 2、 发送峰值 控制策略不能随 意变更,容易被不法分子掌握规律。 限制用户固定周期内的短信发送量 能减少部分垃圾短信, 但 不法分子通过试探性发送来获得上限值, 使发送量低于上限要求,通过细水长流的方式向用户发送垃圾短信直到被举报 。 3、 基于手机终端的垃圾识别系统,虽然运算量较 小,但这部分软件只能安装在智能手机上,无法普及到所有用户。而且 该类软件需要读取大量的用户后台信息,更加降低了用户使用的安全性。 4、 基于用户通信行为的挖掘模型 很符合我们的效果预期 , 即把垃圾短信发送行为扼杀在萌芽状态。 该模型虽然使用了 法,对决策树各个分支都进行了精确的计算,但该 算法 仍存在部分问题。一是 受 法限制,属性取值最多的属性并不是最优选择 ;二是取值虽然信息熵 所选取的通信维度已不全适合垃圾短信的用户特征, 现有的垃圾短信群发频率较以前相比有了明显的差异 ; 三 是 法 是单变量函数, 在分析用户时只提取了垃圾短信用户,忽略了与非垃圾短信用户的通信特征对比,会导致较高的误判率 ; 最后由于该模型将判别结果直接交由运营商计费部门对“疑似 垃圾短信 用户”做关停通信功能处理,容易引起用户不满和投诉。 本文的研究方向 无论是根据用户反馈还是主动拦截, 从事发处理时间来看, 他们共同 的特征就是全 部 属于 事中拦截或事后限制。当运营商采取措施时,已经有大量的垃圾短信流向用户,如果能对不法分子发送垃圾短信行为进行预测,将垃圾短信发送扼杀在初期,则能大幅降低垃圾短信发送量,提高用户感知。 9 从另一方面讲,基于内容的垃圾短信拦截对系统的消耗较大 。对于庞大的用户群而言,受系统性能影响,对内容拦截的频率和范围都会打折扣。 如果能建立一种不以分析内容为拦截手段的拦截措施,对提升拦截效率、降低系统负荷都是很有好处的。 本文致力于研究 如何预测 垃圾短信用户,旨在通过一些垃圾短信用户异于普通用户的行为来对垃圾短信用户进行分析, 找出有潜在发送垃圾短信可能的用户, 对这些用户实时最严格的监控措施, 与垃圾短信监控手段结合,遏制垃圾短信发送。 最终形成的结果是一个缩小范围的垃圾短信监控用户名单,在这个名单中出现垃圾短信用户的概率远远大于正常监控的全量用户, 本模型提供的是一种辅助手段, 具体的拦截策略还需要垃圾短信监控平台根据自身的情况 结合本结果制定。 10 第二章 需求调研 垃圾短信用户 特征分析 从运营商角度,可以获取的用户信息有: 入网渠道、入网证件类型、证件号码、 产品订购信息、套餐与资费信息、 通话详单、短信详单、 各类增值业务使用清单、 费用明细等内容。 为了便于分析,我们将这些信息归纳为四大类:入网信息、订购信息、详单信息、账单信息。在这些用户信息中,部分与垃圾短信发送行为有着密切的联系,它们之间存在着哪些关联,将是我们接下来要分析的重点。通过初步对垃圾短信发送号码的跟踪分析,我们提取了如下特征: 入网 行为特征分析 从垃圾短信号码 入网 的 受理营业厅 、 入网 证件 、 办理的主套餐资费、 办理密集性来看,垃圾短信号码 入网 不同于普通消费者申请号码 入网 的行为主要有以下几点: 1、 受理营业厅 多为代理渠道 95%以上的垃圾短信号码都通过 与 运营商 合作 的 社会代理网点 办理 入网 。 由于运营 商自主经营的营业网点对用户入网信息审核 管理 较为严格, 大部分 垃圾短信用户都不会选择通过运营商自 主经营的营业网点 来办理 入网 手续。因为运营商自主经营 的 营业网点会 对用户 所提供的能够 表明 身份的证件 信息 做办理数量限制 ,不允许同一证件办理 超过规定个数的号码(一般为 5 个), 更不允许同一个人 在无委托证明的情况下使 用多个证件办理号码。 2、 入网 证件违规 现象严重 前期调研 表明,垃圾短信用户在 入网 时使用的身份证件存在诸多问题。 从 户籍部门 提供的身份证编码规则可以看出 , 部分身份证号码存在 明显的造假特征,如代表用户所在省份的前两位代码 在编码 表上 根本不存在,代表用户出生日期 的年月日不符合常识等 。这些号码会批量出现在一些规模 较小 , 日常业务量偏 低 的社会代理网点, 办理时业务 量集中,不符合日常办理频率。 代理网点则在有利可图的情况下忽略这种异常行为,纵容用户 获取垃圾短信发送载体 。 由于该类用户从流程上的入网手续合法,无法直接对用户做出限制,导致日后不法分子利用获取的手机号码在未来的某一天突然发送垃圾短信。 3、 主套餐资费选择集中 11 由于发送垃圾短信需要产生费用,为了尽可能降低成本,垃圾短信用户会 优先 选取短信资费便宜、月保底消费较低的 营销套餐 来进行违法活动。这就造 成了某些低端套餐被不法分子 利用,最终沦为 发垃圾短信的“ 专属套餐 ”。 例如, 某运营商针对学生推出的“欢乐短聊卡”就成了重灾区,该卡的保底消费仅为 条短信仅需要 。垃圾短信用户利用虚假信息办理了大量该卡用户发送信息,导致该卡被迫停止发展用户。给企业带来了极大的损失和麻烦。 发送行为特征分析 通过大量数据调研,垃圾短信用户发送垃圾短信具有 突发性、 异地性、 集中性、无目的性 等特征,具体表现如下: 1、 突发性 垃圾短信用户办理号码后并不立即 向用户发送 。这些号码会被囤积 1月甚至更久,在未来的某一天突然使 用。发送垃圾短信 可能在某个时段内突然批量发送,也可能在 24 个小时内匀速发送。 没有固定的时段, 在 24 小时内随机出现,毫无规律可言。 2、 异地性 垃圾短信用户通常向外省发送大量信息,而不针对本省用户。 分析 该类用户的使用地点,也大都不在甘肃境内。这与垃圾短信用户的发送目的有关。如一些车辆走私低价处理的信息主要针对广东省用户发送 ,是由于这些不法活动 主要集中在广东 活跃 。 3、 集中性 经统计,一张垃圾短信号码通常活跃不超过 3 天 ,且在活跃周期内的发送量很高 。 活跃天数 与运营商 的响应速度有关。运营商 发现 某号码 有 发送垃圾短信 的行为后 会 迅速屏蔽该用户发送的短信 ,如果发现及时,就能减少大量的垃圾短信发送到用户手机 。 这些垃圾短信用户可能在某个时段内突然批量发送,也可能在24 小时内匀速发送。总而言之,就是在不被运营商发现的情况下尽可能多的发送垃圾短信。 4、 无目的性 绝大部分垃圾短信 并不针对 具有某种共同特征的 用户,而是随机大量发送。研究垃圾短信的接收用户号码可以发现,这些 接收 号码 可能 集中在某一个号段(指手机号码的前 7 位相同) 或某一个地区 ,但并不针对“老年人”、“白领” 、“ *小区 住户 ” 等这样具体的类别。 12 消费行为特征 分析 经过研究垃圾短信用户的手 机消费账单可以发现 , 垃圾短信用户的消费 95%都用来发短信,很少 产生语音通话费用 。 用户的充话费活动频繁,基本上是即充即用。 这与普通用户的使用习惯很不一样。大部分用户的短信费只占整体 话费的30%以内,话费仍以语音通话为主。 而且为了避免缴费麻烦,大量用户会根据自己的消费水平一次性 充足 1 个月甚至更久的话费。 运营商期待的治理效果 运营商希望能通过有效手段对垃圾短信用户做到“封锁 号码 办理途径、早发现早处理”的治理,具体描述如下: 1、 封锁 号码 办理途径 运营商希望能将垃圾短信扼杀在摇篮之中,从办理渠道和 入网用户使用虚假证 件等 异常情况下及时发现垃圾短信用户, 封锁垃圾短信 号码 入网 。 如能 及时 发现 某 代办厅的 入网 量突然大幅度增长,并分析出这种增长并不由正常用户办理 引起 ,则可以基本判定该代办厅办理了垃圾短信号码 。 如某营业厅平时的日均 入网量不足 5 人,但突然某天增长到了 200 人。 经核查发现,这些用户使用的证件均来自于外省,而且办理时间集中,即便是业务发展最好的营业厅也达不到该水平 ,从这些因素上就能基本认定该营业厅办理了大量非法号码, 虽然尚不能确定这些号码都被用来发送短信,也 需要对该营业厅进行整顿 ,必要时可以对该批次号码做 限制功能使用处理 。 2、 早发现早处理 运营商希望能识别已经开通但尚未使用的垃圾短信号码,对这些号码进行严密监控, 一旦发现这些号码发送短信行为 异常于普通用户 , 就能 作出迅速反应 ,限制用户发送 。 模型的研究方向 根据 本章 第 一 节分析的垃圾短信号码的 行为特征, 结合本章第二节运营商期待的治理效果,来 构建垃圾短信号码识别模型。 模型建立的基础是不侵犯用户隐私数据,仅通过运营商能获取的 入网资料、 用户费用信息、使用量信息等构建模型。 本模型不针对用户的短信内容做任何跟踪,也不对用户的通信对象做深入分 13 析 。 该模型需要的数据仅是某些字段中的部分数据:如 证件号码前两位,通话对端号码前 7 位(仅针对手机用户) 等,在模型建立过程中会尽力避免少接触用户隐私数据,保证用户资料安全。 通过挖掘等相关技术,识别垃圾短信疑似用户以形成高风险名单, 可以 降低人工审核的压力和人力资源投入成本, 提高监控系统监控拦截准确率和效率 , 减少垃圾短信对客户的骚扰行为同时保障客户正常的短信发送不受影响。本方案中的垃圾信息发送号码识别模型仅针对网内点对点垃圾短信号码进行识别,如联通运营商只针对联通用户向联通用户发送垃圾短信的行为进行识别,而不识别向电信用户发送垃圾短信的行为。 确立 模型 分析 指 标 综合本章第一节提到的 针对 垃圾短信 用户不同 特征 的 分析,计划选入如下字段进行建模 : 表 2垃圾短信用户模型分析 指标 字段分类 字段名称 字符类型 入选原因 解释 入网信息 入网日期 础信息 入网信息 服务号码 3) 基础信息 入网信息 主套餐资费 名称 00) 基础信息 入网信息 最低消费限额 否存在 养 卡 风险 入网信息 入网时长 (月 ) 用户发送风险 低于新用 户 入网信息 入网渠道 0) 基础信息 入网信息 入网渠道类型 0) 代办厅风险远高于自营厅 入网信息 入网证件归属地 5) 外省风险远高于本省 短信发送 指标 短信发送量 送越多风险越高 短信发送指标 短信离散度 核 是否全发给了不同用户 短信发送指标 1小时内发送峰值 否非正常用户 短信发送指标 单天发送峰值 送越多风险越高 短信发送指标 单天内最大同号段 数 核 是否属于无目的的群发 通话情况 语音主叫次数 次数越低风险越高 通话情况 语音被叫次数 次数越低风险越高 通信消费 上月短信通话费用比 比越高风险越高 通信消费 本月短信通话费用比 比越高风险越高 缴费情况 上上月缴费次数 数越少风险越高 缴费情况 上月缴费次数 数越少风险越高 缴费情况 本月缴费次数 数越少风险越高 上表 列举了分析的维度和选取 每个 指标 的原因。 下面对其中涉及到的指标的 14 运算规则 作 一说明 : 入网行为 关键指标 涉及的指标有 : 入网 日期 、 用户号码、 主资费套餐名称、最低消费限额、入网时长、入网渠道类型、入网渠道名称、 入网 证件归属地等。 其中 大部分指标属于基础信息, 可以从系统后台直接获取, 需要 通过计算才能得到的结果字段 如下: 1. 入网时长:用户自入网到当前统计所经历的自然月 ; 2. 入网渠道类型 :分为 运营商自主经营 的营业厅 (简称自营厅) 和 由社会代理经营的各种代理网点(简称代办厅) ; 3. 证件归属地:根据全国户籍管理中心提供的省份编码,对身份证的前两位进行比对 。 发送行为 关键指标 涉及的指标有: 短信发送量、点对点短信离散度、 1 小时 内 发送峰值 、单天发送峰值、 单天内最大同号段数。 这些数需要对用户的详单做汇总统计处理,统计算法如下: 1. 点对点短信发送量 =对 统计 周期内 用户发送短信条数 求和 。 2. 点对点短信离散度 =用户发送的总人数 (剔重 )之和 /总条数之和。对于正常用户而言,在大多数情况下,发短信的行为始终围绕这个一批固定的用户,而不是每个用户只发一条。 3. 1 小时内发送峰值: 统计 周期内, 用户每小时的短信发送量 的 最大值。 4. 单天内发送峰值: 统计周期内,用户每天短信发送量的最大值。 5. 单 天内最大同号段数:统计周期内,用户每天发送的对端号段(手机号前 6位)短信量之和的最大值。 通话 行为 关键指标 涉及的指标主要包括主叫通话次数和被叫通话次数。根据前期分析,垃圾短信用户的通话次数均低于普通用户平均水平。 这两个数据需要对用户的语音详单做汇总统计处理,计算方法如下 : 1. 主叫通话次数 =话单标识为主叫的条数之和,剔除了对运营商服务号码的呼叫次数(如电信运营商需剔除对 10000 的主叫次数,联通 运营商 需要剔除对10010 的主叫次数 ,移动运营商需要剔除对 10086 的主叫次数 ) 。 15 2. 被叫通话次数 =话单标识为被叫的 条数之和,剔除了运营商服务号码对用户的呼叫次数。 消费行为关键指标 涉及的指标有:上上月短信通话费用比、上月短信通话费用比、本月短信通话费用比、上上月缴费次数、上月缴费次数、本月缴费次数 。计算公式如下: 1. 上上月短信通话费用比 =统计周期上推两个月 的 短信费用 /(短信费用 +通话费用 ); 2. 上月短信通话费用比 =统计周期上推一个月的短信费用 /(短信费用 +通话费用 ); 3. 本月短信通话费用比 =统计周期月短信费用 /(短信费用 +通话费用 ); 4. 缴费次数 =单个 自然月内缴费 记录条数 之和 。 16 第三章 挖掘 算法比较 及选取 数据挖掘 技术 说明 数 据挖掘主要用于关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等, 通过分析每个数据,从大量数据中寻找其规律的技术 。 由于垃圾短信用户和普通用户的 在入网、通信、消费等方面 有很大的区别, 这些区别主要体现在 析维度中 提到 的入网行为 关键指标 、发送行为 关键指标 、通话行为 关键指标 、消费行为关键指标 上 的数值差异上, 所以我们需要通过这些维度 的数值差异 来判断哪些用户属于垃圾短信用户,哪些用户属于正常用户。这个问题在数据挖掘中属于典型的分类问题。 涉及垃圾短信识别的 数据挖掘技术 探讨 目前有多种数据挖掘方法被 运用到垃圾短信识别当中,这些算法的共同点是都属于分类算法 。 常用的分类算法主要有 朴素贝叶斯 (类算法 、 神经网络 算法、 决策树 算法 、 K 近邻 算法 ( 支持向量机分类 算法 ( 。下面就来简单介绍一下这些算法 及算法在垃圾短信识别中的应用 。 朴素贝叶斯 (法 及应用 要了解朴素贝叶斯算法,首先要理解什么是贝叶斯算法。贝叶斯算法 20是指把一个事物的多种属性看成一个向量,这些向量的集合被定义为属性集。对于这个事物可能出现的类别也根据不同的种类建立向量,这些 向量被定义为种类集。由于属性集和种类集的关系不确定,通过计算属性向量和类别向量之间同时发生的概率来对事物进行训练学习过程,当出现新的事物时,可以根据训练结果来预测新事物与旧种类之间的关联程度。朴素贝叶斯是指假定这个事物的不同属性之间没有联系,相互条件独立。 基于朴素贝叶斯算法的垃圾短信识别 算法 21主要有以下几个步骤: 1、 收集一定数量的垃圾短信和非垃圾短信,建立正集和负集 ; 2、 提取独立字串及出现次数(字频),处理正集和负集中的所有短信 ; 3、 正集和负集分别建立字串到字频的映射关系并存储到对应的哈 希表 ; 17 4、 计算每个映射关系在和洗标中出现的概率 ; 5、 根据正负集所对应的的哈希表,推断出当新的短信中出现某字串时该短信为垃圾短信的概率。 神经网络算法 及应用 人工神经网络 22是科学家模拟人类或者动物大脑的结构和功能所建立的数学模型,它是由人或者动物的神经网络运动而启发建立的。在抽象和简化的基础上模拟人类大脑工作,定义了人工神经网络,其由大量的节点以及节点之间的相互关联构成。这些节点称为神经元或单元,每个神经元都代表一种特殊的输出函数,称为激励函数。神经元之间的连接具有权重,代表对通过该连接信号的 加权值。整个神经网络的输出由网络的连接方式,节点间的权重和激励函数决定,通常都是对某种函数或算法的逼近。 神经网络的特点主要包括以下几个方面: 1、 神经网络的训练时间非常长,在训练过程中会涉及大量的参数,通常这些参数是需要通过大量反复试验才能确定适合的设置,对普通人来说这些参数是比较难理解的,最后输出的结果就依赖使用者的经验。 2、 神经网络具有自适应性以及很强的学习能力,而且抗干扰能力非常强,可以对未经过训练的数据进行分类,所以神经网络在数据挖掘方面也产生了很大的推动作用。 3.、 神经网络算法一般是通过数学 统计学的原理建立的学习方法,在计算机领域,特别是图像以及语音识别技术,人工智能技术方面有着广泛的应用。 目前针对文本的神经网络算法 23的步骤简要概括如下: 1、 直接将文本中出现的词条作为特征来分析(简称 ; 2、 提炼词条数量,将词条数量缩小至一定的数量级 ; 3、 对文本向量做基于空间变换的特征选择 (简称 4、 建立文本分类规则,选取合适的特征 ( 5、 重建合适的网络神经结构,从而起到分类的作用。 决策树算法 及应用 决策树是数据挖掘中最常用的一种分类方法,它简单、有效而且迅速 ,是建立在实例基础上的归 纳学习算法。 决策树所解决的问题就是从一堆没有规则、没有次序的事例中推理出树形结构的分类规则 24。常用的决策树算法有 法,法和 法。 法是一种非递增的单变量决策树, 除了抗噪性较 18 差之外, 虽然计算了信息增益,但 其 结果偏向于数量级较高的特征属性,所以即便计算获得的 属性 是最大值,也不能代表这个算法最优 , 存在较多的缺陷 25。 基础上做了较大改进,通过信息增益率这一指标来选取属性,克服了 片面与不足 ,构造时能够进行剪枝处理,可处理不完整的数据,也能将 连续的属性离 散化 26。 以看成是 升级版, 它可以生成多分支的决策树,目前 主要应用于大数据集上,计算速度更快,占用资源更少 26。 目前针对垃圾短信识别的决策树算法 28运行过程主要如下: 1、 不基于内容,以用户的通信特征、通信消费特征为分析样本 ; 2、 选取垃圾短信用户样本,按比例建立测试集和训练集 ; 3、 采取 法 构建决策树模型 ; 4、 生成结果并验证 ; 5、 设计基于运营商 计费 系统的过滤方案 应用 法 是一种基于成熟理论的简单算法。 该算法是的具体思路是:如果一个样本集中的 k 个特征空 间最相似的样本都属于某一个类别,则这个样本本身也属于这个类型 29。 该方法的缺点是运算量比较大,因为需要对每一个目标文本计算其到全体已知样本的距离后,才能获得最邻近点的数量和具体信息。使用该方法时,需要对数据做预处理,剔除对分类结果影响较小的样本。 如果样本容量较大,分析结果较为准确,如果样本容量小则会用以产生误分。 以应用到垃圾邮件 30过滤当中,其具体步骤简要说明如下: 1、 提取样本信息的词干信息 ; 2、 将常用的特征单词过滤掉,利用信息增益对特征做选择 ; 3、 建立初始 的训练样本集合 ; 4、 在 K=1 的条件下设置 匹配阈值的最大、最小值 ; 5、 将相似度大于匹配阈值最大值的最邻近邮件判断为垃圾邮件,剩余部分判断为正常邮件 ; 6、 当正常邮件被误判 为垃圾邮件 时,剔除掉训练集中能与之匹配的相关邮件 ; 7、 当垃圾邮件被误判为正常邮件时,进一步判断相似度是否不大于匹配阈值的最小值,如果小于则将该邮件放入样本集,如果大于则不作处理。 支 持向量机分类算法 (应用 支持向量机算法( 用于解决小样本学习,可以处理任何形式的线 19 性可分问题,并将任何非线性可分问题 通过提高 或降低 特征空间的维度来 构造成线性可分问题 进一步分析 31。 可处理文本的分类问题, 在垃圾短信识别中 32的应用步骤如下: 1、 对样本集中的样本进行分词处理 ; 2、 对于高维度的特征空间做降维处理 ; 3、 将样本集和测试集中的文本表示为向量 ; 4、 计算向量权重并得到最终结果 。 挖掘 技术 对比 及选择 神经网络算法因本身 较为复杂,不能处理非数值型数据, 收敛速度慢,对机器运算性能要求较高,而本模型需每月优化,故神经网络算法不适用于本模型。 虽然决策树不善于处理线性关系,但逻辑回归可以很好的做到这一点。决策树对非线性关系的处理能力很强,但实际上很多非线性关系都可以近似地描述成线性关系,并能 取得很好的效果。线性关系具有简洁、易理解等优点 ,也可以对数据的过度拟合起到一定的降低作用。 由于算法逻辑不同导致了决策树和逻辑回归的差别。决策树在算法上采取了不可分割的方法,虽然失去了对全局的把握,但能够深入到数据细部。当形成分层时,它和其他节点或层面的关系就被切断了,以后只能在局部中进行挖掘。如果分析局部结构,逻辑回归不如决策树准确。 根据以往经验和结合算法优越性以及本地的实际情况, 这里我们选取决策树实现性运算 。 由于其善于处理非数值型数据,它能减少对数据预处理的工作 垃圾短信 用户的识别是一个预测的过程 , 其最 终结果只需要判断这个用户“是”或者“不是”的概率,属于单一输出。 这符合决策树的输出特征。 在垃圾短信用户特征中,有大量的非数值型数据,和其他算法相比,能节约大量的数据预处理时间。这些特征之间的 相关性低 ,基本上呈独立状态 ,不能用线性关系来描述,不适宜使用其他算法。 算法 适用性说明 通过以上对比分析,我们选取了决策树 中 法 实现模型。 在这些数据挖掘算法中, 法 在以下几个方面体现了较好的优越性: 1、 易于理解和实现。 根据前期调研的多个维度,可以梳理出树状结构来描述用户的垃圾短信特征,这种结构容易被大家接 受和认可。 20 2、 数据的准备过程简单。 根据调研的分析维度,可以不对数据做特殊处理,如剔除 空白字段或剔除非法值等。 3、 决策方法简单明了,可以较容易推出相关的逻辑表达式 。 4、 能兼容多种数据类型和常规属性。不用将每一个维度统一成 数字型数据处理,允许出现字符型、日期型字符存在。 5、 能够处理大型数据源,处理速度快,处理时间相对较短。 6、 输出结果仅有一个值,即该模型的可信度。 通过值的大小来对用户判断结果做描述,评测简单。 行业名词介绍 以下文章可能出现数据运营平台、垃圾短信监控平台、垃圾短信举报平台等与企业有关的业务名词,现对各名 词进行解释: 表 3垃圾短信用户识别模型业务名词解释 名词 释义 数据运营平台 指承载该垃圾短信用户识别模型建设、数据处理的数据仓库 垃圾短信监控平台 对垃圾短信进行监控的核心网元,由国家安全部门授权建设,用以对采集的短信数据进行分析处理以及执行具体垃圾短信治理策略的业务平台 垃圾短信举报平台 指运营商设立的用于举报垃圾短信的审核系统,由人工对用户举报内容进行核实,继而提交垃圾短信监控平台通过策略进行管理 用户黑名单 指通过监控平台判定或由垃圾短信举报平台人工核实确认的发送垃圾短信的发送方号码列表 高风险名单 经过数据运营平台的垃圾短信号码识别模型推测出的、有较大可能是或将是垃圾短信发送号码的用户名单 21 第四章 建模过程 建模 思路 及 运行范围 建模思路 针对垃圾短信用户识别建模主要通过以下几个步骤: 1、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论