徐萌:中国移动大数据应用实践218074138.ppt_第1页
徐萌:中国移动大数据应用实践218074138.ppt_第2页
徐萌:中国移动大数据应用实践218074138.ppt_第3页
徐萌:中国移动大数据应用实践218074138.ppt_第4页
徐萌:中国移动大数据应用实践218074138.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,中国移劢大数据应用实践,中国移动通信研究院 云计算系统部,2013年12月,中国移动网络规模和拥有用户数全球第一 900,000 基站、99% 人口覆盖、237 国家漫游 7亿3千万以上用户,占据中国大陆65% 市场份额 位于珠峰大本营的世界最高移动基站 6500m 2008年北京奥运会合作伙伴, 连续四年入选道.琼斯指数DJSI 金融时报发布的“全球最强势100品牌”,排名第10位 2010年商业周刊评选全球创新企业50强,排名第18位,336,2001,2006,2009,2010,287,2001-2012 世界500强排名 2005 2003 2004 2002 224 230 24

2、2,2007 202,2008 180,148,99,77,87,2011,81,2012,移动互联网用户流量激增,手机数据化、宽带化趋势明显,用户分布 数据来源:Infoma 2013 全球移劢互联网用户数量激增, 已3倍于固定互联网用户数量,流量分布 数据来源:Cisco 2013 移劢互联网流量激增,2012年底, 移劢数据流量占比超过13%,时间分布 移劢互联网:通信功能 = 80:20 数据来源:GSMA 2013 移劢互联网应用使用时间激增,是 使用通信服务时间的4倍,中国大陆移劢互联网发展有相类似的趋势,截至2013年6月,中国大陆手机网 民已达4.6亿,上半年移劢互联网接入流量

3、同比增长62.6%(CNNIC、工信部),transaction,DBMS,ETL,DW,Analysis,Cluster,Unstructure,Stream,Multiple data sources,(MapReduce),传统数据分析处理,大数据处理, 面向结构化数据,非结构化处理效率低 基于昂贵硬件(小型机+磁盘阵列)或一体机 硬件平台兼容性差:在跨代硬件或跨厂商硬 件环境下常常无法部署 扩展性达到PB级之上可选厂商较少,易绑定 Traditional DB/DW,TB,PB,Distributed architecture EB ZB, 具备结构化/非结构化混合分析的能力,大数据多

4、为非结构化 基于消费级硬件,以常态化硬件故障为设计出发点,丌依赖高 性能、高可靠性硬件保障系统性能和可靠性。 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署 MPP DW+Hadoop,Analysis,大数据处理核心基础的转变,用户 协议,业务 访问 终端 上行 下行,电信运营商发挥管道优势,深入挖掘大数据的价值 借助云计算技术和运营商优势,将大数据信息转 化为商业价值,促进业务创新,1. 2. 3.,改善用户体验:智能语音门户通过知识库和语义搜 索技术实现业务知识的机器智能回答 助力市场决策:充分挖掘用户的移动互联网行为特 征,提

5、升对用户消费偏好的精准把握,帮助市场营 销等决策,实现精准营销。 优化网络质量:利用信令数据支撑终端、网络、业,分析需求,流量分析 流量的构成和 大趋势分析等,务平台关联分析,优化网络,实现网络价值最大化 用户分析,用户兴趣偏好、近 期关注、活动范围 等,流量清单查询 为用户提供流 量的去向查询等,网络质量和效率分析,网络价值分析 客户感知及行为分析,PI 网元能力层,KQI 业务质量层 KPI 网络性能层,QOE 客户感知层,上网日志内 容字段 帐号 类型 类型 URL 信息 流量 流量 劣力市场决策,业务端到端分析 优化网络质量,改善用户体验, ,2007年3月,启动了“大云”研发项目 2

6、008年11月,作为副主任委员单位发起,成立了中国电子学会云计算专委会;,2010年1月,作为副理事长单位发起成立,了中国云计算技术和产业联盟;,2011年8月,作为副理事长单位发起成立,了中国云计算发展与政策论坛;,2010年5月,加入云计算国际测试床Open,Cirrus,成为国内第一个成员单位;,2011年12月,正式发布“彩云”个人云,服务,2012年12月,采用大云产品的国家教育,云正式上线,2013年6月,为了加强云计算和大数据开,发,研究院基于大云团队成立云计算系统部,2013年9月,大云项目被列为集团战略性,重大项目之一,中国移动是国内云计算的先行者和倡导者 中国移动从2007

7、年就开始云计算的探索和实践,是国内云计算的先行者和倡导者, 积极参与国内外的标准化和产业推动,2009年12月建成国内规模最大的云计算实验,室,服务器节点数超过1300个,“大云”是中国移动为助力移动互联网转型、实现IT支撑系统升 级而实施的云计算创新研发计划 “大云”是中国移动为助力移动互联网转型、实现IT系统架构变革 而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高 性能、低成本、高可扩展、高可靠性的需求,推动IT支撑系统集中 化的实现,增强大数据处理能力,打造移动互联网时代核心竞争能 力,2 平台研发 应用研发 试验/试点 3,1 4,标准化 产业推劢 5,策略研究 大云 方

8、案/规范,2007.3,2008.3,2007.7,确定了云计 算研究方向,2010.5 2011.4,发布 大云 1.5,部署Hadoop系 统进行大数据 研究,发布大 云1.0,发布 大云 2.0,2006.9,2006年2月,大数据 基础软件Hadoop诞生 2006年9月,亚马逊 AWS服务正式上线,2008年1月,Hadoop 成为Apache顶级项目 2008年4月,Google PAAS服务GAE试商用,2010年7月,云计算 基础软件联盟 OpenStack 成立 2011年7月,阿里云 上线试商用,在双业 务云部 署,在公 有云 部署,在一级 私有云 部署,2013.6,20

9、11.11 2012.6 2012.8,“大云”研发历程 “大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技 术研究、现网技术支撑及产品开发计划。项目从2007年3月启动,是国内最 早启动的云计算研发项目之一。 云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化,行业动态,Google云计算论文:GFS /2003年,MapReduce/2004,BigTable/2006,2003,CloudSecurity,CloudMaster,对象存储 BC-oNest,系 统 监 控 和 管 理,平 台 安 全 管 理,移劢互联网 业务平台,IDC服务,经分 集中化,结

10、算 系统,搜索引擎 BC-SE,经分系统 ETL/DM,信令 系统,云计算 物联 资源池系统 网应用,弹性块存储 BC-EBS,数据管理/分析类 商务智能平台BI-PaaS 并行数据挖 并行数据 掘工具集 抽取转换 BC-PDM BC-ETL 数据仓库系统 BC-HugeTable,IaaS 产品 计算/存储资源池 弹性计算 BC-EC,PaaS 产品,“大云”产品,BC-BSP 数据并行框架 BC-Hadoop 数据存储和分析平台,“大云”2.5产品体系架构,内存处理引擎 BC-DME,实时交易类 SQL数据库 BC-RDB K-V数据库 BC-kvDB,2.0产品体系,2.5新增产品,2.

11、5功能增强,版本不一,缺乏规划 集成商丌同,版本丌同 大云/华为/亚联/Intel/天 云,自有人员不足,控制力弱 主要由集成商引导和控制 自有力量薄弱 靠多家多轮测试,建设大云产品开源社区增强产品的研发和推广能力 在试点中发现省公司关于使用Hadoop的问题:,调优复杂,门槛较高 应用不平台绑定 调优斱法复杂多样,开源的优势:, ,吸引多斱研发力量:包括集成商、应用开发商、高校科研机构、互 联网企业等 拓展应用渠道:推进开源产品的应用实践 促进统一版本:促进集团、省公司选择内部开源版本,全国版本统一 化,利于核心技术的掌控 提高集成商运维积极性:开源代码透明、可维护程度高,将基于开源Hado

12、op软件的大云大数据平台BC-Hadoop开源,尝试开源模式!,大云开源社区BC-Hadoop最新进展, ,社区建设:在大云实验室搭建开源站点,选择github作为镜像站点, 并确定了开源组件模块和基线版本 开源合作:研究院大云团队和亚联、华为研发人员组成核心团队负,责社区研发的启劢,开源社区迓得到了来自卓望、新大陆、拓维、 东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持 大云开源社区期待幵欢迎各方的加入! ,“大云”应用逐年丰富,产品成熟度稳步提高, 大云的商用涵盖公司“两朵云”以及外部 行业云,成功应用于移动IT支撑系统,互 联网业务平台,公众服务云、教育云和电 子政务云等领域

13、。 大云产品已部署了超过3000台服务器, 裸存储容量约15PB。 截止12年底,累计为公司创收和节省成本 7000万元以上。,27,27,21,15,9,4,大云实验室设备规模,计算节点1180个,内核总数6432 个,内存18.8TB,存储容量4PB+ 网络设备50台,千兆接入端口 1248个,万兆接入端口384个, IB-40Gb接入端口80个,大数据资源池,测试区,研发区,虚拟化资源池,统一运营管理平台 自服务资源 资源使用监 申请、释放 控和统计,PUE = 1.504,大云实验室功耗统计,大云实验室运营运维管理,统一运维管理平台 自动化安 自动化故 装部署 障报修,典型的应用场景之

14、一:大数据批处理系统,目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,幵进 行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等幵行计算技术。,技术要求丼例:,针对海量数据实时离线批处理运 算(ETL),通常时间要求较为 宽松,如几个小时级别。,数据ETL运算种类多,灵活性强,,通常具有很强的定制化特征,数据通常需要导出到数据库、数,据仓库,提供报表能力,需要灵活的调度的系统,便于系 统需要和其他业务系统混合部署, 提高资源利用水平,例图:分时段汇总的业务场景,典型的应用场景之二:大数据查询系统 目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询

15、操作,用 于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。,采集预处理,计算1,计算2,融合,处理,大数据库,大数据库,原始 数据,消息,营业厅系统,营业厅1,营业厅2,营业厅3,营业厅4,例图:帐详单查询系统,技术要求丼例: 针对海量数据实斲交互式查询, 迒回时间在1秒钟左右。,针对海量大数据规模实斲查询, 数据规模可以达到100TB-10PB 规模。,数据插入通常采用批处理斱式, 而查询通常带有条件,通常迒回 结果数较少 系统具备较高的并发性,支持大 量用户同时查询,依然可以在给 定时间出口迒回结果,数据具有很高的可靠性和可用性 要求,其它人群,人群1 例图:客户分类识别应用,典型的

16、应用场景之三:大数据分析挖掘系统 目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设 计模型、训练集幵选择算法(分类、聚类、关联、非结构化)。通常会使用各种分 布式数据挖掘工具和算法 技术要求丼例: 针对海量数据实斲全量数据挖掘, 规模达到10TB-PB规模。 处理时间没有严格要求,通常达 到几个小时,甚至更长时间 需要支持各种并行计算模式,如 MapReduce、BSP等,数据挖掘系统需要较好的用户界 面,用户通常具备业务知识,但 是未必具备开发经验 系统可以和其他系统混合部署 数据具有一定的可靠性和可用性 要求,数据,外存 外存 存储,储,储,约800GB,(经分13

17、.5亿) 经分50GB),(,应用案例1:云化ETL完成了省公司每日近170亿的数据处理 仸务统一调度,16,接口机,文件 级 校验,ODS DWD DW 层库 层库 层库外,转换,应用层数 据,云计算Hadoop,库内处理 DW层数据,处理流程说明: 云平台从接口机采集数据入HDFS分布式文件系统,同时负责数据 预处理、原始生产数据的清洗和转换,以及各平台间的数据交换,从 而实现ODS-DWD-DW层数据处理加工工作。库外仸务由云平台统一 调度、监控。传统数据仓库库内处理工作逐渐迁移至库外,只提供应 用层展现功能。,数 据 装 载,6、库外稽 核,文件采用LZO压缩(接近4:1) 每天新增约

18、4.6T的原始数据量,压缩后大概1.3T,需先预 处理, 再进行 文件采 集,从 而提高 传输协议,效率,约1.3TB 62亿条 约3.4TB,1 文件 采集 到云 平台 原始数据 4.6TB,2,Datanode数量 Namenode数量 日程序运行开始时 间 日程序运行结束时 间 总流程平均运行时 长,67台 2台 6:30:00 18:00:00 11.5小时,大数据平台处理能力,FTP方式获取 上游数据,通过Map/Reduce + SQL Loader将DW层数 据加载至数据仓库(Oracle)指定表中,触发FTP抽取任务,从指定FTP路径 抽取文件,再存入HDFS文件系统,流程70

19、个 流程16个 流程81个 3 4 5 162亿条 149亿条,爬虫速度500W网页/天/ 节点,网页解析及分类1400W网,页/天/节点,数据层,互联网网页,用户上网日志,Internet,CMNET/CMWAP/WLAN 日志,用户群提取 服务层,访问热点 分析,业务竞品 分析,URL查询,关键词检 索,SaaS,DaaS,BC-Hugetable:支持海量日 志存储及各种汇总、统计 分析;网页存储 能力层 BC-SE:支持爬虫、网页解 析、自然语言解析等;,BC-PDM:支持海量结构化 及非结构化数据分析挖掘,应用案例2:在互联网内容分析系统中应用 结合用户上网日志及互联网网页内容,为精

20、准行销提供用户行为偏好分析;为互 联网业务发展提供大趋势及业务竞品分析能力,应用案例3:去IOE实践 BC-RDB主要用于海量数据的实时在线交易处理系统,包括计费、结算系统等实时 系统,CRM、ERP进销存等交易系统以及其他应用系统。 现网业务平滑迁移 BC-RDB支持标准SQL92,支持业务 从传统的关系型数据库平滑迁移到 BC-RDB之上。应用业务逻辑程序仅 需做少量改造(修改原有数据库的非 标准语句),甚至可以直接迁移。,RDB相比传统方式有40%以上提升。,0.6 0.4 0.2 0,1 0.8,SQL1,SQL2,SQL3,SQL4,SQL5,CRM SQL耗时比对,oracle rdb,RDB相比传统方式有40%200%提升。,3 2 1 0,5 4,SQL1,SQL2,SQL3,SQL4,SQL5,PBOSS SQL查询耗时,oracle RDB, ;,应用案例4:新浪微博爬取与挖掘,目标,针对新浪微博的用户信息、交往关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论