Hadoop-介绍的公开课_第1页
Hadoop-介绍的公开课_第2页
Hadoop-介绍的公开课_第3页
Hadoop-介绍的公开课_第4页
Hadoop-介绍的公开课_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop-介绍的公开课引言

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多的计算机系统。

-----格蕾·

Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较一、大数据技术需要解决的难题海量数据如何存储?海量数据如何处理?1.海量数据如何存储?海量数据的存储问题也不是今天才有的,很早以前就出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储D:\softwareE:\aa\bbF:\dd\ccE:\imagesSoftwareToolsFilmMusicItdc.local\publicItdc.local\publicSoftwareToolsFilmMusicNFS系统构架缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析2.海量数据如何计算?对日志中的每一个用户的流量进行汇总就和,如下图所示:一个实际的需求场景—日志分析对于这样的一个日志文件,如果只有这么几行数据,我们一般会采用这样的处理方式:

1、读取一行日志

2、抽取手机号和流量字段

3、累加到HashMap中

4、遍历输出结果那么问题来了,如果数据量变得很大呢,比如一个日志文件里面有几个GB数据。

1、如果仍然一行一行去读,那么就会因为磁盘的IO瓶颈导致效率太低,速度太慢。

2、如果一次性加载到内存,那么就会因为单台计算机的内存空间有限而导致内存溢出。

3、如果将中间结果全部缓存到HashMap中,那么也会因为单台计算机的内存空间有限而导致内存溢出。

4、可以选择采用多线程处理,但是依然无法改变资源瓶颈的现实,因为一台计算器的CPU资源,内存资源,磁盘IO瓶颈是定,创建再多的线程也无法改变这个现实。解决思路一优点:

简单易行

缺点:

1、单台计算机的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。

2、成本高(高端服务器非常昂贵,几百万甚至上千万一台,一般的小公司承受不起这样高昂的成本)纵向扩展:也就是升级硬件,提高单机性能(增加内存,增强CPU、用更高性能的磁盘(如固态硬盘)),比如可以购买IBM的高端服务器。解决思路二横向扩展:用多台节点分布式集群处理(通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机)核心思想:任务分摊,通过协作来实现单节点无法实现的任务。

优点:

1、成本相对低(可采用普通机器)

2、易于线性扩展

缺点:系统复杂度增加,我们要将我们的web应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题

1、如何调度资源

2、任务如何监控

3、中间结果如何调度

4、系统如何容错

5、如何实现众多节点间的协调分布式计算的复杂性就体现在这样的5个问题里面。

Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较二、什么是Hadoop?Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理基础框架。Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。Hadoop就是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的5个技术难题的。Hadoop的由来Google

云计算GFSMapReduceBigTableChubbyGFSHDFSMapReduce

HadoopBigTableHBase

Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene

的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的MapReduce和GoogleFileSystem的启发。2006年3月份,MapReduce和NutchDistributedFileSystem(NDFS)分别被纳入称为Hadoop的项目中。Hadoop是最受欢迎的在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要grep一个10TB的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题,因此能大大提高效率。Hadoop可以做什么?案例1:我想知道过去100年中每年的最高温度分别是多少?这是一个非常典型的代表,该问题里边包含了大量的信息数据。针对于气象数据来说,全球会有非常多的数据采集点,每个采集点在24小时中会以不同的频率进行采样,并且以每年持续365天这样的过程,一直要收集100年的数据信息。然后在这100年的所有数据中,抽取出每年最高的温度值,最终生成结果。该过程会伴随着大量的数据分析工作,并且会有大量的半结构化数据作为基础研究对象。如果使用高配大型主机(Unix环境)计算,完成时间是以几十分钟或小时为单位的数量级,而通过Hadoop完成,在合理的节点和架构下,只需要“秒”级。案例3:Wal-Mart采用Hadoop来分析顾客搜寻商品的行为,即客户是通过哪些商品的关键字搜索到Wal-Mart的网站的,从而可以规划下一季度的商品促销策略。案例2:通用电气通过hadoop集群分析在市场营销活动中,外界对公司的所持看法(正面,中立看法或负面看法)

Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较三、Hadoop生态坏境介绍Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。右图为hadoop的生态系统:1.HDFS(Hadoop分布式文件系统)HDFS:源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。NameNode:Master节点,在hadoop1.X中只有一个,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户端请求。DataNode:Slave节点,存储实际的数据,汇报存储信息给NameNode。SecondaryNameNode:辅助NameNode,分担其工作量;定期合并fsimage和fsedits,推送给NameNode;紧急情况下,可辅助恢复NameNode,但SecondaryNameNode并非NameNode的热备。2.Mapreduce(分布式计算框架)HadoopMapReduce是googleMapReduce克隆版。MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。TaskTracker:Slave节点,运行MapTask和ReduceTask;并与JobTracker交互,汇报任务状态。MapTask:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。ReducerTask:从MapTask的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行Mapreduce处理流程3、Hive(基于Hadoop的数据仓库)Hive由facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。4、Hbase(分布式列存数据库)Hbae源自Google的Bigtable论文,发表于2006年11月,HBase是GoogleBigtable克隆版HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。数据模型:Schema-->Table-->ColumnFamily-->Column-->RowKey-->TimeSt-->Value其他组件15、Zookeeper(分布式协作服务)源自Google的Chubby论文,发表于2006年11月,Zookeeper是Chubby克隆版解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。6、Sqoop(数据同步工具)Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序,充分利用了MR的并行化和容错性。7、Pig(基于Hadoop的数据流系统)由yahoo!开源,设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具定义了一种数据流语言—PigLatin,将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。其他组件28、Mahout(数据挖掘算法库)Mahout起源于2008年,最初是ApacheLucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目。Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB或Cassandra)集成等数据挖掘支持架构。9、Flume(日志收集工具)Cloudera开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特点。它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据。同时,Flume数据流提供对日志数据进行简单处理的能力,如过滤、格式转换等。此外,Flume还具有能够将日志写往各种数据目标(可定制)的能力。总的来说,Flume是一个可扩展、适合复杂环境的海量日志收集系统。

Hadoop—介绍大数据技术需要解决的难题什么是Hadoop及其由来Hadoop生态坏境介绍HadoopYARN基本构架Hadoop的实际应用不同Hadoop版本间的比较四、HadoopYARN基本构架HadoopYARN产生背景HadoopYARN基本构架运行在YARN的计算框架YARN发展趋势1、HadoopYARN产生背景直接源于MRv1在几个方面的缺陷扩展性受限单点故障难以支持MR之外的计算多计算框架各自为战,数据共享困难

MR:离线计算框架Storm:实时计算框架Spark:内存计算框架Hadoop1.0和2.0Hadoop2.0由HDFS、MapReduce和YARN三个分支构成;HDFS:NNFederation、HA;MapReduce:运行在YARN上的MR;YARN:资源管理系统2、HadoopYARN基本构架HadoopYARN各模块组成

ResourceManager

处理客户端请求

启动/监控ApplicationMaster

监控NodeManager

资源分配与调度

NodeManager

单个节点上的资源管理

处理来自ResourceManager的命令

处理来自ApplicationMaster的命令

ApplicationMaster

数据切分

为应用程序申请资源,并分配给内部任务

任务监控与容错HadoopYARN运行流程分析HadoopYARN调度框架

双层调度框架

RM将资源分配给AM

AM将资源进一步分配给各个Task

基于资源预留的调度策略

资源不够时,会为Task预留,直到资源充足

与“allornothing”策略不同(ApacheMesos)HadoopYARN资源调度器多类型资源调度

采用DRF算法(论文:“DominantResourceFairness:FairAllocationofMultipleResourceTypes”)

目前支持CPU和内存两种资源

提供多种资源调度器

FIFO

FairScheduler

CapacityScheduler

多租户资源调度器

支持资源按比例分配

支持层级队列划分方式

支持资源抢占HadoopYARN资源隔离方案及

资源调度语义

支持内存和CPU两种资源隔离

内存是一种“决定生死”的资源

CPU是一种“影响快慢”的资源

内存隔离

基于线程监控的方案

基于Cgroups的方案

CPU隔离

默认不对CPU资源进行隔离

基于Cgroups的方案支持的语义

请求某个特定节点/机架上的特定资源量

将某些节点加入(或移除)黑名单,不再为自己分配这些节点上的资源

请求归还某些资源

不支持的语义

请求任意节点/机架上的特定资源量

请求一组或几组符合某种特质的资源

超细粒度资源

动态调整Container资源3、运行在YARN的计算框架MapinputoutputMapinputReduceoutputStage

1inputoutputStage

2Stage3Stage

4Stage

1inputoutputStage

2StageStage

NYARN应用程序类型长应用程序和短应用程序长应用程序Service、HTTPServer等短应用程序MRjob、SparkJob等

以YARN为核心的生态系统运行在YARN上的计算框架离线计算框架:MapReduceDAG计算框架:Tez流式计算框架:Storm内存计算框架:Spark图计算框架:Giraph、GraphLib离线计算框架MapReduce将计算过程分为两个阶段,Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段MapTask将数据写到本地磁盘ReduceTask从每个MapTask上读取一份数据仅适合离线批处理具有很好的容错性和扩展性适合简单的批处理任务

缺点明显启动开销大、过多使用磁盘导致效率低下等MapReduceOnYARNDAG计算框架Tez多个作业之间存在数据依赖关系,并形成一个依赖关系有向图(DirectedAcyclicGraph),该图的计算称为“DAG计算”

ApacheTez:基于YARN的DAG计算框架

运行在YARN之上,充分利用YARN的资源管理和容错等功能;提供了丰富的数据流(dataflow)API;扩展性良好的“Input-Processor-Output”运行时模型;动态生成物理数据流关系。Phase

1Phase

2Phase

3Phase

4Phase

5MapReduceMapReduceReduceTez优化技术ApplicationMaster缓冲池作业提交到AMPoolServer服务上预启动若干个ApplicationMaster,形成一个ApplicationMaster缓冲池预先启动ContainerApplicationMaster启动时可以预先启动若干个ContainerContainer重用任务运行完成后,ApplicationMaster不会马上注销它使用的Container,而是将它重新分配给其他未运行的任务Tez应用场景直接编写应用程序Tez提供了一套通用编程接口适合编写有依赖关系的作业优化Pig、Hive等引擎下一代Hive:Stinger好处1:避免查询语句转换成过多的MapReduce作业后产生大量不必要的网络和磁盘IO好处2:更加智能的任务处理引擎流式计算框架Storm流式(Streaming)计算,是指被处理的数据像流水一样不断流入系统,而系统需要针对每条数据进行实时处理和计算,并永不停止(直到用户显式杀死进程);传统做法:由消息队列和消息处理者组成的实时处理网络进行实时计算缺乏自动化缺乏健壮性伸缩性差Storm出现。流式计算框架StormHadoopMapReduce(MRv1)StormJobTrackerNimbusTaskTrackerSupervisorChildWorkerJobTopologyMap/ReduceSpout/BlotShuffleStreamGrouping流式计算框架Storm拓扑结构图Storm与MRv1对比表系统服务应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论