数据中台建设方案

上传人：1*** IP属地：浙江上传时间：2024-04-28 格式：DOCX 页数：378 大小：8.61MB 积分：15 举报 版权申诉

已阅读5页，还剩373页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2 2 21.1.2.云操作系统TOS 31.1.3.大数据平台产品优势 71.1.4.大数据平台性能优化 1.2.1.数据采集层建设 1.2.2.数据存储层建设 1.2.3.数据交换层建设 1.2.4.数据管理层建设 1.2.5.资源管理层建设 1.3.1.数据计算层建设 1.4.1.大数据平台可视化工具 1.4.2.大数据平台集成能力 1.5.1.大数据平台运维 1.5.2.大数据平台安全性 1.5.3.大数据平台高可用性 1.5.4.大数据平台开放性 1.5.5.大数据平台兼容性 1.数据中台建设方案通过对客户大数据应用平台服务需求的理解，根据建设目标、设计原则的多方面考虑，建议采用星环科技TranswarpDataHub(TDH)大数据基础平台的架构方案，基于TranswarpOperatingSystem(简称TOS)云平台方式部署构建。通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维平台来满足客户大数据应用平台服务建设的要求。星环大数据平台TranswarpDataHub(简称TDH)基于开源Spar查询引擎、计算框架、存储引擎和资源调度等方面做了性能的优化，相较于同类产品，提供更好的性能。改进的分布式计算引擎Inceptor,解决了开源Spark的稳定性问题，并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高Spark计算性能，是开源的2-10倍。TDHInceptor极大提高了Spark功能和性能的稳定性，可以7*24小时在企业的生产环境运行，并能在TB级规模数据上高效进行各种稳定的统计分析。星环大数据平台TDH采用基于Hadoop的数据平台架构，海量数据查询分析服务集群既可以处理结构化的数据，也可以处理非结构化、半结构化的数据，满足配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储，提供数据查询、全文检索、数据离线批处理分析、交互式分析、图分析、数据挖掘、机器学习等多种数据处理模式。同时，基于平台提供的实时流处理集群，可以满足实时数据研判分析服务的需求。整个平台提供完整的多租户功能，对于计算资源与存储资源以及数据访问资源进行统一控制管理，对于计算资源进行高效的调度管理与使用控制；对于存储资源进行配额管理；对于数据访问权限，进行严格的权限管理。在安装、配置、监控、告警方面，通过统一的TranswarpManager进行运维管理。星环大数据平台TDH应用范围覆盖各种规模和不同数据量的企业，通过内演计翻燃演计翻燃存计算、高效索引、执行优化和高度容错的技术，使得一个平台能够处理10GB到100PB的数据，并且在每个数量级上，都能比现有技术提供更快的性能；企业客户不再需要混合架构，TDH可以伴随企业客户的数据增长，动态不停机扩容，避免MPP或混合架构数据迁移的棘手问题。签盘管行实时窗口统计|账户管理机器学习交互式探索计算板架Workflow发工具异常警告HDFSFTP文件接口实时流处理集群高并发查询算法模里特征工程燃据涵氮分布式文件系统HDFS据适翅海分布式消息队列实时流处理引单煅起资源监控关系型数据库超制安全审计权限控制集群运维服务监控用户认证文件上传(hordhany星环云操作系统TranswarpOperatingSystem(简称TOS)是为大数据应用量基于优先级的抢占式资源调度和细粒度资源分配，让大数据应用轻松拥抱云服务。未来企业对于构建统一的企业大数据平台(DataHub)来驱动各种业务具有强烈需求，统一的企业大数据平台需要提供以下功能：1)灵活部署：支持灵活部署大数据应用和其他常规应用2)资源调度：具备自动扩容和自动修复功能3)服务发现：具备集中式的仓库1)数据隔离：包括数据源、访问模式等2)计算隔离：隔离CPU、内存、网络、磁盘IO等创新的抢占式资源调度模型能在保障实时业务的同时，提高集群空闲时的资源占用，让批量作业和实时业务在互不干扰的情况下分时共享计算资源。另外，在TOS上运行的TDH还引入微服务的架构，显著地降低了用户部署环境对TDH稳定性的影响，提高了部署的可用性，并且能让用户在不停机的前提下，享受到将来更新版本的升级以及修复。Ring0:Docker/ContainerRing1:ResourceschedulerRing2;Bulf-insystemservcesRing3:Centralservicerepository(dockerimages)TRANSNARPTranswarpOperatingSystemContainersSchedulerCPU/MENDIskNetworktoordnatnorchestrationauto-ligdiscovenprortty-basedschedulerstoragemanagerVUANmanagerbalangeteplicotornameservice容器层容器层主要包含一系列的容器—dockerconta可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在测试机上编译测试通过的容器可以批量地在生产环境中部署。Docker容器通过Docker镜像来创建，容器与镜像的关系类似于面向对象编程中的对象与类。每个容器分配了一定的计算及存储资源，可以运行各自的应用程序。通过将应用服务装载在Docker容器中，能够实现应用环境和底层环境的解耦合，容器间相互隔离互不影响。调度模块基于Kurbernetes开发，包含多种调度模块，以及相应的调度策略。支持对CPU、内存的调度，内嵌了FIFO调度、公平调度等常规的调度策略。额外的，基于Docker容器能够快速启动的特点，TOS还包含通过设计不同的优先级，优先级高的容器能够抢占优先级低容器的资源启动。系统服务层系统服务层包含了容器正常运行所需的系统服务，如服务etcd、nameservice等，该层用于支持平台的容器化。户需要启动一个已存在于仓库中的应用时，只需要将该应用的Dockerimage拉下来启动即可。仓库预置了常用的应用服务，如完整Docker化的TranswarpDataHub各个组件和Tomcat、MySQL等常用服务。如果用户想要使用其他应用服务，也可以通过TOS提供的接口，在测试环境将应用服务制作为Dockerlmage,上传至TOSmarket,即可在生产环境下载并使用。基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池，可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资基于TOS,用户可以通过WebUI、RESTAPI或者命令行一键瞬间安装和部署TDH集群，能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术之前，部署硬件资源满足新的应用需求需要几天时间，通过虚拟化技术把这个时间降到了分钟级别，而目前基于Docker的TOS云平台把时间降到了秒级别。Docker作为装载进程的容器，不必重新启动操作系统，几秒内能关闭，可以在数据中心创建或销毁，没有额外消耗。典型的数据中心利用率是30%,通过更积极的资源分配，以低成本方式对新的实例实现更合理的资源分配，从而提高数据中心的利用效率。存、硬盘和网络更好的隔离。TOS中Docker容器的隔离目前是由Linux内核提进程编号的隔离，网络设备、网络栈、端口的隔离，挂载点(文件系统)的隔离，用户和用户组的隔离。这些隔离保证了不同容器的运行环境是基本不受影响的，比如挂载点的隔离，就保证了一个容器中的进程不能随意访问另外一个容器中的文件。TOS平台相比于传统的ApacheYarn管理框架和开源Kubernetes的资源管理框架而言，在资源粒度方面可以管控磁盘和网络，而传统资源调度框架只能管理到CPU和内存；在隔离性方面，容器技术有天然的优势；在依赖性和通用性方面，不依赖于Hadoop组件以及技术，这意味着可以实现所有上层应用的云化开发、测试、升级以及管理调度。资源粒度隔离程度依赖性进程级别、不精确依赖某个HDFS支持少量计算引擎KubernetesCPU/MEMContainer不依赖Hadoop支持通用Linux负载NETWORKContainer+Quota不依赖Hadoop支持大数据及通用应用TOS支持对TDH组件自动扩容或者缩容，同时也允许其他应用服务和大数据服务共享集群，从而提高资源的使用率。TOS创新的支持抢占式资源调度模型，能在保障实时业务的同时，提高集群空闲时的资源占用，让批量作业和实时业务在互不干扰的情况下分时共享计算资源。通过支持动态扩容和收缩集群，从何实现了资源的动态分配与调度，整个过程热插拔业务、服务无需重启。TOS的Replicator模块负责检测集群规模，当集群中服务发生问题时可以另起一个服务实例实现集群的自我修复功能。举例而言，某个HyperbaseRegionServer管理的资源范围内另起一个RegionServer的Docker容器接替因故停止的容器，动态的保证了服务集群的整体稳定性。在TOS上运行的TDH以及应用服务还引入微服务的架构，显著降低用户部署环境对TDH以及应用服务稳定性的影响，提高了部署的可用性，并且能让用户在一定程度上不停止业务以及服务的前提下，进行快捷的TDH以及应用服务星环大数据平台支持完整的SQL99标准和SQL2003核心扩展，可以运行TPC-DS标准测试集的全部99个测试项；唯一支持存储过程的SQLonHadoop引擎；兼容98%以上的OraclePL/SQL与80%以上的DB2SQLPL语法支持存储过程、函数、控制流、游标、异常处理等各类语法。唯一支持ACID分布式事务的大数据SQL引擎；定位数据仓库和数据集市市场，可用于补充或替代Oracle、DB2等分析用数据仓库。TDH提供ANSISQL2003语法支持以及PL/SQL过程语言扩展，并且可以自动识别HiveQL、SQL2003和PL/SQL语法，在保持跟Hive兼容的同时提供更强大的SQL支持。支持标准的SQL形式访问数据。TDH更完整的SQL支持使得用户能将原有数据分析应用方便地迁移到Transwarp大数据平台，同时又能处理更大的数据量。流扩展后的SQL99。因此，开发者可以在TDH上直接使用SQL而不是通过各种API来编写流计算程序，也不需要考虑任何打包或部署工作。为了更好的提供全文搜索服务，TDH中的Search也支持SQL的检索扩展语法(兼容Oracle标准)。由于支持标准的JDBC4.0和ODBC3.5,TDH可以兼容主流的数据库软ApacheHiveApacheSpark是是是是部分是是部分否是否否Database方言是否否DB-Link扩展是否否是否否Search扩展是否否ACID对于大数据的数据处理和数据清洗过程至关重要。如果没有ACID,数据的插入修改过程将存在各种潜在问题，终端用户需要亲自探究事务操作的失败TDH是第一个提供完整ACID支持的Hadoop商业化产品。TranswarpInceptorCRUD支持支持支持不支持支持事务类型事务+自治事务自动提交事务不支持事务+自治事务隔离级别可串行不支持不支持只读+可串行+读取提交事务错误处理事务+PL/SQL+SQL不支持不支持事务+PL/SQL数据一致性支持不支持不支持支持TranswarpInceptor采用专有的高效列式内存存储格式和为内存优化的ApacheSpark计算引擎，相比广泛使用的Map/Reduce框架消除了频繁的I/O磁盘访问。此外，Spark引擎还采用了轻量级的调度框架和多线程计算模型，相比Map/Reduce中的进程模型具有极低的调度和启动开销，除带来更快的执行速度以外，更使得系统的平均修复时间(MTTR)极大的缩短。在实时在线应用方面，满足在线存储和在线业务分析系统(OLAP)的低延时需求。综合在执行引擎及数据存储层上的优化，使得TDH性能全面领先开源ApacheHadoop2.0,SQL支持完整程度和性能大幅领先ClouderaImpala,比主流MPP数据库快1.5到10倍。环深度优化了Inceptor的分布式计算引擎，并使其具有灵活的扩展能力，同时它会对数据重分布和广播的逻辑进行调试优化以达到更好性能。InceptorHolodeskInceptor还采用了基于成本的优化和基于规则的优化来为执行任务选择最佳执行计划。所有这些特性都有助于Inceptor提供批量处理过程的效率和扩展性，在TPC-DS各个数据量级别的测试中，Inceptor都有非常好的表现。Inceptor可以很好地适配各种交互式数据分析和OLAP场景。Holodesk提供了索引支持，并且可以有效的利用SSD来加速扫描，因此对交互式分析场景的业务可实现多倍的提速。对于模式较为固定的数据报表业务，用户可以采用OLAPCube技术使分析性能提高10-100倍。我们以1TB的数据集为对象进行测试，发现在OLAPCube的加速下，TPC-H在Inceptor中的运行速度比S和Greenplum快近100倍。将大数据放在数据分析师的手中，交互式地探索数据，获得洞察并发现模式和趋势，以便展开进一步的分析及决策已经变得越来越重要。TDH通过分布式的内存列式存储和优化的高速执行引擎来支持交互式SQL的TDH除了支持通过R访问HDFS或者Hyperbase中的数据外，还支持访问存储在Inceptor分布式内存中的数据。Inceptor同时内置了常用机器学习算法的并行化实现，可以与R语言中的数千个算法混合使用。新版本同时支持R命令行以及图形化的RStudio执行R语言程序来访问TDH中的数据，从而使得TDH成为在大数据的数据挖掘和可视化应用领域的利器。TDH包含了经过高度优化的专有图算法，可高速分析关联关系网络等图数据。TranswarpDiscover为终端用户提供了R语言接口用于进行数据挖掘，并实现了超过60种分布式机器学习算法和多种行业模型，包括金融行业的交易反欺诈星环还通过TranswarpSophon来帮助数据工程师开发数据挖掘的应用。Sophon提供了可视化界面工具Midas用于创建模型，用户只需通过拖拽数象和运算符就能完成模型设计，然后将设计的模型在TDH集群上训练或预测分们的模型训练能够提升数倍甚至数十倍。此外，Sophon还整合了深度学习框架据和人工智能结合起来推动业务创新。言的;文?WadgpacePstyHepBseurensm[9Z·言的;文?WadgpacePstyHepBseurensm[9Z·53940obs.ef10veiableswts(plot.title"theeeDiamondPricing710…>1tet(size·22)235200Co.1xlah资源管理，得以使TDH以较低的成本部署在公共云或者私有云上。星环还充分持各种不同的业务需求。TDH非常重视与数据分析生态系统的整合以提高系统的易用性。TDH与现有成熟系统的无缝整合涉及了数据获取，数据分析以及数据可视化端。传统的关系型数据库的数据可以直接作为数据源接入到集群中参与计算分析，目前已经支持Oracle,DB2及MySQL数据库。数据分析层与R语言的整合带来了R的数千种统计算法的同时，可以充分利用R语言中的绘图工具绘制专业的统计报表；数据可视化不仅可将最终分析结果展示给用户，还可以帮助数据分析师来进行数SAPBusinessObjects、OracleOBIEE等，使得基于大数据分析的商业决策更易被理解和接受，从而将大数据的潜在价值最大化。虽然有些工具也支持ApacheHadoop,但只有高性能的TDH才真正使得交互式地探索大数据成为现实。TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持，解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案，可管理性是TDH的显著优势，用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性基于此)保证了数据的持久化和冗余复制，并具有数据自动检测和修复的容错功能；基于HDFS的所有服务为HDFS2.5的HA功能而优化，确保整个大数据处理系统的高可用性。在安全领域，与Kerberos/LDAP进行整合，支持细粒度访问控制、应用程序安全及数据加密及解密等等。星环支持多种主流的分布式计算框架，包括MapReduce和Spark,并且在产品设计之初就将Spark作为整个产品的缺省计算框架，多年来在计算框架方面做了大量的优化工作，提高了其性能与稳定性。MapReduce是一个分布式计算框架，基于该框架能够容易地编写分布式应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠地，具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce擅长处理大数据，该计算框架的核心思想就是“分而治之”,整个计算过程可以分解为Map(分)与Reduce(合)两个阶段。首先，将复杂的任务或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会被分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此之间没有依赖关系。Reducer负责对map阶段的结果进行汇总。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark拥有HadoopMap有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可轻松地操作分布式数据集。星环科技基于开源Spark技术，改进的分布式计算引擎Inceptor,解决了开大幅提高Spark计算性能，是开源的2-10倍。TDHInceptor极大提高了Spark功能和性能的稳定性，可以7*24小时在企业的生产环境运行，并能在TB级规模数据上高效进行各种稳定的统计分析。Inceptor基于ApacheSpark深度开发了专用分布式计算引擎，不仅大幅提高了计算性能，而且有效的解决了Spark在稳定性方面的很多问题，确保计算引擎能够7x24小时无间断运行。此外，Inceptor引擎独立构建了分布式数据层，将计算数据从计算引擎JVM内存空间中独立出来，因此可以有效减少JVMGC对系统性能和稳定性的影响。优化器，辅以100多种优化规则，可以保证SQL应用在无需手工改动的情况下能够发挥最大的性能。对于数据倾斜等常见的数据处理难题，执行引擎也能够自动识别并加以优化，能够解决绝大部分存在数据倾斜的计算场景，杜绝数据倾斜为了更好的适应各种数据场景，Inceptor的执行引擎延时模式和高吞吐模式。低延时模式主要应用在数据量比较小的场景，执行引擎会生成执行延时低的物理执行计划，通过减少或避免一些高延时的任务(如IO,网络等)来保证SQL的执行时间很短，达到或者逼近关系型数据库在这些场景下的性能。高吞吐模式主要应用在大数据的场景，通过合理的分布式执行来提高超大数据量上的复杂统计分析的性能。因此，Inceptor的执行引擎可以满足从GB到PB的各种数据量上的数据业务需求。TranswarpInceptor引擎内置了丰富的查询优化器，包括基于代价的优化器(CBO)、基于规则的优化器(RBO)和基于物化视图的优化器(MBO)。CBO全称是CostBasedOptimization(基于代价的优化方式),是SQL执行展，进一步提升了SQL兼容性和执行性能。性能提升方面，在测试TPC-DS标准测试集时，开源Hive在开启CBO优化以后，平均有2.5倍的性能提升。Inceptor基于原有的功能进行了扩展和增强，在开启内置CBO后，约10%的测试场景性能提升3~4倍，接近20%的场景性能提升40%,约有80%的执行计划等于或接近最优计划。实际海量数仓业务中，JONJONONcardid=BcandidValuedistributionDaselectivity热行计朝LookupJoinCo-GroupJoinCommonJein200001*mimu422523414896204225#11*56870182283480**s*CostbasedoptimizerTablesizewmasne1000recordsRBO全称是RuleBasedOptimization(基于规则的优化方式),应用静态优化规则生成一个优化的逻辑执行计划，通过一组简单的启发式规则和打分原则来确定语句的执行过程和访问方式的，其中排名越靠前，被认为效率越高。基于物化视图的优化器MBO全称是MaterializedviewBasedOptimizer(基于物化视图的优化器),它可以基于物化的OLAPCube或者视图来优化输入的SQL查询，根据对执行成本的计算，决定是否执行读取物化对象的存储计划。大数据平台中部分数据存储上可以建立索引，达到查询加速的效果。内置智能索引功能，可以识别出底层存储具备的索引，并在查询时优先使用存储>查询计划智能使用最快速的索引>无需用户在SQL中指定索引>对指定查询，根据该表有的多个索引创建不同的执行计划>根据成本计算性能最佳的执行计划和索引>支持精确查询和模糊查询>查询延时百毫秒级Index)、高维索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等；结合Inceptor支持通过SQL进行复杂条件毫秒级高并发查询，同时查询计划智能使用最快速的索引，无需用户在SQL中指定索引。对指定查询，根据该表有的多个索引创建不同的执行计划，根据成本计算性能最佳的执行计划和索引，与此同时，支持精确查询和模糊查询。相对于普通索引技术，智能索引技术基于代价的执行优化，准确率高，性能更好，能满足各类复杂场景需求，包括基于条件的多表关联即席查询与统计，可以满足高速的OLAP数据分析应用需求。交互式分析是指用户期待秒级的分析响应。为支持在线事务处理、交互式分析、近实时挖掘，或针对操作型数据直接进行复杂、即席的分析性应用需求，传统数据集市、数据仓库等均针对预先定义的分析服务类型进行预先计算。将原始数据做抽取、转换、加载，最后生成物化视图，实现相关分析；同时周期性检查数据存储中的增量数据，优化分析结果，因而无法满足实时、即席的复杂分析要求。此外，数据存储模式的变化，数据量激增之后，传统的在线分析的局限性越来越明显，如数据存取性能下降，连接处理复杂化等。为了加速交互式分析的速度，Inceptor推出了基于内存或者SSD的列式存储引擎Holodesk。Holodesk将数据在内存或者SSD中做列式存储，辅以基于内存的执行引擎，可以完全避免IO带来的延时，极大的提高数据扫描速度。除了Inceptor中Holodesk支持跨内存/闪存介质的分布式混合列式存储，可用于缓存数据供Spark高速访问。Holodesk利用SSD的高IOPS特性进行针对性的存储结构优化，通过列式存储，内置索引等技术，使得在SSD上分析性能比纯内存缓存相差在10%~20%范围左右，提供性能接近的交互式SQL分析能力。由于内存的价格是SSD的近10倍，因此可以采用SSD来替代内存作为缓存，一方面可以增大分布式内存数据库Holodesk存储容量，另一方面可以降低成本，同式数据分析，具备在秒级扫描分析数十亿条数据的能力。未来可以对不同业务部门开放交互式分析能力，提供现有数据仓库不能满足的交互式内存分析能力。Holodesk允许用户对多字段组合构建OLAP-Cube,并将cube直接存储于内存或者SSD上，无需额外的BI工具来构建Cube,因此对于一些复杂的统计分在可用性方面也表现出色。Holodesk的元数据和存储都原生支持高可用性，通过一致性协议和多版本来支持异常处理和灾难恢复。在异常情况下，Holodesk能够平台支持基于内存或者固态硬盘高IO特性优化的列式存储，避免IO带来的延时以提高数据扫描速度。Holodesk星环自主研发用于应对海量数据OLAP高性能分析查询难题的一款产品，它是跨内存/闪存/磁盘等介质的分布式混合列式存储，常用于缓存数据供Inceptor高速访问。Holodesk内建索引，结合Inceptor计算引擎可提供比开源Spark更高的交互式统计性能，可以达到秒级灵活分析数亿条记录的性能；结合使用低成本的内存/闪存混合存储方案，可接近全内存存储的分析性能。SparkExecutorExecutorExecutorExecutorColumnarStoreAIFaeSyetemAIMemeryTe550TierColumnarStoreAIColumnarStoreAImmerStecAR它着力于交互式分析中即时查询效率的提高且能够保证扩展性与稳定性。TranswarpHolodesk通过Zookeeper来管理元数据，从而避免因为单点故障而导致的数据丢失，数据checkpoint在HDFS中。服务在故障恢复之后，Holodesk能够通过Zookeeper中的信息自动重建数据与索引，因此有很高的可靠性。平台可以采用全局索引，快速找到精确查询的记录，索引采用分桶技术，加快寻找索引速度，快速精确定位数据。Holodesk通过创建全局索引，优化底层存储，对于过滤率较高的情况有很好的优化效应。Holodesk提供了表组织成桶的优化方式，通过分桶技术可以做到：1)有助于取样取样是从所有数据随机的抽取一部分样本。当数据极多时，不方便使用全部的数据验证系统功能，这时需要使用样本数据进行测试。表若被分桶，每个桶的内容是对数据的离散后的结果，满足对于样本的要求，所以取样时可以直接抽取任意一桶的全部数据作为样本。2)减少操作量，提高查询速率条件过滤时，如果过滤字段和分桶字段一致，可根据哈希结果直接知道该记录所在的相关分桶编号，只在这些分桶查找满足条件的记录，而不用搜索所有的文件，有很高的查询效率。分桶操作使得如GROUPBY以及特定场景下的JOIN(多个JOIN表分桶个数相同)能够在一个Stage中完成，避免了Shuffle过程。例如，有两张表对JoinKey的列分桶，现对这两张表做JOIN,由于两个表相同列值的记录都在对应表的同一个编号bucket中，因为Inceptor实现了同一个编号的bucket在同一个节点上的平台支持在分布式内存列式存储上建立局部索引，提供OLAP能力，为大表创建索引，支持多维数据灵活分析，无需预先物化计算。索引和Cube的建立会提升在高过滤和高聚合率的情况下的查询速率和效率，并且使得以更直观地方式从多维度多层面研究数据。Holodesk的索引是将列式存储的每个单元看作整体建立的。索引的创建采用了字典编码技术(DictionaryEncoding)。相对于通过遍历每一条记录进行条件过滤的手段，使用索引大幅度的索引支持所有数据类型。星环科技的大数据平台通过细粒度的资源调度优化，充分利用物力资源，是的单位时间内能够满负荷地运行任务，面对高并发ETL或者交互式分析的场景，TranswarpYarn支持同时对计算资源(CPU核心)和内存资源的管理能力，Yarn和分布式存储在同一个物理集群中，达到分布式计算中数据优先本地化计算的目的，避免计算过程中数据需要全部从网络获取。在申请资源配额后，如果当前用户的资源紧张或受限，还可以动态调配其他用户的闲置资源加入，当其他用户使用时再归还。TDH大数据平台基于YARN的资源调度框架，启动Spark和Map/Reduce计算集群，按需动态创建与销毁计算集群。TDH平台在一个Inceptor/Spark计算集群内部同样能实现计算资源在不同资源池(Pool)的共享与隔离，通过公平调度算法保证高优先级的Pool优先拿到闲置资源，同时每个Pool具有指定的资源保有量，避免高负载批处理业务占用全部计算资源。同时，这种机制也能支持服务类的业务长期占用一定量的资源。在TranswarpYarn上，可以非常方便的动态创建和销毁Spark或者Map/Reduce集群。对于用户提交的MapReduce以及Spark作业以及Inceptor集群，需要提交到其有权限的队列中，向Yarn申请资源，当用户当集群中节点上有足够的资源满足作业中task的要求并且没有达到该用户资源使用上线时，Yarn中将这部分CPU和内存资源封装成container,提供给task运行；如果剩余的资源量不足以满足计算所申请的资源，则任务需要排队。作业任务运行完成后动态销毁，释放占用的CPU与内存资源。因此，对于平台分析应用，可以充分使用TranswarpYarn的特性，实现分析集群的按需创建与销毁，从而在Yarn中通过FairScheduler管理调度策略，支持定义用户最低获取资源，以及最高获取资源，用户提交任务时所占用的最低资源不低于分配给用户的最低资源，在空余资源的情况下，最高资源能够达到分配给用户的最高资源。在其他任务需要资源时，根据优先级决定资源分配情况，如果优先级不够，支持抢占式调度，能够将低优先级作业占用的多余资源释放出来。通过TDH中Guardian的统一多租户资源管理调度，用户组可以分配对应队列资源，组管理员具有队列资源配置权限，可以自主地对分配给本组的资源为组内用户再次分配。组内所有用户的最低资源总和不超过组的最低资源，最大的最.TPC-DS基准测试和TPC-H测试TPC-DS是国际公认的数据库性能测试，其中包含了99个精心设计的SQL1.具有良好的SQL支持能力，能够无缝对接绝大部分基于SQL的应用场景。2.能在短时间内跑完这些测试说明该产品的性能非常优秀。星环大数据平台通过了大规模性能测试，验证了TDH在100TB的TPC-DS商业智能计算测试TPC-H是美国交易处理效能委员会(TPC,TransactionProcessingPerformanceCouncil)组织制定的用来模拟决策支持类应用的一个测试集.目前，在学术界和工业界普遍采用它来评价决策支持技术方面应用的性能.这种商业测试可以全方位评测系统的整体商业计算综合能力，对厂商的要求更高，同时也具有普遍的商业实用意义，目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。TPC-H基准测试的度量单位是每小时执行的查询数(QphH@size),其中H表示每小时系统执行复杂的能力.TPC-H是根据真实的生产运行环境来建模的，这使得它可以评估一些其了数据仓库领域的测试需求，并且促使各个厂商以及研究机构将该项技术推向极星环TDH进行了大数据性能测试，验证了在TPC-H下的性能。大数据平台需要采集各类内外部数据，形式多样，需支持不同频度、不同形态的数据采集。采集方式包含流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等，数据形态包括结构化数据、半结构化数据、非结构化数据。数据采集层负责实现内外部结构化数据、非结构化数据和流数据的自动化采利用数据调度和采集工具将数据源数据导入大数据基础平台中。本建设方案满足甲方对于数据采集层建设的基本要求：利用了FTP/SFTP、Sqoop、Kafka、Flume等开源组件和技术；实现了离线采集和加载、实时/准实时数据同步等功能；遵循了开放性和先进性原则；并且提供了更高效的数据导入工具SQLBulkload,与关系型数据库准实时同步的工具OGG和ODC,使得数据采集工具更加丰富，数据导入效率更高，时效性更强。可以给甲方后续建设提供更丰富、更多样性的选择。在Oracle、DB2、Mysql等传统关系型数据库以及MongoDB等NoSQL数据Search表中进行数据分析或者检索，TDH上支持各类结构化数据的加载，支持支持传输的带分隔符的元组序列，每个元组的字段结构相同，由指定的分隔符分隔。支持的字段类型包括：整数(最长8字节)、浮点数、字符串、日期、时间等。在Inceptor中定义相关的表结构，通过Sqoop生成分布式任务对数据进行高效抽出同步，或者通过TDA组件对关系型数据库中的表进行准实时同步插入更新删除等数据操作；业务平台实时产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平通过InceptorSQL进行数据处理或者在Discover中进行数据挖掘和机器学习。加载到Hyperbase中的数据可以通过Inceptor进行后模糊或精确匹配的高并发检索处理端处理端Oozie调度Ehgticseareh数据库数福CD/OGGTDAHoledek实对数据结构化文件中间件存储编数据源5qooptex业务系统定义数据格式，数据源(数据库或者结构结构化文件),数据存储等),数据调度方式，数据同步方式等，TDH上根据定义的数据加载方式为该任务自动配置数据处理的数据源、中Kafka等)、存储以及处理方式等，启动相应的Oozie工作流任务或者中间件的调度任务，并对数据的加载、传输以及处理入库全流程进行监控和记录。TDH上支持各类结构化数据的加载，支持灵活通用的数据格式描述，包括数据包含的字段、各字段的分隔符、字段类型等。支持传输的带分隔符的元组序列，每个元组的字段结构相同，由指定的分隔符分隔。支持的字段类型包括：整数(最长8字节)、浮点数、字符串、日期、时间等。在Inceptor中定义相关的表结构，Inceptor中支持整形、浮点数、字符串以及日期和时间等常用的简单字1)在负载均衡方面，当一类数据加载量较大时支持由多个加载客户端并行加载。Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具，支持多任务并行执行。Sqoop通过生成并提交MapReduce程序来切分taskAgent或者多组Source-Channel-Sink组件来实现多个客户端并行加载数据；Kafka通过定义并行收集数据的KafkaProducer或者多个KafkaProducer来对数据进行并行加载。2)支持将数据加载到数据库、Hyperbase、总线消息队列、流处理系统以及3)Flume支持多个Agent数据传输节点之间以多对一的方式进行数据汇聚，如采集不同服务节点上的同一类日志数据汇聚到同一份文件中，支持一对多的方式数据分发，如将同一份数据通过KafkaSink传输到kafka上导入到Stream中做流式计算，通过HdfsSink传输到HDFS上做数据存储，还可以通过ElasticsearchSi4)分布式数据采集框架Flume集成多种数据源以及数据传输的插件，并通过程序接口可以快速实现相关采集传输数据以及数据计数、数据筛选、数据预处理以及数据流监控等功能。Flume里面的支持自定义插件interceptor对数据进行过滤筛选等，并且在Flume里面，还可以通过KafkaSink将数据流接入Kafka导入到Stream中通过StreamSQL进行数据处理，在这里Flume作为Kafka的一种数据源。5)TDH上数据传输工具支持加载数据缓存功能。当目标接收端出现问题时，网络中断或出现阻塞时，支持将加载数据缓存在本地磁盘中，当目标端份备份，均对加载的数据有相应的可靠性机制保证数据的安全。6)分布式文件系统HDFS与分布式消息队列Kafka均支持断点续传功能的取，可以通过对于数据offset的记录实现数据上传下载中断点续传的功能。Kafka中的数据缓存在磁盘上，在消费队列中记录有消息被消费的偏移量offset,因此可以缓存传输中的断点位置来保证数据进行断点续7)TDH上通过Oozie工作流引擎定制定期作业，通过Sqoop定时将数据库中数据导入到TDH上；离线文件可以通过分布式数据采集组件Flume监控相应的文件目录，定时将数据文件传输到HDFS上或者相应的存储在万兆网络的环境下，单台客户端支持的数据加载速度在300MB/s及以上 (现场测试结果),可以随集群规模线性扩展直至到达网络传输最大带宽。加载集群对于文本数据的加载总带宽在100Gb/s及以上。单台加载机最大的数据缓存量可以达到TB级。最大可以达到机器存储能力的上限。缓存能力与机器存储能结构化日志中的某些字段等。在TDH上采用Logstash组件对半结构化数据进行加载以及处理，支持自定义输入数据的结构以及输出数据的结构；支持通过Flume自定义数据接口以及数据的简单处理，并将处理后的数据加载到指定的存储端；加载到HDFS上的半结构化数据可以通过InceptortSQL对其进行结构化加工和处理，Inceptor支持对Json.、XML/HTML、CSV等半结构化数据文件进行直接处理或者查询分析。在负载均衡方面，当一类数据加载量较大时支持由多个加载客户端并行加载。Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具，支持多任务并行执行。Sqoop通过生成并提交MapReduce程序来切分task实现并行执行抽取数据任务；Flume通过分布式架构可以通过定义多个Agent或者多组Source-Channel-Sink组件来实现多个客户端并行加载数据；Kafka通过定义并行收集数据的KafkaProducer或者多个KafkaProducer来对数据进行并行加载。同时支持多台加载程序以多对一、一对多的方式连接，完成数据的分发或汇聚。非结构化数据加载业务系统产生的各种类型的文档、图片、非结构化文本需要在TDH上进行存储、检索等处理方式，在TDH上通过定制Flume组件、API接口可以将非结件(一般小于等于10M)在HDFS上存储的方式进行优化，将数据文件封装为ObjectStore对象进行存储，支持高效率读写ObjectStore对象。因此TDH上支持针对0KB到数TB的文件的加载、存储和处理或者检索的完整解决方案。ElasttesearchOozie调度音领/视颜非结构化文件HolodeskFtpOverHDFSAPI/RESTAPIIDBC/ODBCText业务系统定义数据格式，数据源(非结构化的文档、图片、音视频多媒体文件等),数据存储端(HDFS、Search、Hyperbase等),数据调度方式，数据同步方式等，TDH上根据定义的数据加载方式为该任务自动配置数据处理的数据源、中间件(API/RESTAPI、FTPOverHDFS、JDBC/ODBC、Flume等)、存储以及处理方式等，启动相应的Oozie工作流任务或者中间件的调度任务，并对数据的加载、传输以及处理入库全流程进行监控和记录。TDH上支持将各类非结构化文本数据、图片、音频、视频的加载，以文件的形式存储。在TDH中支持将非结构化数据封装成ObjectStore对象进行存储。在负载均衡方面，当一类数据加载量较大时支持由多个加载客户端并行加载。Sqoop,Flume,Kafka等工具均是分布式架构数据采集工具，支持多任务并行执行。Sqoop通过生成并提交MapReduce程序来切分task实现并行执行Source-Channel-Sink组件来实现多个客户端并行加载数据；Kafka通过定义并行收集数据的KafkaProducer或者多个KafkaProducer来对数据进行并行加载。数据存入HDFS文件系统进行存储、分析和挖掘，或者存入到Hyperbase数据库进行快速检索。TDH上数据加载和传输支持断点续传功能。当目标接收端出现问题恢复时能够在上次传输的断点继续传输。Kafka中的数据缓存在磁盘上，在队列中记录有消息被消费的偏移量offset,因此可以缓存传输中的断点位置来保证在万兆网络的环境下，单台客户端支持的数据加载速度在300MB/s及以上(现场测试结果),可以随集群规模线性扩展直至到达网络传输最大带宽。通过对象存储与分布式文件系统存储能力，支持1KB到PB级数据存储。.4.流式数据加载流数据采集可通过高吞吐、高可靠的分布式消息队列缓存Kafka及flume来实现。Kafka可以用作数据缓冲队列，作为流处理的数据源。TranswarpStream作为Kafka的消费者，使用StreamSQL对数据进行处理。在万兆网络，使用双副本的条件下，对于高效模式单台数据总线服务器支持的业务数据加载速度在300MB/s及以上，吞吐能力可以随集群规模线性扩展。对于可靠模式支持的业务数据单节点加载速度25M/s及以上，可以线性扩展至网络传输的极限。高效模式下数据丢失率在万分之一以内。可靠模式下加载数据要求与输入数据一致。单集群支持的数据总线服务器总数随集群规模扩展而增加，支持100节点以上的集群规模。数据从发布到订阅时延在1秒以内。APPAPPAPPAPPAPPAPPAPPWebServiceRDBStoragConsumerAnalysisOtherStorageAppAppKafka数据总线支持数据订阅和发布功能，可以通过定义消息总线发布端、订阅端、消息队列、数据格式等相关配置来发布数据总线并自动维护总线消息队列，自动对总线消息进行全流程监控。数据由数据客户端加载数据库中数据、由WebService业务系统的访问请求或者外部检索工具发出的请求消息，Kafka中支持缓存和传输结构化半结构以及非结构的文本各类数据以及消息。数据源包括，数据加载客户端，流处理引擎，数据表存储，数据抽取工具或者其他自定义的KafkaProducer。订阅客户端包括：流处理引擎，数据表存储，K-V存储或者自定义的KafkaConsumer。Kafka中可以在Topic上进行业务标记或者在传输的消息中对业务类型等信息进行标记。Kafka支持跨集群同步，通过MirrorMaker实现两个数据总线集群间的数据镜像。Kafka中支持建立多份Topic数据副本可靠数据传输机制。在可靠数据传输模式下可以保证从生产者到消费者之间数据不会丢失。在高效传输模式下允许通过文件数据队列的相应机制支持数据断点续传。Kafka支持在线服务平滑扩展，并且吞吐能力与集群规模线性正相关，Kafka总线消息队列集群支持数百节点的用户经过相应的授权后才可以访问相关数据主题。批量模式用于在平台建设完成初期进行历史数据的迁移，将大量的基础数据和历史数据导入平台集群。可通过sqoop等ETL工具将数据导入到HDFS或Hyperbase中；同样可通过bulkload工具将批量数据导入到Hyperbase中；也可以直接将数据直接传入HDFS,其后可以通过建立外表的方式对数据进行分析。增量模式用于上线后将指定周期时间间隔(如每天，每小时或每10分钟)内的数据导入平台，可通过sqoop的增量导入等模式进行。对于与Oracle关系型的日志，采用TDT进行导入，不增加生产库任何负担，将新增的记录实时同步某些场景下，普通的T+1模式已经无法满足业务系统的需求，需要进行准实时同步，准实时同步是指将数据从传统的关系型数据库实时同步到大数据平台上，这样客户可以实时或者准实时地在大数据平台上进行数据分析。借助OralceGoldenGate(OGG)、IBMDatastageDataReplication(CDC)等软件的支持，这些软件实时地读取关系数据库的日志记录，将这些日志记录写成文件记录到本地(部分新版本可直接把文件传送到HDFS上)。TranswarpDataTransporter是星环提供的一款数据整合工具，能够在秒级将数据从RDBMS同步到TDH,同时支持多种格式的文件数据，以及去重、聚合、关联等在内丰富的数据转换操作。根据具体配置策略，定时去检查对应HDFS目录或者由某些调度程序实时监控HDFS并调起TDT,TDT然后将这些日志文件按照一定的处理逻辑，将日志文件识别(如B、A、U、I、D等)并进行转译Transporter主要具有以下几个特性，首先它支持多种数据源，比如传统的关系型数据库、系统产生的日志文件、Teradata和开源Hadoop等等，其次它具有可视化的任务编辑和监控功能，并且支持用户自定义数据的转换逻辑，具有较好导入过程中数据的一致性。Transporter还具有数据过滤和清洗功能，能够与DataStage等数据同步工具对接，准实时地导入增量数据。业务平台实时产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平台上HDFS、Search、Hyperbase或者Kafka数据队列中。FlumeFlume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。星环大数据平台TDH支持通过Flume自定义数据接口以及数据的简单处理，并将处理后的数据加载到指定的存储端。流数据采集可通过高吞吐、高可靠的分布式消息队列缓存Kafka及flume来作为Kafka的消费者，使用StreamSQL对数据进行处理。在万兆网络，使用双副本的条件下，对于高效模式单台数据总线服务器支持的业务数据加载速度在300MB/s及以上，吞吐能力可以随集群规模线性扩展。对于可靠模式支持的业务数据单节点加载速度25M/s及以上，可以线性扩展至网络传输的极限。高效模式下数据丢失率在万分之一以内。可靠模式下加载数据要求与输入数据一致。单集群支持的数据总线服务器总数随集群规模扩展而增加，支持100节点以上的集群规模。数据从发布到订阅时延在1秒以内。APPAPPAPPAPPAPPAPPWebServiceRDBStorageSearchConsumerAnalysisOtherStorageAppAppKafkaKafka数据总线支持数据订阅和发布功能，可以通过定义消息总线发布端、订阅端、消息队列、数据格式等相关配置来发布数据总线并自动维护总线消息队列，自动对总线消息进行全流程监控。数据由数据客户端加载数据库中数据、由WebService业务系统的访问请求或者外部检索工具发出的请求消息，Kafka中支持缓存和传输结构化半结构以及非结构的文本各类数据以及消息。数据源包括，数据加载客户端，流处理引擎，数据表存储，数据抽取工具或者其他自定义的KafkaProducer。订阅客户端包括：流处理引擎，数据表存储，K-V存储或者自定义的KafkaConsumer。Kafka中可以在Topic上进行业务标记或者在传输的消息中对业务类型等信息进行标记。Kafka支持跨集群同步，通过MirrorMaker实现两个数据总线集群间的数据镜像。Kafka中支持建立多份Topic数据副本可靠数据传输机制。在可靠数据传输模式下可以保证从生产者到消费者之间数据不会丢失。在高效传输模式下允许通过文件数据队列的相应机制支持数据断点续传。Kafka支持在线服务平滑扩展，并且吞吐能力与集群规模线性正相关，Kafka总线消息队列集群支持数百节点的用户经过相应的授权后才可以访问相关数据主题。TDH支持使用DBlink方式进行实时连接将关系型数据库中的数据抽取到离加速抽取和计算的效率。对于原来存储在关系型数据库中的维度表/码表，可以使用dblink的方式进行实时连接计算)。Stargate支持dblink的功能，可以在计算时将关系型数据库中的数据抽取到大数据平台上进行计算，同时支持过滤条件MongoDB的数据可以通过MongoDB适配器采集到大数据平台的HDFS上，然平台提供海量数据的统一存储管理，提供统一的计算引擎和各种数据存储引擎的连接能力，通过统一的计算引擎对接多种不同数据存储引擎进行计算。统一数据存储管理支持多种分布式存储系统/引擎，包括分布式文件系统、基于内存或固态硬盘的分布式列式存储、分布式搜索引擎、分布式NoSQL数据库。星环大数据平台基于分布式技术存储技术，可以支持存储海量(TB到PB级别)的数据，同时根据数据使用场景的不同，提供了多种存储类型，针对对应场景进行优化。对于海量数据的检索、分析都提供了强大性能支撑。Hyperbase能够实现精确查询结果的秒级返回；通过ElasticSearch全文索引能实现全文搜索引擎。Holodesk对于统计分析、联合查询上可提供比开源Spark计性能。概要的管理框架包含如下方面：接口文件接口文件报表+报告数据重构批量接口针对半/非结构化数据的处理需要根据实际的情况统一管理，按照如下原则i.文档分类a)互联网获取的数据，日志文件b)文档、扫描件、邮件等c)图片、音频、视频ii.处理原则a)10M以下，属性信息及文档本身放到Hyperbase中b)10M以上文档，属性信息存入Hyperbase中，文档用HDFS保存a)ES索引+Hyperbase索引b)ES检索d)NLP客制化概要的管理框架包含如下方面：R大数据平台(小、属性)精准Search较小(<10M)较大(>=10M)API+NLPTrinity结构化数据应用场景结构化数据典型应用场景主要分为：统计分析、检索查询与实时处理。1)统计分析类如果表需要做交互式分析，那么存储介质选择为Holodesk。Holodesk是基储，辅以基于内存的执行引擎，可以完全避免IO带来的延时，极大的提高数据扫描速度。同时，Holodesk支持建立cube和索引，从而进一步提高统计分析速不需要做交互式分析的表中，如果表需要做CRUD操作，那么存储为事务ORC表，否则存储为普通ORC表。ORC文件，全名是OptimizedRowColumnar(ORC)file,是对RCFile的优化。这种文件格式可以提供一种高效的方法来存储inceptor数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORCFile可以提高inceptor的读、写以及处理数据的性能。2)检索查询类检索查询类的表，如果有固定的查询条件，可以将表存储在Hyperbase中，并且建立全局索引索引来实现毫秒级返回查询结果。如果表中任意数据查询列数占比小，并且有些字段组合需要固定查询，那么表存储在Hyperbase中并且建立ES(全文)索引；否则，数据存储在ES中，ES基于开源的Elasticsearch并对其进行了优化。ES是一个可扩展的分布式全文搜索和分析引擎。ES作为据的存储和搜索、日志分析等。3)实时处理类实时处理类的数据，采用StreamSQL技术进行处理，使用SQL的方式实现星环大数据平台采用基于HDFS2.x的大数据存储和在线服务系统，同时支持HDFS文件加密。Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用，已经成为海量数据存储的事实标准。Metadataops(createfile,getblocklocati/foo/bar,block1->node1,node3,node6名√包5HDFS通过一个高效的分布式算法，将数据的访问和存储分布在大量服务器之中，在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上，Metadata(namespace,replicas,…)pata2据读写请求；客户端与NameNode交互进行文件创建/删除/寻址等操作，之后直接与DataNodes交互进行文件I/O。采用NamenodeHA方案保证HDFS的高可靠性，始终有一个Namenode做热备，防止单点故障问题。采用QJM的方式实现HA,文件系统元数据存储在高可靠的由JournalNode组成的集群上。同时当数据量太大导致单个NamenodeHDFS通过副本机制保证数据的存储安全与高可靠，默认如上图所示配置为将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问，而不是仅从数据源读取，HDFS对于单数据块的访问性能将是传统存储方案的数倍。HDFS支持文件的创建、删除、读取与追加，对于一个较大的文件，HDFS将文件的不同部分存放于不同服务器之上。在访问大型文件时，系统可以并行从服务器阵列中的多个服务器并行读入，增加了大文件读入的访问带宽。通过以上实现，HDFS通过分布式计算的算法，将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上，单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破，提供了极高的数据吞吐量。HDFS将文件的数据块分配信息存放在NameNode服务器之上，文件数据块的信息分布地存放在DataNode服务器上。当整个系统容量需要扩充时，只需要增加DataNode的数量，系统会自动地实时将新的服务器匹配进整体阵列之中。之后，文件的分布算法会将数据块搬迁到新的DataNode之中，不需任何系统当机维护或人工干预。通过以上实现，HDFS可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级，不需要人工干预文件的重新HDFS文件系统假设系统故障(服务器、网络、存储故障等)是常态，而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份，并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上；数据在读写时将TranswarpHyperbase实时数据库是建立在ApacheHBase基础之上，用于键值数据的存储和处理，融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时分布式数据库。结合Inceptor高速SQL引擎，支持让用户使用SQL方式进行交互式数据检索和分析，高效地实现在线OLTP应用、高Real-timeOLTP+OLAP+BATCH+Search+GraphTraversalApplicationMixedWorkload混合负载业务TransactionDocumentExecutionEngine分布式事务处理举clobal/Local全局/局部索引Decument文档存储Database图数据库DistributedFull-text全文搜去分布式BigTable分布式全文素引Hyperbase同时也是一个高可靠性、高性能、面向列、可伸缩、支持版本控制、稀疏的、多维度的和排序的分布式K-V数据库。Hyperbase表一个最大的特点是每一行数据都对应有一个全局唯一的key值，数据在底层存储时会将这一行的N个列拆开，每一列的值都和这个全局唯一key形成N个K-V对再按行存储。用TranswarpHyperbase的内部数据结构以及全局/辅助索引进行SQL执行加速，可以满足高速的检索查询应用需求；同时也支持高速的SQL离线批处理。支持在在一个事务中执行多个增加、更新以及删除操作，在正式提交前事务不生效，单表支持海量数据的存储HyperBase单表可以有千亿、万亿行，可以有百万列，数据矩阵横向和纵向两个维度所支持的数量级非常具有弹性。传统数据库如Mysql、Oracle等，如果数据在亿级别，查询和写入性能将成指数级别下降，而Hyperbase对千亿级、万亿级数量不成问题。Hyperbase表有行健、列族、列、时间戳组成，所以也叫多维表。Hyperbase行健和列是按照字典全局排序的方式存储在文件中，Hyperbase将数据以Region的形式分布式存储在不同节点之上，随着数据量增大，管理节点自动将较大Region一分为二，因此Hyperbase兼顾了海量数据存储与毫秒级的高并发检索。支持动态增加字段和传统的数据库不同，Hyperbase表包含至少一个以上列族(ColumnFamily),每个列族可以有若干个列(Column),在创建Hyperbase表时不需要指定某个列族下有多少列，这是可以在数据插入时动态指定，也就是说向Hyperbase同一张表插入数据，每次可以是不同的列，而不用关心这些列在表中是不是存在。多数据类型支持TranswarpHyperbase支持结构化、半结构化和非结构化数据的存储，比ApacheHBase支持的数据类型更广。索引支持在TranswarpHyperbase中通过使用索引来加快数据的查询速度。索引包括：本地索引、全局索引、全文索引、组合索引等。索引的基本设计思想是对TranswarpHyperbase表的非key字段建立一个映射到唯一键(rowkey)的索引。查询时可以利用索引特性进行快速定位并返回查询结果，通过索引查询可以提供毫秒级查询响应。Holodesk星环自主研发用于应对海量数据OLAP高性能分析查询难题的一款产品，它是跨内存/闪存/磁盘等介质的分布式混合列式存储，常用于缓存数据Spark更高的交互式统计性能，可以达到秒级灵活分析数亿条记录的性能；结合使用低成本的内存/闪存混合存储方案，可接近全内存存储的分析性能。ColumnarStoreAPColumnarStoreAPColumnarStoreAPIColumnarStoreAPlHolodesk-在SSD缓存上的列式存储FleSystemAPIMemoryTierssDTier它着力于交互式分析中即时查询效率的提高且能够保证扩展性与稳定性。TranswarpHolodesk通过Zookeeper来管理元数据，从而避免因为单点故障而能够通过Zookeeper中的信息自动重建数据与索引，因此有很高的可靠性。ElasticSearch是一个基于Lucene的分布式搜索引擎。它实现分布式实时文件存储，并将每一个字段都编入索引，使其可以被搜索。它提供实时分析的分布式全文搜索，可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。ElasticSearch的存储结构主要有：>索引(Index)是ElasticSearch对逻辑数据的逻辑存储，相当于关系型数据库的表。>存储在ElasticSearch中的主要实体叫文档(document)。一个文档相当于数据库表中的一行记录。>文档(Document)中的信息存储在字段(Field)上。>有大量的文档时，由于内存的限制、硬盘能力、处理能力不足、无法足够快地响应客户端请求等，一个节点可能不够。在这种情况下，数据可以分为较小的称为分片(shard)的部分(其中每个分片都是一个独立的ApacheElasticSearch可以把索引存放在一台机器或者分散在多台服务器上，每个索非结构数据如档案系统、ECM和互联网中的图片、视频、大文件在过往的系统中，往往是存放在FTP服务器上。这样的架构存在两方面的缺点，其一是FTP服务器的带宽会对于非结构化数据的高并发读写造成瓶颈。其二是我们利用了FTP的存储资源，然而没有利用其计算的资源，造成了服务器资源的浪费。在大数据平台上，可以将非结构化数据存储于HDFS或是Hyperbase上，既利用了服务器节点的存储资源又可以利用其计算资源。分布式文件系统存

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据中台建设方案

文档简介

温馨提示

最新文档

评论

数据中台建设方案

文档简介

温馨提示

最新文档

评论

相关文档