光伏大数据平台技术解决方案_第1页
光伏大数据平台技术解决方案_第2页
光伏大数据平台技术解决方案_第3页
光伏大数据平台技术解决方案_第4页
光伏大数据平台技术解决方案_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

光伏大数据平台技术方案项目概述01平台建设02平台规划03平台特点04目录项目建设背景国务院日前印发的《关于积极推进“互联网+”行动的指导意见》针对“互联网+智慧能源”专项中指出,“推进能源生产智能化”,“鼓励能源企业运用大数据技术对设备状态、电能负载等数据进行分析挖掘与预测,开展精准调度、故障判断和预测性维护,提高能源利用效率和安全稳定运行水平”;建设分布式能源网络,构建智能化电力运行监测、管理技术平台,使电力设备和用电终端基于互联网进行双向通信和智能调控,实现分布式电源的及时有效接入,逐步建成开放共享的能源网络政策导向产业发展立足陕西、幅射西北,面向全国提供全方位的新能源数据资源服务,促进新能源产业可持续健康发展。整合陕西省内现有光伏电站(大型并网、分布式光伏)以及相关的气象,电网等各类数据资源,结合新能源产业发展需求,建设支撑光伏新能源资源评估、电站选址优化、电站建设、生产运营、集中管理决策等业务的大数据平台,并提供电站运维、电力预测等专业化数据服务现状和问题光伏电站气象部门配电所电力公司运维机构投资商生产商家光伏生态体系缺少具有公信力的光伏能源大数据应用服务平台:目前,在能源发电领域,无论光伏还是风电发电,在行业内多存在管理粗放、不够精细化、没有监控、缺少数据分析、气象应用功能重复建设等问题,不能服务于光伏电站规划、设计、生产、管理和运行工作,因此,需要将建立一个能源数据和信息互联网平台,通过统一的标准、统一的语言对分布式能源进行管理和服务。光伏电站质量参差不齐是一直困扰着光伏电站交易、融资、证券化发展的重要问题项目概述01平台建设02平台规划03平台特点04目录平台架构计算存储镜像测量虚拟化部署管理任务管理计算存储镜像测量虚拟化计算存储镜像测量虚拟化计算存储镜像测量虚拟化计算存储镜像测量虚拟化结构化半结构化非结构化实时批量手工数据类型采集方式数据统计OLAP分析数据挖掘数据可视化机器学习资源管理集群监控即席查询安全管理基础资源池数据采集数据存储应用开发支撑平台综合管控NOSQL计算存储镜像测量虚拟化系统管理与运维HadoopMR结构化实时流数据分析调度管理MPPSQL应用开发接口大数据应用政府信息管理系统消息报警数据仓库数据抽取装载电站远程运维系统光功率预测系统本项目基于璞华大数据公司提供的大数据平台建设光伏数据存储分析平台基于璞华大数据平台提供数据的存储与计算能力、数据的维护与管理能力基于璞华大数据可视话分析平台提供分析与可视化展现能力数据采集分析采集内容采集方式实时性更新频率数据格式光伏电站信息数据电网配置数据手工、导入离线低静态光伏电站运营数据手工、导入、系统离线中表格气象数据数据交换准实时高XML、文本航拍、监控视频数据视频上传离线低视频电站实时运行数据电网用户侧用电数据系统、协议实时高键值对Hadoop分布式文件系统数据采集-实时性分布式消息队列集群分布式采集层、调度层采集输入TCPTCPTCPTCPhdfs分布式流计算串口智能网关数据转发大型并网电站SCADA系统小型分布式电站kafaka主备采集前置机升压站综合自动化系统数据转发通信规约(IEC104)数据转发通信规约(IEC104)厂站端大数据平台数据采集-准实时性天气温度辐照气象局生成文件WebService服务SOAPHadoop分布式文件系统SOAPWSDLWSDL数据采集-批量光伏电站信息数据电网配置数据光伏电站运营数据运营表格文件航拍监控视频数据文件模板导入文件上传数据库直连自动文件上传excel导入JDBC、ODBC手动FTPHadoop分布式文件系统数据收集网关

硬件配置数据收集网关

软件配置数据收集网关

应用功能数据存储-分布式文件系统HDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用HBase:非结构化NoSQl分布式数据库

基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作Hadoop平台提供了海量数据的分布式存储与处理的框架。利用HDFS的海量数据存储能力、灵活扩展能力将分布式文件系统作为光伏大数据存储与分析平台中的基础数据存储载体,从外部采集过来的数据首先存储到该文件系统中.并保留源系统的历史信息与数据结构.

做为数据仓库中ODS数据层为后续的汇总、应用层提供基础的业务数据.同时利用HBASE的高速读写能力可以为前端提供明细级的查询服务HBaseMapReduceHiveHDFS快速的数据读取大数据存储统计复杂计算并行处理数据存储-MPP数据库SharedNothing代表数据库:GreenPlum适合大数据量的OLAP应用缺点优点线性扩展:X86平台高可用性较低新型MPP数据库主要构建在x86平台上,为无共享架构(ShareNothing),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等,支持PB级的数据存储。本项目中的数据仓库可以通过MPP数据库进行搭建.其对海量数据的处理能力、分级存储的能力对后续的分析、应用、可视化提供强有力的支持新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障,可线性扩展多副本机制保证数据安全支撑PB级的数据量支持SQL,开放灵活数据存储-分级存储策略数据分级存储原则数据压缩模式按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线、离线按访问频度内存数据库按响应及时性内存数据库数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理属性高性能磁盘库磁带光盘库中低性能磁盘库多模式的压缩方式,可以实现根据不同的数据种类选择压缩方式.实现冷热数据的差异化管理与应用很好的随机访问性能OK表访问2:1-5:1的压缩率很差的随机访问性能非常好的TableScan5:1-50:1的压缩率很好的随机访问性能非常好的TableScan5:1-50:1的压缩率数据库块符号表Row1Row2Row3行列混合压缩压缩包1Column1Column2Column3Column1Column2Column3压缩包3压缩包2列数据库数据仓库建设Hadoop平台大数据仓库报表数据挖掘数据指标数据可视化……信息子层贴源数据历史数据信息子层:报表数据、多维数据、指标数据等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总。明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并ODS层:数据来源于各源系统,通过采集工具、实时流对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。明细数据层

(DW)轻度汇总层(MK)高度汇总层(MK)应用库选址优化远程运维功率预测应用层:应用系统的私有数据,应用的业务数据。做为大数据平台的一个上层应用,有由大数据平台提供数据支撑数据开发接口SQLFTPHSQLAPIETL数据采集航拍监控非结构化数据设备用电运营气象配电所升压站结构化数据数据源获取层12123344MPP数据库MPP数据库平台批量离线计算能力Sqoop实现集市数据区与数据平台其他Hadoop数据区的数据交换Hadoop命令、Hive外部表、MR程序实现数据平台Hadoop数据区间的数据交换实现技术Perl程序数据采集,调用Perl文件模块相关函数,轮询指定目录,获取数据文件数据核查,Perl执行文件级数据质量检查数据加载,调用HiveLoad数据命令,加载到数据平台临时数据区的HiveTable实现技术批量采集:大数据源以SFTP协议批量传输数据文件在线访问:开发Java或C应用,调用大据源API,或以网络平台爬虫方式抓取源系统非结构化、半结构化数据实现技术平台实时流计算能力数据采集方式–实时采集方式实时方式–LMAX,证劵交易所广泛采用的易所广泛采用的高性能无锁框架–NIO非阻塞网络收集–分布式QUEUE对接实时计算平台–高速率的类事件信息采集,计算,存储–横向线型扩展能力–完整的SQL支持能力–基于分布式队列+分布式内存计算多维分析、交互式探索分析基于璞华大数据提供的可视化分析平台.采用内存计算技术实现多维分析.提供查询效率、打破原有的分析字段瓶颈.更灵活、更高效.通过配置界面可以实现联动、钻取等交换的分析功能.不用手写代码大大提高了维护效率与开发效率机器学习、深度学习通用机器学习算法在海量数据之上运行绝大部分代码是基于Hadoop编写的分布式作业Mahout目前已支持的算法包括,协同过滤,推荐算法,聚类算法,分类算法,LDA,朴素bayes,随机森林。上面的算法中,可以通过矩阵分解后,充分利用MapReduce的并行计算框架,高效地完成计算任务。有着统计分析功能及强大作图功能无需进行分布式作业,因此可用来做样本分析拥有大量的数据挖掘算法,包括聚类、分类、关联、时间序列等机器学习2.算法:采用kmeans算法、卷积神经网络和循环神经网络算法1.数据输入:通过传感器采集设备性能数据、系统告警等数据3.输出:对数据进行聚类,分类或预测处理流程解码视频并统一帧数(20FPS)视频流输入使用CNN进行边界检测多物体检测使用LSTM记忆行为行为分类模型根据行为分类结果标记视频内容组合图像使用CUDA技术训练和演算应用开发支撑平台集成开发环境:提供大数据应用开发支撑平台,能够支持标准的SQL、MapReduce、scala等编程开发支持各种文件的全量和增量数据抽取;支持离线数据和实时数据的装载离线数据导入:可视化展示平台DART托拉拽重计算,对统计的数据进行有效的提取及整合,赋予数据新活力,想怎么拖,就怎么拖,致炫快速展现你想要的,方便快捷,简单高效支持多数据源输入,数据库多样化多图多图表联动,值域漫游,多维查询,点多面广全覆盖,分分钟钟快速展现PC端移动端全面、实时、快速、智能拖拉拽一键生成报表应用开发步骤数据立方体Dart智能可视化实战案例基于数据的一体化展示平台,组件丰富,并提供多维智能分析,图表联动,实时数据分析等多种服务。自助式,所见即所得,无需二次开发,节省开发成本。应用开发—电站远程运维光伏发电运行数据:电压、电流、功率、发电量、电能质量、逆变器运行数据、设备状态、开关位置信号;故障及报警信息:事故信号、故障信号、重要保护信号等;实现远程的光伏发电系统的启、停、功率调节及相关操作与控制。应用开发—发电功率预测

根据装机容量、气象(温度、风速、光照强度)、发电量等历史数据,寻求发电功率与各种相关因素之间的关系,从而对发电功率曲线进行科学预测。

提供短期发电功率预测(预测1-7天)和超短期发电功率预测(预测两小时)。管理与运维-平台能力要求基于Hadoop生态圈原理,提炼监控要素,使得监控清晰、准确、易懂。能够实现并存多个版本或多个Hadoop集群的监控。能够实现不同版本的参数管理。整理Hadoop生态圈成员及组织形式,使得逻辑清晰、浅显易懂。能够深入Hadoop生态圈运作原理,结合JAVA开发环境的理论知识,提炼关键指标。实现秒级监控。能够提供日常系统运维的自动化工具;可支撑至少5K+的集群监控和运维管理能力。目标系统管理人员系统运维人员故障处理人员了解大数据中心的整体运转情况完成日常维护和规划设计提供得心应手的操作工具管理与运维-能力架构知识库服务数据核查性能监控健康概览系统备份预警报警告警监控资源统计自动巡检系统规划系统协维系统代维系统优化管理与运维●平台整体监控界面:管理与运维●事件监控界面:●日志跟踪界面:项目概述01平台建设02平台规划03平台特点04目录平台服务器集群-36

-…………DataNodeSparkhawqSlave服务器4DataNodeSparkhawqSlave服务器5DataNodeSparkhawqSlave服务器6DataNodeSparkhawqSlave服务器7NameNodeZookeeperSparkhawqMaster服务器1Hbase主ZookeeperSparkHawqhiveMaster服务器2SecondNameNodeZookeeperSparkHawqHbase从Master服务器3服务器容量计算公式:单台服务器(假设服务器包含12个硬盘插口,每个插口插入一块2T硬盘,总容量为12插口*2T=24T)

以支持hadoop3份存储高保障为例,可用数据变为24T*1/3=8T考虑到OS及RAID,一般会做到RAID10,并占用2个插口,剩余10个插口做为数据存储端,做到RAID5保障数据高可用。用量预估大概在可用数据的30%,所以计算得12插口*2T*1/3*(1-30%)=5.6TB,单台24TB服务器可支持5TB左右的数据量。基础版推荐版14TB5台(可用容量25T)7台(可用容量35T)备注:以上计算以单台服务器24TB计算数据量服务器数量服务器数量:集群服务器数量备注:考虑后期数据量会达到140TB,可动态添加新服务器加入集群。集群规模大概在20多台服务器左右。处理器(CPU)双路(2*8核)内存:128GBSlave节点存储12*2TB

SAS

15K

RPM,RAID0,双RAID卡Master节点存储12*2TBSAS15KRPM,RAID5,双RAID卡平台硬件配置网络:dual-port万兆网卡需要NICbonding每台机器需外加1个千兆管理网卡交换机:1个24口万兆光口交换机节点数多涉及多级交换机时,保证任意两节点间带宽大约2GB管理交换机:1个24口千兆交换机硬件设计原则:保证CPU/内存/IO/网络带宽均衡,无瓶颈服务器预算服务器推荐配置:组件推荐配置CPUIntelXeonE5双路(2*8核)内存128GB/256GB硬盘12*2TBJBOD双RAID卡网络one-port/dual-port

万兆网卡交换机节点数多涉及多级交换机时,保证任意两节点间带宽大约2GB价格:5万-10万Hadoop软件配置1Hdfs分布式文件系统2Yarn负责Hadoop资源管理与调度3Hbase构建在ApacheHadoop和ApacheZooKeeper上的列式数据库4MapreduceMapReduce分布式计算模型5Zookeeper分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务、全局一致性等服务。6Sqoop是一款数据同步工具,主要用于在Hadoop与传统的数据库(mysql、postgresql...)间进行数据的传递(导入与导出)7Kafka高吞吐量的分布式消息系统8spark快速、通用的大数据并行处理引擎(Onestacktorulethemall)9kerberosKerberos是一种网络身份认证协议,可以用于身份鉴别以及用户单点登录(访问多个服务)项目概述01平台建设02平台规划03平台特点04目录平台优势-42

-提供安全设置、审计以及报警,监控等策略保障系统高安全,高可靠集群快捷安装部署与扩展本地开发,自动化打包与部署性能指标一目了然多组件多计算服务模型,高性能保障安全快捷高效平台对比特性CAPHDPCDHMapR其他国产Hadoop云原生(Cloud

Native)yesnononono自动伸缩(auto-scaling)yesnononono自愈(self-healing)yesnononono快速应用发布迭代yesnononono微服务架构yesnonononoSQL标准支持完备性high(HAWQ-DB)lowlowlowlowNoSQL增强yesnononono可扩展性highhighhighhighlow快速扩容yesyesyesyesyes复杂非结构化数据(流数据及图数据)yesyesyesyesyes机器学习yesyesyesyesyes性能比较HAWQFasterImpalaFaster2284666

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论