神州泰岳运维管理解决方案.doc_第1页
神州泰岳运维管理解决方案.doc_第2页
神州泰岳运维管理解决方案.doc_第3页
神州泰岳运维管理解决方案.doc_第4页
神州泰岳运维管理解决方案.doc_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京神州泰岳软件股份有限公司xxxerror! unknown document property name. 目 录1概述62需求分析72.1总体需求分析72.2监控管理72.2.1监控对象分析72.2.2集中故障管理72.2.3资源配置管理82.3服务管理93解决方案概述113.1建设路线113.2产品选型113.2.1监控管理113.2.2服务管理173.3部署方案233.3.1软硬件部署233.3.2组网方案244监控管理解决方案264.1技术架构264.1.1系统逻辑结构264.1.2数据展现层264.1.3数据处理层274.1.4数据采集层284.1.5系统自管理294.1.6采集源304.1.7外部接口304.1.8系统软件模块304.1.9数据处理流程说明324.2功能架构374.2.1监控管理平台374.2.2监控管理专题834.2.3业务监控1105服务管理解决方案1275.1事件管理1285.1.1工作台1285.1.2事件管理流程1295.1.3事件处理流程图1345.2变更管理1345.2.1变更请求1355.2.2变更评估1355.2.3变更审批1365.2.4变更实施1375.2.5回顾和关闭1395.3知识库管理1395.3.1知识的来源1405.3.2知识库维护1405.3.3知识检索和使用1415.4值班管理1415.4.1排班管理1425.4.2值班日志管理1445.4.3交接班管理1455.4.4机房进出记录1456运维管理系统接口实现方案1466.1告警接口1466.2配置资源接口1497解决方案特点与优势1517.1网络管理方案的特点和优势1517.1.1全面、深入的监控和管理手段1517.1.2稳定、灵活扩展的网管平台1517.1.3统一的平台监控和业务监控1527.1.4有效的告警处理机制1527.2运维管理方案的特点和优势1537.2.1统一的运维管理系统1537.2.2对itil理念的深刻理解和人才储备1537.2.3市场占有率第一的电子运维软件平台1547.2.4与本土实践经验的完美结合1548图表目录1551 概述广州xxx化建设投资营运有限公司(以下简称为“xxxxxx”),是面向广州交通领域,集投资、建设、运营为一体的高科技公司。xxxxxx专注于xxx化平台技术开发,xxx网络系统的建设、营运,计算机信息系统集成,软件开发以及智能卡相关产品的开发、应用,建设了包括调度平台、综合管理平台、出租车管理系统等在内的面向交通领域的应用系统,为广州市城市交通的发展做出了积极的贡献。伴随着xxx化平台给交通管理工作带来的巨大支撑,相关的信息化平台已经成为交通管理不可缺少的有力工具。因此,通过建设一套运维管理系统,保障包括调度平台、综合管理平台、出租车管理系统、内部行政网络等在内的信息化平台的it基础架构以及业务应用系统稳定、可靠的运行,为交通管理工作提供持续、有效的支撑,成为xxxxxx迫切的需求。2 需求分析2.1 现状分析2.1.1 资源配置管理资源作为运维管理的核心内容,在运维建设当中需要对资源进行管理,具体包括:u 针对服务器、网络设备、数据库、中间件及业务系统等的资源数据采集。u 创建资源管理数据库。u 资源数据的统计分析功能。u 资源管理与故障管理的关联分析。我方认为有必要在本项目中建设一套完备的配置管理数据库(遵循itil规范中相关描述,即资源管理数据库)。在其中定义和记录各种被管理资源对象实例和相关属性信息,并定义和记录各被管理资源对象间的关联关系。我方认为本项目中至少应提供以下资源配置管理功能:u 提供自动发现工具,能够自动采集各种被管理对象的资源配置数据,形成资源配置数据库的基础数据。u 提供面向对象的资源配置数据结构,能够将各种被管理对象的实例信息和属性信息进行对象化存储,并能够定义各种被管理对象间的关联关系(诸如连接关系、父子关系等)。u 提供图形化界面对资源配置数据进行后台数据结构和资源配置数据的维护与管理。能够灵活的扩展资源类和资源属性,能够添加、删除、修改各种资源属性数据。提供资源数据批量导入接口。u 能够根据资源对象自身属性、资源对象与资源对象间的关联关系等自动对故障级别进行基于预设策略的调整。如对于重要的核心服务器设备自动提高告警级别、对于双机系统中的非关键故障自动降低告警级别等。u 提供资源数据条件查询功能和资源统计分析报表功能,帮助运维人员充分了解当前it系统中各类被管理资源对象的状况。我方认为资源配置数据库必须作为整个解决方案的基础来进行重点建设。无论故障管理模块根据资源属性和资源关联关系进行自动的故障级别调整,还是性能管理模块基于资源对象模型进行指标体系建模,都需要依赖于资源配置管理数据库中的数据结构和基础数据。2.2 服务管理广州xxx化建设投资运营有限公司以服务广州xxx化为宗旨,利用现代信息技术手段改造传统的交通产业,为广州市城市交通的发展做出了贡献。在企业内部信息化建设的同时,企业信息化的管理同样需要规范化的指导和电子化的工作方式。itsm是基于itil理论指导的it服务管理最佳实践。在it服务管理建设中利用itil的服务流程处理日常工作任务,可以大大减少企业it运营的成本,提企业it运营的效率。 在本项目建设中,我方将实施itsm中的事件管理流程以满足it系统及终端的故障处理,实现故障的申报、处理、完成和关闭。利用itil理论中故障事件处理的升级机制和闭环原则,实现故障处理过程中人员的合理配置,同时保证故障处理的完整性,从而提升it运维部门及企业的价值。在本期项目中我方还建议用户建立变更管理流程,以实现如日常软件升级及版本更新的流程电子化。同时建立知识库和值班管理已满足用户日常维护工作的需要,提升工作效率。3 解决方案概述3.1 建设路线对于xxx运维管理工程建设,包含了系统监控管理平台和服务管理平台,其中:u 监控管理体系负责监控各种网络设备、主机、数据库、中间件、业务应用的资源配置采集和调度、配置变更报告、运行状态监控、性能参数收集、事件分析和关联、告警处理和前转等。本管理体系包括拓扑展现、故障管理、性能管理、资源管理、用户模拟体验等监控管理功能。u 服务管理实施itsm中的事件管理流程以满足it系统及终端的故障处理,实现故障的申报、处理、完成和关闭。利用itil理论中故障事件处理的升级机制和闭环原则,实现故障处理过程中人员的合理配置,同时保证故障处理的完整性,从而提升it运维部门及企业的价值。监控管理平台和服务管理平台通过告警接口实现对故障的申报、处理、完成和关闭。3.2 产品选型3.2.1 监控管理 软件选型ultra-nms采用java语言开发,其产品模块均可以跨平台部署,能够支持windows、linux、aix、hp-ux、solaris等各种操作系统,可以广泛的支持大中小各种规模的企业。在网管的软件选型方面,我们推荐采用bmc performance manager和神州泰岳ultra-nms的组合。ultra-nms采用java语言开发和j2ee架构,中间件采用jboss,数据库采用oracle,而web服务器采用apache;bmc performance manager采用c语言开发,执行效率高、系统影响小,在部署时不需要其他的第三方软件支持。其中bmc performance manager作为分布式监控代理程序,被广泛的部署在各个被管理服务器上,负责监控操作系统、数据库、中间件和应用;ultra-nms作为集中网管平台,通过probe进行采集bpm提供的系统平台的监控数据、网络设备监控数据和桌面监控数据,ultra-nms server进行各种数据处理,ultra-nms client和report进行数据展现。采用这样的产品选型,具有如下优势:r 灵活的部署ultra-nms可以支持灵活的部署模式,包括两级部署、三级部署、混合部署,甚至可以支持部署模式的变化,能够适应不同的用户在不同阶段的管理需求。无论采用什么部署模式对于bmc performance manager是没有影响的。ultra-nms支持各种unix、linux和windows,对于硬件和操作系统没有依赖性,这样使得xxxxxx在对服务器选型时可以不受限制,这不仅有利于新增设备的采购,而且有利于原有服务器设备的利旧。r 广泛的认可ultra-nms是成熟的产品化的网管平台,其一个产品相当于国外产品的多个产品组合,是目前最优的网管平台产品。目前已经在电力、石油、电信、金融、政府、媒体等各种行业中广泛使用。r 优秀的监控代理u bmc performance manager在安装监控代理时,对操作系统没有特殊要求,不需要额外安装系统补丁,对业务系统几乎没有影响。u bmc performance manager产品线齐全,支持各类主流平台系统与数据库系统,如aix、solaris、hp-ux、tru64、windows和linux;oracle、db2、informix、sybase、sql server等;bmc performance manager产品提供对各种主流中间件,如tuxedo、weblogic、websphere、mq的监控管理。u 可扩展性强:bmc performance manager管理功能的实现是取决于各个km,而每个km是采用psl(patrol script language)脚本语言编写而成的,psl脚本语言编写采用明码方式,类似unix系统中的脚本语言或c语言。performance manager自身提供km的开发机制,这样无论是学习km的实现方式、扩展km的管理功能、或新编写km都是比较容易完成的工作。而所有扩展的km与performance manager自带的km工作方式完全一致。u 采集方式统一:performance manager的每项管理指标的实现均由不同的km完成,通过在不同的主机上加载相关的km,实现管理目标。u 处理方式统一:performance manager采用了单一agent技术,所有km以插件方式load到指定的agent上,由performance manager根据定义好的轮询策略,定时采集相关kpi指标的值或状态,并统一存放在被管服务器指定位置,在打开performance manager console连接相应agent时,将存放在被管服务器得到数据进行展现,同时,bmc performance manager提供统一的历史数据处理功能,在每个agent端内置有data retriever模块,该模块定时将agent采集到的数据发送到安装了performance manager reporting data aggregator模块的服务器,并通过该组件将数据存入performance manager reporting产品所在的oracle数据库中。u 展现方式统一:performance manager console采用了统一的左树右图的方式展现所有kpi指标,同时可以针对不同指标的特点选用折线、柱图、表盘等方式展现数据,可以在图表上显示不同级别的告警门限,也可以通过定义管理夹的方式对kpi指标根据实际运维使用习惯进行重新整理,将不同机器的相同kpi指标同时放在右侧的panel中统一展示,以进行快速的比较,也可以将同一机器中的相关kpi指标在同一panel中展示,以迅速定位性能瓶颈。u 调度方式统一:由于规范中对不同kpi指标要求的数据采集最大时间间隔不同,同时在实际项目中,也会经常调整采集频率,performance manager console提供图形化界面,方便的定义和修改采集间隔。u 通讯加密:performance manager console与agent之间的通讯可以采用加密算法,并且随用户需求不同可以选择高、中、低三种不同的加密算法。u 数据保存:performance manager agent在本机采集数据后,会将数据保存在本地,以实现对历史性能数据的重采、补采机制。u agent间连通性测量:维护人员经常需要了解设备间的连通性,如采集机和服务器之间连通性,performance manager产品默认能够提供监测本机与其它设备连通性测试功能。u 资源占用:由于performance manager采用了单一agent、单一进程的技术,cpu和内存占用都很低,正常状态下cpu占用不超过2%,内存占用不超过25m。u 自动分发:performance manager中提供distribution server组件,通过该组件能够自动向指定的被管服务器批量分发performance manager for servers、performance manager for database等软件,无需进行人工干预即可完成产品的安装工作r 统一的配置服务ultra-nms基于先进的资源建模的技术上实现cmdb,不仅能够记录it基础架构中的各个实体对象,而且能够创建虚类,管理各种虚对象,完整的记录所有的配置项configuration item(ci)和它们之间的关系,让用户对现有的it基础架构有最完整和全面的了解。ultra-nms中的资源管理不是仅仅为了记录配置数据而建立cmdb,而是建立了cmdb后能够为网管内部其它模块和外部其它系统提供有效的配置服务,包括:u 配置数据一致性检查:虽然建立cmdb非常复杂,但是对于cmdb中海量的配置数据与现实环境中的配置数据的一致性检查更加复杂。ultra-nms能够定义自动化的配置采集和调度任务,时刻监控现实环境中配置变化,及时更新cmdb中的配置数据。当现实环境中配置发生变更时,记录配置项的变化历史,同时提供配置变更告警,提示管理员关注。u 面向故障管理提供配置服务:配置管理数据库cmdb中记录着很多有价值的信息,例如负责人、负责部门、地理位置、重要程度等信息,而这些信息是在故障管理的告警中必须体现,但是单纯依赖故障管理又很难实现的。ultra-nms开发出故障管理配置服务技术,能够在原始的故障事件中,自动增加相应的配置信息,实现人性化的故障告警,并且智能的定义故障告警的级别,为故障管理提供有效的支持。u 面向性能管理提供配置服务:性能管理中,ultra-nms没有象其它的产品那样简单的基于每个性能指标开发功能,而是建立了kbp/kpi的指标体系,其中kbp就是资源管理cmdb中的配置项ci,这大大增加了性能管理的可扩展性和实用性。u 面向服务台提供配置服务:在所有的运维管理系统中,都需要部署服务台和网络系统管理,这二者都需要建立cmdb,现在大部分的系统都是分别建立cmdb,这样不仅仅是造成重复建设,而且会造成数据的不一致和冲突。ultra-nms的配置服务技术不需要服务台自己建设cmdb,可以由ultra-nms直接向服务台提供配置数据和信息,实时提供最准确的配置项的属性信息,形成完美的运维管理方案,降低运维管理的成本,提高运维管理的水平。u 配置数据报表:配置服务还可以向运维管理门户提供报表数据,为运维分析提供配置管理方面的基础数据。r 有效提炼信息信息提炼就是对采集的数据进行处理后形成有用信息的过程。在故障管理中,ultra-nms采集到的事件需要通过标准化、分类、合并压制、过滤、相关性分析、前转、升级等多级处理后,能够提供有效的故障信息。r 扩展性 附图1. 具有扩展性的体系架构神州泰岳总结多年的运维经验,创新的设计出可扩展的体系架构:u 扩展的数据采集:ultra-nms在数据采集方面提供多种接口,包括corba、snmp、jdbc、web services、jms、ftp、mml等,无论业务应用是什么、被管理对象如何变化,只要它有接口,ultra-nms就能够采集到数据;u 扩展的数据处理:ultra-nms在采集到数据后,能够灵活的定义、存储和处理各类不同的对象数据,无论业务和指标如何变化,ultra-nms均可以完善的整合配置、故障和性能数据;u 扩展的数据展现:ultra-nms的数据展现能够按照客户和业务的需求定义,不仅仅报表能够定制,而且监控的界面、数据展现的形式都能够方便的灵活定义。ultra-nms与其它的产品比较,具有更加扩展的管理能力,使得它不仅仅能够像其它的产品一样监控标准的网络设备、操作系统、数据库、中间件和商业化的应用软件,而且能够扩展的监控业务应用。在为客户的项目实施中,收到了非常好的效果,使得这些客户在运维管理方面达到了国内领先、国际一流的水平。在主流厂商代理中,bmc bpm具有最强的扩展性,能够方便的扩展监控对象;ca unicenter虽然能够通过sdk提供一定的可扩展能力,但是需要自定义私有mib、通过标准c开发新的agent,开发周期长、稳定度不好保证、对开发者要求高;hp openview通过spi提供一定的可扩展能力,但是spi实际上只提供一个打包的功能,国内使用spi开发的案例极少;ibm tivoli基本没有任何的可扩展能力,而新收购的itm6整合后运行不够稳定,不能满足国内用户的个性化需求。r 集成性u 内部集成能力ultra-nms具有很好的内部集成能力,能够提供数据和信息的集成,包括配置与告警的集成、故障与性能的集成、系统信息与业务信息的关联等等。例如:计费业务中,包括预处理、一次批价、二次批价,这其中与系统平台告警和业务应用告警都紧密相关,因此需要关联分析才能得到有用的监控信息。u 跨厂商集成能力ultra-nms具有跨厂商集成能力,有集成bmc、ca、hp、ibm网管系统的能力和项目经验,也可以提供接口与其它网管系统集成,能够在最大程度上保护现有和未来的投资,为网管系统提供最广泛的选择,确保上下贯通的接口。u 外部集成能力ultra-nms可与服务管理平台实现双向事件告警集成,包括服务管理平台受理事件后反向确认告警接口、服务管理平台工单执行完毕后清除网管告警接口等;ultra-nms可以提供服务管理平台统一cmdb的配置接口;ultra-nms可以支持与运维门户之间的统一身份认证的接口。r 客户化ultra-nms具有很强的客户化能力,当用户新提出需求时,具有定制和开发的能力,可以按时按质满足用户的要求。u ultra-nms产品本身具有足够的扩展性u 神州泰岳具有本地的定制和开发人员u 神州泰岳在满足客户化需求方面具有非常丰富的经验r 业务监控ultra-nms能够直接采集业务应用指标,也可以通过主流厂商的代理采集业务应用指标。在主流厂商代理中,bmc bpm提供统一的、完全基于面向对象思想的被管对象模型,提供知识模块km体系和psl语言,提供了非常强大的可扩展能力。其它厂商的代理或者不具备监控业务能力,或者进行业务监控非常复杂,不推荐采用。如果需要监控业务应用,可以采用bmc bpm或者ultra-nms进行采集,然后由ultra-nms负责处理和展现。例如,我方在新华社运维系统中,提供对稿件全程流转的监控管理与关联性分析,实现资料采编、加工、共享、审改、签发、广播过程监控,可用管理稿件名称、传输来源、目的、成功/失败、签发人、签发时间等各个关键指标,为其核心业务的畅通提供有力支持。 硬件选型根据xxxxxx监控对象规模结合我方项目经验,建议监控管理系统:u 服务器采用1台dell poweredge 2950,配置2颗双核cpu,4g内存,4*146g硬盘;u 服务器安装ms windows 2003 server操作系统软件;u gsm短信发送模块。3.2.2 服务管理 remedy软件.1 remedy概述remedy是市场占有率最高、最先通过itil认证、功能最强大的服务台产品,是最优服务管理流程的电子化支持平台,在itil最佳实践经验的指导下,密切结合本地、本行业特定的个性化需求进行定制和二次开发,为将来的深入和扩展留下余地。附图2. gartner group分析报告从该报告可以看出,从易用性和完整行两个方面综合考虑,remedy和ca产品排在前面。这也与其市场占有率情况是一致的。.2 remedy ar system从itil和服务管理业务角度看,事件管理和问题管理流程具备不同的特点和要求,区别很大;但是从实现技术角度看,其核心均是记录某类不同信息的表单在不同部门、人员或角色之间流转。“服务管理就是简单的工单管理”、“利用oa工作流软件可以很容易地实现运维流程”等错误认识的根源就在于忽略了业务层面的特点和复杂性、仅从技术层面考虑问题。remedy ar system的技术架构为同时支持css/bss的三层架构,如下图所示:u 客户层 remedy ar system的客户层不但支持windows 用户界面,也支持浏览器web界面,同时还支持pda和wap设备;u 中间层mid-tier 中间层主要提供jsp引擎和转换器,允许用户通过internet 访问服务器;u 服务器层 服务器层是整个系统架构中的核心层,主要负责控制工作流以及与数据库交换数据的工作;u 数据层 数据层主要为服务器层提供数据源和数据存储。附图3. remedy ar system结构remedy ar system不是通用的工作流引擎,而是专门针对运维支持和客户服务业务开发的。它面向这种业务的特有需求,沉淀吸收了多种易于高效处理业务逻辑的数据结构与算法。 其设计思想与实现方式是面向表单的,以表单的流转为核心,而不是以完成事件自动触发为核心的。remedy ar system本身是功能强大、灵活、简便易用的服务管理应用开发平台,它采用多层应用程序编写和提交平台,允许管理员在无需了解任何数据库系统知识的情况下建立新的业务流程系统。利用remedy ar system进行应用开发,不需要编写任何代码,通过拖拽方式在图形化的管理员界面就能实现。系统管理员在听取和理解业务需求后,可以在remedy界面上一次完成设计和设置,把业务逻辑和要求直接映射到系统中。这是remedy与其他服务台系统的本质区别。remedy ar system提供类似于vb中的form的开发界面,允许用户通过拖放对象到工作区的方式来实现界面布局和输入项的设计和开发。随着界面域的拖放操作,随时完成数据表和字段的创建和修正,既不需要“预留字段”、又不需要重启系统。remedy ar system提过active link、filter、escalation等对象实现界面逻辑和约束条件的控制、后台业务逻辑驱动等,非常直观、简便。如下功能特点使remedy ar system不但大大超越notes、websphere等中间件,而且在服务台产品中也显得鹤立鸡群。r 无需编码的开发方式使用户自行定制和修正流程成为可能remedy是以工单为核心的工作流引擎,工单和流程的定义无需编写程序代码,是通过gui界面托拽方式实现的,这使得用户管理员自行定义和修正工单、流程成为可能。实际业务中工单数量众多、界面和流转要求复杂,随着时间和业务的变化,工单的种类会不断增加、要求会不断变化。只有remedy提供的无需编码的流程定义方式,才能不断调整自己,跟上和适应这种业务的需要。r 一次定制开发、同时应用于client和webremedy的gui应用和web应用都是在统一平台上开发定制出来的,由remedy自动生成web执行代码。任何一个form都可以定制若干个显示风格,然后根据登录人角色的不同显示不同的界面。这样其他服务台产品形成了较为鲜明地对比。r 强大集成能力ar系统丰富的集成功能使用户能够利用数据库、传统应用程序及其他数据源中宝贵的企业信息。ar系统不仅支持大量与领先的erp、hr和crm解决方案通用的现成集成,还提供各类集成接口,如公开的api、odbc、web服务等。此外,广泛的remedy联盟伙伴网可以提供补充的解决方案,从而进一步扩展用户的解决方案。与ar系统集成的方法包括:u web service接口:自行定义的任何过程均可以发布为web service,与其它系统集成。u api 服务器端ar系统的api是该方法中最重要的技术。它需要c编程知识。然而,这很强大,并提供对所有ar系统服务器功能使用的能力。它提供与remedy的高性能紧密集成。u 命令行接口 命令行接口在大多数ar系统客户端工具中都是可用的。这就允许启动一个工具并传递一系列参数,而该工具或者是一个特定的状态并显示一些特别信息或执行一个完整进程后退出而无须有用户界面显示。命令行接口方式用在许多集成项目中。u ole自动控制 ar系统用户工具支持ms windows的ole自动控制。它可以是自动控制服务器或客户端。这就允许ar系统发送或接收命令或数据到其他的应用。u 动态数据交换 ar系统用户工具支持ms windows的dde。它可以是dde服务器或客户端。这就允许ar系统发送或接收命令或数据到其他的应用。u 运行外部进程 在ar系统工作流中提供的动作之一是运行进程。ar系统利用其他应用的命令行接口运行这些应用并传递初始数据。在这些例程中,启动第三方应用的同时在其他应用中ar系统等待一个响应。u 相关数据库访问 ar系统数据库是全开方式的。拥有许可的第三方工具能够访问任何信息。此外,ar系统工作流能够查询数据库以获取数据。odbc访问,odbc是微软提供的用于访问sql数据库。使用remedy odbc驱动,任何能够通过odbc进行访问的客户端对于ar系统的窗体内的域都具有只读权限。u email messaging 在ar系统数据库中,电子邮件能够生成新的记录,也可以根据现有记录状态进行查询。作为一种方式,它也可以用于发送信息。 ultra-itsm系统软件ultra-itsm系统软件是我司吸收itil服务管理运维的思想结合多年it服务管理实施经验,采用国际最先进的流程平台remedy,在保留remedy原有特性基础之上预研的it服务管理流程平台。ultra-itsm系统软件不仅符合itil标准要求,含itil标准的服务台、事件管理、问题管理、变更管理、配置管理等,还在此基础上开发出日常运维管理模块,包括知识库管理、值班管理、作业计划管理,对运维人员的日常工作带来高效便捷。附图4. ultra-itsm系统架构图ultra-itsm系统软件具有良好的扩展性,可以根据用户的需求进一步进行个性化定制,满足不同要求不同行业用户的需求。在此期项目中我方建议采用的ultra-itsm系统软件模块包括:事件管理、变更管理、知识库管理。 硬件设备根据我方项目经验,建议服务管理流程系统采用硬件服务器dell2950,配置2c,4g,148*4g。3.3 部署方案3.3.1 软硬件部署r 硬件部分u 在xxxxxx网络机房部署两台dell poweredge 2950(2颗双核cpu,4g内存,4*146g硬盘,双网卡)分别作为监控管理服务器和服务管理服务器;u 两台服务器安装ms windows 2003 server操作系统;u 在监控管理服务器安装gsm短信发送模块;r 软件部分u 监控管理系统监控系统监控服务器作为应用/数据库服务器,在其上部署如下软件: 1套ultra-nms server 1套ultra-nms probe 1套ultra-nms report oracle 10g标准版数据库软件; 部署bmc performance manager for servers实现对自身的监控;在被管的主机上,部署如下产品: unix主机:patrol for iseries; windows、linux主机:bmc performance manager for servers;u 服务管理系统服务管理服务器作为应用/数据库服务器,在其上部署如下软件: bmc remedy ars服务器软件; ultraitsm事件管理、变更管理、知识库管理模块; oracle 10g标准版数据库软件; ms windows 2003 server操作系统软件3.3.2 组网方案我方建议配置的两台dell poweredge 2950服务器作为集中监控服务器和服务管理服务器,通过双链路分别连接到xxxxxx网管交换机上,接入xxxxxx的业务网络。 附图5. 运维管理系统组网方案图u 与两台交换机连接可以实现集中监控系统的网络冗余,从而达到提高系统可靠性的目的;u 调整防火墙策略、路由协议、acl策略等,使集中监控服务器能够通过网络连接访问本项目所涉及的各类被管理对象u 为了将监控管理系统的告警及时发送到维护人员的通讯设备终端上,配置了gsm短信模块,与监控管理服务器连接。当有需要发送的告警是,会自动通过gsm短信模块发送到维护人员的通讯设备终端上。u 从网络安全方案考虑,利用xxxxxx现有网络安全设备提供对监控管理系统和服务管理系统的安全防护,并通过vlan划分、服务器加固等方式提升系统安全性。4 监控管理解决方案4.1 技术架构4.1.1 系统逻辑结构我方推荐的集中监控系统可以清晰的划分为以下3个层次、6个部分,分别为数据展现层、数据处理层、数据采集层、采集源、系统自身管理和外部接口。附图6. 系统逻辑结构示意图4.1.2 数据展现层数据展现层主要用于网管平台向最终用户提供人机信息交互,包含了管理控制台和数据报表两个部分。我方推荐的解决方案中,管理控制台采用了基于java web start技术的c/s界面,提供了拓扑展现、故障管理、资源管理、性能管理等管理数据查阅和管理策略配置功能;数据报表采用基于jsr168的门户技术进行报表展现组织和发布,并提供了报表订阅、报表模板定义、自动报表生成、报表查询、报表管理等功能。附图7. 数据展现层软件模块组成图4.1.3 数据处理层数据处理层提供了故障管理、资源管理、性能管理、采集通信适配等功能模块,并提供了资源对象和数据存储两个核心管理逻辑数据库(物理上是一个数据库)。故障管理提供了告警重定义、告警前转、告警传递、告警关联分析、告警处理知识库、告警统计查询等功能模块。结合数据采集层的告警数据预处理模块,完全能够满足本项目对告警数据处理的要求。资源管理提供了资源建模、资源属性维护、资源数据校验、资源对象关联、资源统计查询、资源数据自动采集接口、资源数据手工录入接口、资源数据批量导入接口、资源变更、资源告警等功能模块。性能管理提供了性能指标定义、性能门限设定、性能数据计算、性能数据汇总、性能数据统计查询、性能门限告警等功能模块。通信适配用于同数据采集层间的通信,包括采集策略的下发和采集数据的获取。采用的通信方式包括jms、rmi等。附图8. 数据处理层软件模块组成图4.1.4 数据采集层数据采集层在获取数据处理层下发的数据采集策略后,对各种采集源的数据进行获取和预处理,并提供给数据处理层进行处理。具体包含采集适配层、数据预处理层、采集任务管理层和通信适配共4个部分。采集适配层提供数据采集模块与采集数据源间的数据采集接口适配,主要包括:snmp采集适配、jdbc/odbc采集适配、telnet/ssh采集适配、ftp/tftp采集适配、soap采集适配、syslog采集适配、wmi采集适配、corba采集适配、netflow/cflowd采集适配、其他采集适配等。数据预处理层对采集适配层获取的数据进行初步的处理,对原始数据进行过滤,并通知采集任务管理层进行必要的数据补采。主要包括:告警预处理、资源预处理、性能预处理和阈值预处理模块。采集任务管理层对来自于数据处理层的采集任务进行解析、拆分,并直接控制和监控采集适配层对数据源进行采集。主要包括:采集任务解析、采集任务拆分、采集任务调度、采集任务监控。通信适配层用于同数据处理层进行网络数据通信,包括采集策略的获取和采集数据的上传。采用的通信方式包括jms、rmi等。附图9. 数据采集层软件模块组成图4.1.5 系统自管理我方推荐的解决方案中提供了7个辅助功能模块,用于保障整个系统的运行,包括数据维护、数据备份、日志服务、安全服务、通讯服务、策略服务和自监控。数据维护模块包括指标建模和指标维护等功能;数据备份模块用于对运维数据进行备份管理;日志服务模块用于记录网管平台中的所有配置操作和系统运行数据,并提供图形化的界面供运维人员审计查询;安全服务模块提供用户认证、用户授权、帐号管理;通讯服务提供各个模块之间通信的基础服务;策略服务提供策略的制定、下发和运行;自监控模块用于对网管平台自身的可用性、性能等进行监控,并在发现问题时通知相关运行维护人员或进行一定的自动处理。附图10. 系统自管理软件模块组成图4.1.6 采集源采集源主要包括两类:第一类指由被管理软硬件设备提供的标准管理接口,如snmp、syslog、wmi、jdbc、jmx、corba、telnet、ftp、jms、rmi等。第二类指被管理软硬件设备无法提供标准管理接口或标准管理接口不足以提供足够管理数据时,ultra-nms通过第三方监控管理产品获取相关管理数据,监控管理产品包括bmc bpm。4.1.7 外部接口集中监控系统不是一个孤立的系统,与其系统的接口支持db、web service、snmp、trap、ftp、xml、jdbc等协议。例如webservice、snmp trap协议适合与实时性要求高的数据传送,ftp+xml方式适合与数据量大的方式数据传送,同时我方也支持开放数据库的db接口。附图11. 外部接口示意图如上图所示,集中监控系统默认提供对主流遵循itil标准的运维流程管理平台产品的接口,通过六类双向接口构建闭环的故障管理流程。4.1.8 系统软件模块集中监控系统包括ultra-nms probe、ultra-nms server、ultra-nms client和ultra-nms report 4个软件模块。r ultra-nms probeultra-nms probe是集中监控系统的分布式数据采集模块,它能够直接采集网络设备、监控代理、桌面、业务等被管理对象的数据,支持snmp、syslog、wmi、jdbc、jmx、corba、telnet、ftp、jms、rmi、netflow等多种协议,通过snmp采集网络设备的各种配置和性能数据,通过主动的状态轮询和被动接收snmp trap和syslog采集告警信息,支持主流系统管理软件数据接入。r ultra-nms serverultra-nms server是集中监控系统的数据处理服务器,内置jms服务器和rmi服务器,通过ultra-nms server实现各种业务逻辑处理、操作和配置。r ultra-nms clientultra-nms client是集中监控系统的数据展现模块之一, 它不需要通过专门介质安装,可以通过web浏览器访问ultra-nms server即可下载安装。它是一个用java开发的c/s结构的客户端,主要用于实现网络拓扑、应用拓扑、故障监控与处理、性能数据的展现、配置数据的维护与查询、各种管理规则的配置、用户与权限管理、kpi指标的维护、系统自管理等监控和操作功能。r ultra-nms reportultra-nms report是集中监控系统的数据展现模块之一,用于对各种历史数据进行各种维度的计算和各种时间粒度的聚合,同时通过相应的调度程序,定时生成报表展现所需的各种数据。同时,report还包含综合网管门户portal,通过b/s结构,实现各种信息的查询、统计和分析,并提供各类固定报表的展示、转化和打印等功能。4.1.9 数据处理流程说明 告警管理附图12. 告警数据流向图ultra-nms probe采集探针接收下发的采集策略,将采集结果进行预处理上传给数据处理层。在此过程中ultra-nms probe对数据采集任务进行调度,定期执行采集动作和结果上传。下面以采集、处理到呈现为例示意说明告警处理和故障分析流程。u 采集模块在定期采集中被动接收到原始事件(snmp trap,syslog)或者主动获取到一条告警事件(snmp polling,ping)。u 采集模块将原始事件进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。u 采集模块在本地进行原始事件记录,将数据记录在内部缓存中,并通过jms将事件信息发送到数据处理层。u 数据处理层对将原始事件进行标准化,并且通过配置服务加入各种资源配置信息。此时成为一条标准事件,并已经具有告警级别,但这个标准事件还不是告警。u 性能管理和配置管理中的告警会直接以标准事件的形式进入告警管理。u 事件标准化后,进行告警事件分类。u 数据处理层对标准事件进行处理,为了防止事件风暴,数据处理根据所配置的规则进行过滤,之后进行压制和合并,然后进行配对分析,如果是一条新的告警,则进入相关性分析模块(见下一步骤),如果是一条已有告警的清除信息,则调用数据管理层的api进行告警清除。u 相关性分析模块根据已有告警和本告警,再根据存储的资源对象和资源对象之间的关联关系,进行根源分析和影响度分析,得到一条对用户直观有意义的真实告警,然后调用数据管理层的api进行告警生成。u 数据处理层在告警生成和清除的api触发的同时将告警以jms消息通知数据呈现模块,由数据呈现模块来实时展示当前告警和变化拓扑颜色(即告警颜色传递)。u 告警生成和清除的同时,数据处理层还可根据规则配置将告警以mail、短信等方式的通知管理员,如果规则中配置了需要实时进入服务管理平台,则该告警将被实时派发到工单中。u 对于已经产生的告警,数据处理层还进行定期告警升级的检查,当某一告警超过时限未解决时,将进行告警级别的提升,并触发和告警生成同样的处理流程。u 数据处理层将根据当前告警和历史进行统计分析,作为系统的更好运行和预测的基础数据,同时将告警中的同类事件进行处理结果的知识库管理。u 数据处理层根据当前告警自动形成网络和业务的健康报告,定期/实时提交给用户。 配置资源管理附图13. 配置资源管理数据流向图ultra-nms server配置资源模块是本解决方案的核心,下面以采集、处理到呈现为例示意说明资源的数据流程。u 采集模块在定期任务调度中采集到原始配置信息,可能是监控程序、snmp等方式获取到。u 采集模块将原始配置信息进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。u 采集模块本地进行原始信息记录,将数据记录在内部缓存中。u 采集模块通过jms消息将配置资源信息发送到数据处理层,对于内容较大的数据,采用rmi方式上传。u 数据处理层对jms消息拆解,拆解成功然后进行数据完整性校验和归一化处理。u 数据处理层将当前接收到的数据和资源模型中的数据进行比对分析,如果不一致,则进入配置审计和变更流程,如果不存在,则进行资源对象和关系的创建。u 配置审计模块在发现配置数据和资源模块中存储的数据不一致时,将发送类别为配置信息变更的告警,该告警进入标准的告警处理流程。u 在资源对象增删改或者资源关联关系增删改的过程中,数据处理层以jms消息通知数据呈现模块,供数据呈现模块实时更新拓扑图和资源的信息展示。 性能管理附图14. 性能管理数据流向图ultra-nms server性能管理模块是本解决方案的重要部分,下面以采集、处理到呈现为例示意说明资源的数据流程。u 采集模块在定期采集中采集到原始性能信息。u 采集模块将原始配置信息进行预处理分析,协议解析,同时分析时间戳,如果不能获取到时间戳,则用采集服务器当前时间作为时间戳。u 采集模块本地进行原始信息记录,将数据记录在内部缓存中。u 采集模块通过jms消息将性能管理信息发送到数据处理层,对于内容较大的情况,采用rmi方式上传。u 数据处理层对jms消息拆解,拆解成功然后进行数据完整性校验和标准化处理。u 数据处理层将当前接收到的数据和资源模型中的kpi体系数据进行集中分析,按照kbp/kpi体系进行性能数据组织,并对历史性能数据进行入库。并同性能门限进行比对分析,如性能指标超越门限则调用告警生成api,生成性能门限告警。u 数据处理层提供了性能统计分析、性能门限设置、影响度分析、指标体系设定等功能模块,对性能管理策略进行维护。当用户访问数据展现层中的性能管理模块时,数据处理层以jms方式向数据展现层提供历史性能展现数据。4.2 功能架构4.2.1 监控管理平台 自动发现网络管理工作的第一步就是建立全面的、体现关联的、面向用户的、可维护的资源清单,后续开展的所有管理工作都应基于资源清单之上进行。在现实环境中,用户要管理的网络规模往往都过于复杂,因此在ultra-nms中,为用户提供了自动发现机制,管理员只需在客户端进行简单的设置即可由系统自动完成资源清单的初始化工作。ultra-nms的自动发现功能主要是利用icmp, snmp, ftp、http、wmi、ospf、hsrp、telnet、cli、cdp等协议标准,对被管设备节点进行ip、网段甚至全网的批量自动发现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论