网络设备巡检服务工作规范.doc_第1页
网络设备巡检服务工作规范.doc_第2页
网络设备巡检服务工作规范.doc_第3页
网络设备巡检服务工作规范.doc_第4页
网络设备巡检服务工作规范.doc_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

。XX信息中心网络设备巡检服务工作规范(H3C设备网络)V1.0信息中心目录1概述52巡检工作流程52.1巡检前期准备62.2数据采集阶段72.3数据分析和报告生成阶段72.4汇报和满意度调查阶段73网络巡检数据采集方法73.1手工数据采集方法83.2网络管理平台数据收集方法83.3巡检工具数据采集方法84网络巡检服务基准数据库的建立85网络巡检工作内容951巡检工作的主要内容952网络巡检工作技术涵盖106网络系统巡检基本判断标准107设备相关信息收集127.1软件版本及硬件信息分析127.1.1当前设备硬件信息137.1.2当前设备运行软件信息147.2设备板卡硬件配置信息分析147.3设备运行状况检查157.3.1设备CPU工作状态检查167.3.2设备CPU利用率分析167.3.3设备MEMORY使用状态检查177.3.4设备MEMORY利用率分析表187.4设备运行状态检查187.4.1电源的工作状态187.4.2风扇的工作状态197.4.3设备工作温度198端口的可用性、准确性检查198.1端口状态检查198.1.1基本网络接口状态分析228.1.2接口半/全双工模式和链路类型238.1.3接口稳定性统计信息238.2端口状态检查表239设备端口负载及流量检查249.1设备缓存信息检查2410 网络架构、配置信息分析2410.1网络结构检查2410.1.1检查内容2410.1.2检查方式2410.2网络配置信息检查2710.2.1检查内容2710.2.2检查方式2711LOG信息检查3011.1标准的LOG格式3011.2LOG日志等级3011.3日志信息分析表30关于文档为保障XX信息中心网络的平稳运行,将在每月进行网络巡检,并根据巡检结果给出相应的网络系统改进和优化建议。本文档面向XX的技术人员和外部支持公司网络工程师,通过参考本文档,共同完成对XX信息中心网络运行状况的检查与分析。通过本文档使XX技术人员和外部支持公司网络工程师充公了解XX信息中心对网络巡检的基本要求,以该规范为参考,使得网络系统巡检工作更加标准化、规范化。由于网络技术的不断发展和设备的更新换代,本规范需要逐步地更新、完善,增加网络设备硬件、软件、固件的新版本和新硬件的内容。同时,随着网络健康服务的不断深入,对网络系统检查的深度和范围也将发生变化,本规范也会逐步地完善。文档适用对象本文档仅适用参与XX网络项目相关技术人员和外部支持公司的网络工程师。1 概述为确保XX信息中心网络安全生产,提升网络服务质量,确保设备的正常运行,将每月对XX信息中心网络设备进行巡检,巡检范围根据巡检工作需要而确定,通过对网络设备的数据采集和分析,能够对XX信息中心网络设备的状态具有更加深入地了解。网络巡检是指通过标准的方法和流程定期地对客户一定范围内的网络进行网元级的系统检查,内容包括现场数据采集、分析、客户报告生成等。通过对关键网元设备的关键检查点参数进行数据采集、并将采集到的数据与有关标准进行比较,从而确定关键网元设备所处的运行状态。通过定期网络巡检,可以及时发现网络中可能存在的隐患,并消灭在萌芽状态。2 巡检工作流程网络巡检工作分为前期准备、现场数据采集、数据分析、报告生成和汇报、满意度调查和问题整改追踪等五个阶段。服务流程如下:2.1巡检前期准备在网络巡检的前期准备阶段,工程师需要在与客户进行充分沟通的情况下,确定要巡检的设备范围及巡检重点,形成网络巡检方案书。网络巡检书至少包括:l 巡检设备范围和巡检工作重点l 巡检各个工作环节的方式l 数据采集的命令集l 协商具体的巡检时间安排l 巡检报告输出样表和图形在得到客户认可的情况下,进入下一阶段的工作。2.2数据采集阶段在网络巡检的数据采集阶段,对于网络数据采集的手段和工具需要得到用户的授权,遵守用户运行管理的相关规定,在指定时间和网络设备范围内进行数据采集工作。在用户的协助下收集相关网元的技术数据,并记录输出结果。2.3数据分析和报告生成阶段巡检工程师对现场采集到的数据进行分析,形成XX信息中心XX中心网络巡检报告。经过南天公司的网络专家审核通过后,由工程师负责以纸质文档或电子文档的方式提交给客户。2.4汇报和满意度调查阶段通过定期交流的方式,讨论巡检工作中发现的问题及隐患,给出网络运行状况的检查、评估及建议,并进行问题跟踪。同时进行客户满意度调查,以便发现和纠正工作中的问题,改进网络系统巡检工作。3 网络巡检数据采集方法网络巡检服务的数据采集方法有两种,一是手工命令采集,并配合网管平台进行辅助性数据采集的方法;一是巡检工具数据采集的方法。3.1手工数据采集方法手工采集就是登录到网络设备上,通过手工输入命令并记录输出结果的方式进行数据采集。为加强手工数据采集的准确性和合理性,需要对数据进行多次,重复性数据收集。如考量CPU的利用率和MEM的利用率等信息,可以采用日起、日中、日结等三个阶段,分时段收集并进行汇总比。对于网络设备运行状态、数据流量等信息的趋势性数据采集需要结合一定时间段数据的采集工作,需要利用网络管理系统进行相关数据的采集工作。3.2网络管理平台数据收集方法通过网络管理系统收集相关的数据,可以进行一个阶段的趋势分析,以便更加准确地了解网络系统的整体运行情况,并可以与手工数据采集的结果进行对比,确保数据采集和分析的合理性和可靠性。3.3巡检工具数据采集方法通过H3C提供的专用巡检工具进行数据采集。该工具集合了常用的设备状态检查的命令,可以自动化收集输出结果,并在后期导出巡检报告。但是需要H3C提供软件及其授权。在没巡检工具软件的情况下,可以由第一巡检方法来替代。4网络巡检服务基准数据库的建立由于网络系统的巡检服务是一个长期的、持续性的工作,首先需要对网络系统具有一定的了解,建立一个基本信息库。主要包括: 设备清单:设备名称、IP地址、位置、功用、序列号等 设备模块硬件配置:模块种类、型号等 设备软件版本 设备使用、维修记录 设备性能基准,包括CPU、Memory利用率、设备端口流量的初始数据等 设备端口信息:相关计数器初始状态通过第一次巡检完成基本信息库的建立,作为以后巡检工作的数据对比性分析的基础和依据,并保持数据更新,动态调整基本信息库的参考点。5网络巡检工作内容51巡检工作的主要内容本项目中,网络巡检工作中涉及的相关内容如下:1) 设备基本信息收集采集设备的基本信息,包括用户定义的设备名称、设备序列号、设备型号、运行的软件版本、内存大小、CF卡的大小等2) 设备运行状态检查主要采集和分析网络设备的CPU、Memory利用率,并在可能是的情况下,观察其变化趋势。3) 设备管理运行环境检查主要通过设备的相关命令收集网络设备的运行环境,主要包括机框内部各个检测点的温度及其变化,电源工作状态和工作输出电压等相关信息。4) 场地环境检查检查设备的运行环境,如机房温度、湿度、设备供电、网络线缆走线等5) 网络设备硬件检查检查设备状态、设备连线状态等6) 网络设备日志检查使用display命令,收集设备运行日志,并做分析7) 核心设备的端口可用性、准确性检查使用display命令查看设备各端口的工作情况,包括端口的输出、输入错误丢包信息等,buffer占用情况和缓冲器溢出现象等8) 核心设备端口负载及流量检查通过网管及其他手段,对设备端口的带宽占用、负载和流量进行统计分析,便于掌握网络设备及其连接线路的情况。9) 网络系统总体性能评估针对巡检的内容及分析结果,对网络运行的整体情况做评估。52网络巡检工作技术涵盖网络系统巡检工作主要涵盖以下技术内容:项目分类参数数据来源设备基本信息软件Comware Version命令采集Bootstrap Version命令采集启动与运行Boot-loader命令采集uptime命令采集硬件Device命令采集Flash命令采集NVRAM命令采集Total Memory命令采集SDRAM命令采集设备运行环境环境温度命令采集电源命令采集风扇命令采集性能CPU利用率Peak Util命令采集AvgUtil命令采集内在利用率Peak Used Memory命令采集Avg Used Memory命令采集线路稳定性网络端口In DropsOut Drops命令采集网络事件LOG6网络系统巡检基本判断标准我们将依照依据华三公司的技术指标和业界遵循的阈值、惯例和相关技术标准,将采集的数据结果与其对照分析,以判断当前网络运转情况是否良好,根据具体发现的问题提出合理改进意见。1) 设备运行记录设备运行时间少于7天的(即运行时间过短的设备)需要关注,有可能发生意外重启,同样对于设备启动时间过长的设备建议维护性重启。2) 设备报警温度3) 电源风扇状态电源正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)风扇正常标准Normal(指示灯为绿色)非正常标准Fail(指示灯为红色)4) CPU内存状态电源(重点关注后两列)H3C建议值巡检建议值变化值关注65%X35%差值大于10%告警75%50%差值大于20%风扇(重点关注后两列)H3C建议值巡检建议值变化值关注75%X40%差值大于5%告警90%50%差值大于10%5) 接口丢包错包率(增量)Input dropOutput dropInput errorOutput error关注0.5%0.5%1%1%告警5%5%5%5%6) 接口负载率7) 防火墙状态检查项目正常值运行时间7 DaysCPU使用率35%内存使用率40%Failover状态Active、Standby会话连接+30%地址转换+30%7设备相关信息收集7.1软件版本及硬件信息分析使用命令display version,查看路由器信息,在巡检过程中用此命令收集来的数据主要作用是: 查看当前设备型号,及当前启动软件版本 查看当前设备已运行时间 查看当前设备引擎内存大小 查看当前设备Flash大小具体关注方法如下:7.1.1 当前设备硬件信息设备硬件信息主要包括如下参数:H3C S7500 with 1 MPC8245 Processor256M bytes SDRAM32768K bytes Flash Memory512K bytes NVRAM Memory(如图第7-10行)当前设备引擎号、内在与Flash大小H3C S7500 LPU with 1 MPC8241 Processor128M bytes SDRAM0K bytes Flash Memory0K bytes NVRAM Memory(如图第18-21行)如果设备有冗余引擎,此处显示7.1.2 当前设备运行软件信息设备软件信息主要包括如下参数:BootROM Version(如图第23行)自启动文件的版本,可用于路由器启动前配置,修改超级管理密码。中低端设备亦称之为Bootstrap。Comware softwareVersion (如图第3行)系统文件的版本,不同的版本支持的功能不尽相同。一般情况下向下兼容。前期设备称之为VRP software Uptime(如图第6行)Uptime列出了该设备已运转的时间,这些信息可以帮助客户判断机器是否发生过意外的重启等7.2设备板卡硬件配置信息分析设备板卡硬件数据采集分析的主要任务是通过检查网络设备的板卡和模块配置,对网络设备的负载、容量和扩展能力进行分析。查看基本信息检查的命令主要有:display device display diagnostic等命令设备硬件统计信息主要包括以下参数:Slot所在位置的槽号Status显示板卡状态SftVer显示板卡上软件的版本设备硬件分析的参考标准Status:当设备启动正常后,所有板卡状态就为Normal,如果有双引擎进行冗余状态配置时状态为一个Master,另一个是Normal。当板卡有故障时此板卡状态有可能显示FAULT或显示不出装载的板卡。7.3设备运行状况检查运行状况检查包括:l CPU的工作状态l 内存的工作状态l Buffer的情况7.3.1设备CPU工作状态检查使用命令display cpu可以检查cpu的利用率,可以得到5秒、1分钟和5分钟的统计结果。内容内容说明CPU busy status交换机CPU的占用率状态18% in last 5 seconds19% in last 1 minute19% in last 5 minutes最近5秒CPU占用率为18%最近一分钟CPU占用率为19%最近五分钟CPU占用率为19%处理器利用率分析的参考建议:这个数值在80%-90%之间时需要引起注意,大于90%时则影响网络稳定性和设备的正常处理。此数值可通过命令行窗口或网管软件采集连续值得出。当CPU使用率偏高时排查各个进程CPU使用情况。7.3.2设备CPU利用率分析通过display cpu命令采集相关设备一天当中三次数据,并对数据进行整理分析得到:序号设备名称一天三个时间段CPU利用率变化范围日起日中日结平均10.00%0.00%0.00%0.00%0.00%23.00%4.00%4.00%3.67%1.00%3【注】:日起数据为08:30-09:00的5分钟CPU的平均利用率日起数据为11:00-12:00的5分钟CPU的平均利用率日起数据为16:30-17:30的5分钟CPU的平均利用率7.3.3设备MEMORY使用状态检查在任意视图下使用display memory或display memory-usage命令可采集相关设备MEM利用率的数据。 display memory slot 0System Total Memory(bytes): 197932416Total Used Memory(bytes): 65234704Used Rate: 32%H3Cdisplay memory-usage Memory utilization statistics at 2011-08-12 15:52:09 200 ms System Total Memory Is: 171774608 bytes Total Memory Used Is: 128234928 bytes Memory Using Percentage Is: 74%内容内容说明System Total Memory(bytes)系统的内存总大小,以字节为单位Total Used Memory(bytes)已经使用的内存大小,以字节为单位Used Rate已经使用的内存所占的比例另外,可以用display memory limit显示内存配置消息 display memory limitCurrent memory limit configuration information:system memory safety: 40 (MBytes)system memory limit: 30 (MBytes)auto-establish enabledFree Memory: 108120672 (Bytes)The state information about connection:The times of disconnect: 0The times of reconnect: 0The current state: Normal7.3.4设备MEMORY利用率分析表使用display memory 命令采集相关设备一天三次MEM利用率的数据,并进行数据比较,从表中看到内存占用是否稳定,并关注其变化范围。序号设备名称内存(KB)日起日中日结平均变化范围127.4设备运行状态检查7.4.1电源的工作状态使用display power 命令查看电源状态是否正常,电源是否冗余。 display powerPower 1 State: AbsentPower 2 State: NormalPower 3 State: Absent7.4.2风扇的工作状态使用display fan命令查看风扇状态是否正常。 display fanFan 1 State: Normal7.4.3设备工作温度使用display environment命令,查看设备内部板卡、机框的工作温度是否正常。 display environmentSystem temperature information (degree centigrade):- Board Temperature Lower limit Upper limit 1 30 10 70 3 43 10 80 5 33 10 70 8端口的可用性、准确性检查8.1端口状态检查使用display interface 查看设备端口运行状况。在巡检过程中用此命令收集来的数据的主要作用是: display interface Ethernet2/0/1Ethernet2/0/1 current state : DOWNIP Sending Frames Format is PKTFMT_ETHNT_2,Hardware address is 000f-e20f-3f11The Maximum Transmit Unit is 1500Media type is twisted pair, loopback not setPort hardware type is 100_BASE_TXUnknown-speed mode, unknown-duplex modeLink speed type is autonegotiation, link duplex type is autonegotiationFlow-control is not enabledThe Maximum Frame Length is 1536Broadcast-suppression ratio: 20%Allow jumbo frame to passPVID: 1Mdi type: autoPort link-type: accessTagged VLAN ID : noneUntagged VLAN ID : 1Last 300 seconds input: 0 packets/sec 0 bytes/secLast 300 seconds output: 0 packets/sec 0 bytes/secInput(total): 0 packets, 0 bytes- broadcasts, - multicastsInput(normal): 0 packets, 0 bytes0 broadcasts, 0 multicastsInput: 0 input errors, 0 runts, 0 giants, 0 throttles, 0 CRC0 frame, - overruns, - aborts, - ignored, - parity errorsOutput(total): 0 packets, 0 bytes- broadcasts, - multicasts, - pausesOutput(normal): 0 packets, 0 bytes0 broadcasts, 0 multicasts, 0 pausesOutput: 0 output errors, - underruns, - buffer failures- aborts, 0 deferred, 0 collisions, 0 late collisions- lost carrier, - no carrier参数指标如下:字段描述Ethernet2/0/1 current state以太网端口当前开启或关闭状态IP Sending Frames Format以太网帧格式Hardware address端口硬件地址The Maximum Transmit Unit最大传输单元Media type介质类型Port hardware type端口硬件类型Flow-control is not enabled端口流控状态The Maximum Frame Length端口允许通过的最大以太网帧长度Broadcast-suppression ratio端口广播风暴抑制比Allow jumbo frame to pass端口允许长帧通过PVID端口缺省VLAN IDMdi type网线类型Port link-type端口链路类型Tagged VLAN ID标识在该端口有哪些VLAN的报文需要打Tag标记Untagged VLAN ID标识在该端口有哪些VLAN的报文不需要打Tag标记Last 300 seconds input: 0 packets/sec 0 bytes/secLast 300 seconds output: 0 packets/sec 0 bytes/sec端口最近300秒输入和输出速率和报文数Input(total): 0 packets, 0 bytes- broadcasts, - multicastsInput(normal): 0 packets, 0 bytes0 broadcasts, 0 multicastsInput: 0 input errors, 0 runts, 0 giants, 0 throttles, 0 CRC0 frame, - overruns, - aborts, - ignored, - parity errorsOutput(total): 0 packets, 0 bytes- broadcasts, - multicasts, - pausesOutput(normal): 0 packets, 0 bytes0 broadcasts, 0 multicasts, 0 pausesOutput: 0 output errors, - underruns, - buffer failures- aborts, 0 deferred, 0 collisions, 0 late collisions- lost carrier, - no carrier端口输入/输出报文和错误信息统计,其中“-”表示不支持该统计项。8.1.1基本网络接口状态分析接口的状态有两个方面的组件构成:物理层状态和数据链路层状态。第一个组件是“物理层状态”,亦即接口是否有物理连接,是否收到正确的传信。对于串口来说,正确的传信应该是载波检测“Carrier Detect,CD”信号或者是来自WAN的一个计时信号。而对Ethernet接口来说,正确的传信应当是来自交换机或HUB的链路传信。第二个组件是:“数据链路层状态”,就是通常我们所说的线路协议状态,它指出接口是否收到了“存活”信号(如果允许的话)。所谓“存活”(keep alive)信号,是指一条小的第二层消息,该消息由网络设备发出,使那些与它直连的网络设备知识它:“仍然存在”。8.1.2接口半/全双工模式和链路类型接口的双工模式和链路类型一般为AUTO模式,需要链路两端进行自协商,如果对两端的双工模式和链路类型进行配置,那么必须保证两端的配置一定要一致,否则链路进行匹配时可能出现丢包或者链路协议DOWN的问题。8.1.3接口稳定性统计信息网络端口统计信息主要包括的以下参数:Interface 显示接口或子接口的名字。Input列出了所有进入接口的帧的数量和种类。Output列出了所以离开接口的帧的数量和种类。8.2端口状态检查表设备名称端口号SpeedDuplexInputOutput9设备端口负载及流量检查9.1设备缓存信息检查使用命令查看设备缓存信息,在巡检过程中用此命令收集的数据的主要作用是查看各种缓存的使用情况。9.2流量信息检查查看设备端口的吞吐、错误信息和丢弃信息,使用display interface 命令实现。由于网络系统的流量信息需要经过长期的观测和分析,建议采用网络管理系统进行数据采集,并对网络管理系统的数据进行分析,手工采集数据仅供参考。输出表格如下:10 网络架构、配置信息分析10.1网络结构检查10.1.1检查内容 网络拓扑图n 网络物理连接示意图,包括节点或位置名称、网络设备名、端口名称与带宽、管理IP地址n 网络逻辑连接示意图,包括路由、STP、端口信息等 网络路由结构示意图,包括的路由协议的邻居关系、认证、路由器的ID、缺省与静态路由等。 网络协议书策略检查10.1.2检查方式查看设备使用何种路由协议和路由表信息,检查网络设备连接关系,使用以下命令:l Displayip routing-table用于查看网络中路由协议及路由条目信息l Display ospf peer 如果网络中使用ospf协议,此命令用于显示ospf的邻居信息。l Display ospf interface如果网络中使用ospf协议,此命令用来显示ospf的接口信息。l Display ip interface brief 用于查看端口的连接状态l Display VLAN用于查看网络配置中的VLAN信息l Display port trunk 用于查看网络配置启用TRUNK协议的端口信息l Display stp用于查看生成树的状态和统计信息。网络结构信息主要参考指标:路由部分:暂时空缺二层链路部分:TRUNK禁用定义连接非交换设备的端口是否关闭了trunk功能参考标准与端设备相连的端口必须设置成access模式VLAN部分:对应的IP网段定义每一个VLAN是否对应一个IP网段参考标准每一个VLAN最好对应一个IP网段Management VLAN定义是否有独立的Management VLAN参考标准应该配置统一的专用管理VLANDefault VLAN定义Default VLAN当中是否承载用户数据流参考标准Default VALN 应该专用,不应该有端口划分到该VLANSTP部分:根交换机定义生成树的根是否在核心交换机上参考标准生成树的根应该在核心交换机上(核心交换机的优先级最好配置为0)根端口定义非根交换机的根端口是否为距离根交换机费用最低的端口参考标准非根交换机的根端口应当为距离根交换机费用最低的端口指定端口定义一个网段的指定端口是否为距离根交换机费用最低的端口参考标准一个网段的指定端口是否为距离根交换机费用最低的端口10.2网络配置信息检查10.2.1检查内容 网络设备配置检查包括网络设备最佳实践模板与设备实际配置的差异性检查,网络系统安全增强性配置检查。 主要内容包括: 网络系统最佳实践配置模版的建立 模版与实际配置的差异性检查 网络系统冗余策略检查

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论