虚拟机日常维护手册V1.0.docx_第1页
虚拟机日常维护手册V1.0.docx_第2页
虚拟机日常维护手册V1.0.docx_第3页
虚拟机日常维护手册V1.0.docx_第4页
虚拟机日常维护手册V1.0.docx_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

虚拟机日常维护手册1目的 为提高部门处理虚拟化服务器故障的能力,形成科学、有效、反应迅速的日常管理流程和应急处理机制,确保虚拟化平台的安全和稳定运行,最大限度地减小服务器故障对生产的影响,降低业务中断风险,特制定本手册。2适用范围 本规范适用于ICT统一支撑平台中所有提供虚拟化平台服务的服务器管理,应对发生和可能发生的故障。3手册内容 虚拟化平台服务运维和应急处理应包括风险评估,检测体系和应急处理三个环节,合理有效的执行控制将防止故障影响扩大。3.1故障分类 虚拟化平台故障主要包括服务器硬件和虚拟化软件的故障;电脑病毒等恶意代码危害;人为误操作造成的损害等。3.2应急准备 部门责任人员明确职责和管理范围,根据实际情况,安排应急值班,确保到岗到人,联络畅通,处理及时准确。3.3具体措施 (1) 虚拟化平台服务器应采用可靠、稳定、兼容性硬件,落实责任管理机制,遵守安全操作规范;对虚拟机和管理服务器进行定时备份;采用有效的虚拟化监控工具,及时发现问题和日报告。4故障处理规范虚拟化软件故障系统处理以VMware为例。4.1硬件维护(1) 平台服务器出现硬件告警需要停机维护,服务器责任人应立即通知相关人员,将业务虚机迁移到集群中其他服务器主机上,再将故障服务器切换至维护模式并从HA集群中移除,负责陪同硬件厂家现场更换至成功恢复。 (2) 若服务器硬件24小时内无法恢复,服务器责任人需书面报告原因并立即通知业务管理人员进行数据应急备份,防止灾难扩大。 (3)若虚拟化存储硬件出现告警,第一目击人应立即通知存储管理员,并上报主管领导,存储管理员应在报告1小时内联系厂家到场处理,处理完成后因报告原因,找到解决方法;并立即对数据做完整性检查,消除重复发生隐患。4.2虚拟化平台故障 (1)虚拟化服务器应保证双机群集配置,并同时配置好一套备用服务器群集,随时待命。(2)发生平台故障后,相关人员应及时查找、确定故障原因,进行先期处置。若故障在短时间内无法修复,相关人员应将业务迁移到备用平台环境中,保持业务系统的正常运行;将故障服务器脱离网络,进行故障排除工作。4.3虚拟机软件系统故障 (1)日常做好虚拟机的定时备份和快照,系统崩溃后,应能够及时恢复虚拟机。(2)发生虚拟机系统故障后,相关人员应及时通知业务人员检查出现故障的原因并尽快排除。(3)如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务管理员仔细检查业务是否恢复并做好恢复记录。4.4虚拟化管理服务器故障预防 虚拟化服务器采用群集配置。如平台选用VMware的企业版,配套管理选用VMware vCenter标准版对虚拟数据中心管理单元进行集中管理,系统平台常年24小时运行,每天将产生大量的任务日志和记录信息。同时vCenter器担任了整个平台主机管理和集中配置的角色,使用率极高。为了安全,应定期备份VIM数据库,定期检查告警日志。同时考虑利用虚拟化平台定时P2V服务器为备用虚拟机。当实体化vCenter服务器出现不可恢复的硬件故障时,马上在虚拟化平台上启动备用虚拟机,从而减小平台失去管理的故障风险。4.5虚拟化平台日常告警故障排除当虚拟化平台出现告警信息,通过以下步骤排除:(1) 确定故障原因。查看已触发的警报内容,确定故障前操作是否是引发该故障的原因,对合规操作引起的告警,进行消除。(2) 对提示硬件产生的告警,应查看硬件状态信息,对确认是硬件的问题按硬件维护预案处理。(3) 对提示因资源不足或性能引发的告警,因查看近期性能图表,找出原因,消除故障提示。(4) 对于无法判断的故障,可导出系统日志发给厂家分析处理5虚拟化平台故障预防5.1平台管理初始状态备份 安装配置好vcenter服务器软件系统,经测试能够正常投入生产使用后,将数据库进行一次完成的备份,并记录配置信息。备份文件本机一份,移动存储一份。5.2虚拟机实时状态备份 平台上的虚拟机包括vmware提供的其他功能性服务器,应在测试通过后进行一次快照备份,并记录重要的配置信息。快照一周备份一次,一个月后循环更新一次。关键虚拟机投入使用后,用赛门铁克NBU软件定期(30天一次)备份。备份文件本机一份,移动存储一份。6虚拟化平台故障恢复 虚拟化平台系统出现故障,先对问题进行定位,按前述预案处理,若故障依然存在,通过以下步骤恢复:(1)用快照进行虚拟机恢复。如果虚拟机中包括数据库和实时状态信息,要在恢复后进行必要的数据库文件恢复,并还原系统实时状态。 (2)用NBU从备份系统中进行系统还原,还原后进行必要的状态信息检查(3)虚拟化操作系统恢复,通过重新安装虚拟化操作系统vsphere还原底层平台,并重新部署到群集系统中。摘要:有时,VMware管理员如走过场一样执行日常维护任务。他们做X、检查Y然后把把Z的脉搏。但是很重要的一点是要弄明白这么做的目的。维护工作不仅仅是要维持系统在线,它同样保证您可以从现有投资中获得最大收益。虽然ESX、vSphere、vCenter和Workstation都是成熟和稳定的虚拟化技术,但是它们依然需要进行日常维护。花费一些时间去了解您的架构,然后制定VMware维护计划以满足您的SLA(service level agreement)级别并尽量减少工作压力。下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,您需要选择最适合的方式。VMware维护工作根据频率可以大致分解为:每天、每周和每月。VMware日常维护工作我每天要进行的维护工作如下: 查看报警邮件。邮箱监控是一种持续的、被动的、而且一旦正确设置后不需花费很多精力的监控方式。当您逐渐熟悉系统架构后,还可以区分出警报的不同类型,识别哪些是紧急的需要立即处理,哪些是需要逐步去改变的。假设某个特定的数据库在每天的固定时间发送CPU占用率过高的警报,那么最好调节一下报警设置的条件和频率。不要忘了狼来了的故事,避免因为过多无关紧要的警报而忽略了那些关键问题。 巡视服务器所在的房间。虽然我也设置了警报,但通过对主机所在的房间进行一次快速的巡视我可以马上判断出发生了什么,这非常有用,尤其是忽略了某个警报的时候可以补救。所有的风扇都在运行吗?是否出现内存差错?SAN系统中的磁盘驱动器正常吗?通过观察硬件上的指示灯我可以获得基本的状态信息。我还会快速检查一下不间断电源的供电电压,以及现在的运行时间。知道了这些,一旦发生灾难,我可以知道有多少时间可用来关闭设备。除了这些快速观察外,我还经常使用HP公司在宿主机上集成的Lights-Out端口来检测硬件状态和温度,尤其在没有物理登陆宿主机或SAN的时候,这么做非常有必要。 环视一圈vCenter/VirtualCenter。我会执行所有还未完成的任务,瞥一眼ESX主机的性能然后感受一下各个组件是否正常。当您对系统每天的性能表现足够熟悉的时候,就很容易看出问题。相信我,无论系统看起来多么协调,在某些时候都会出现问题。这个过程如同您很熟悉自己在静止时的心跳,同时还需要通过跑步机或骑自行车来定期检验一下。VMware每周维护工作每周我会执行如下动作: 备份vCenter/VirtualCenter数据库。我的现有系统变化不太频繁,因此一周执行一次数据库清理和管理服务器的全备份就可以了。如果您的系统处于不断地动态变化中,可以频率高一些。依然要强调那个老问题:如果您希望将来可以重建,拥有数据库的备份很重要。VMware每月维护工作每月我们进行如下的管理行为: 清理存储。如果存在过期的快照,最好尽快清理掉。如果无法确定是否存在,可以通过VMware SiteSurvey查看。 检查服务协议。您是否已经升级了售后服务?到了做新的预算来购买所需支持服务的时候了吗? 预想将来要做的升级。目前为止,所有的工作都在围绕保持系统正常工作上。让我们向后一步,闭上眼睛不妨从相反的角度来考虑:您希望系统如何工作?怎样可以改善业务?然后找出一条正确的路来实现。这听起来像在做白日梦,不过或许这会成为您一天中最高效的一段时间。31、为主机应用Host Profiles提示compliance错误故障状态:为主机应用Host Profiles失败,提示如下错误:01.Specification state absent from host: device state needs to be set to on02.Host state doesnt match specification: device needs to be reset03.Specification state absent from host: device Path Selection Policy needs to be set to VMW_PSP_FIXED04.Host state doesnt match specification: device Path Selection Policy needs to be set to default for claiming SATP故障分析:这是由于PSA组件导致的;解决方案:1、右击Host Profiles后点击Enable/Disable Profiles配置选项;2、展开“Storage Configuration”选项,展开“Pluggable Storage Architecture”这个uxanxiang;3、去掉“PSA Device Configuration”;4、展开“Native Muti-Pathing(NMP)”这个选项后,接着展开“PSP and SATP configuration for NMP devi”选项;5、去掉“PSP configuration for”这个选项后点击OK即可。33、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题故障状态:1、虚拟机性能较低;2、在执行备份时磁盘延时很厉害;3、虚拟磁盘vmdk延时较大;故障分析:这种问题基本都是由于虚拟机没有足够的IO Per Second(IOPS),或者IOPS低于30;解决方案:在解决问题前,首先要解决以下两个问题:问题1:什么是IOPS?IOPS全称为Input/Output Per Second,它是衡量一个磁盘(虚拟磁盘和物理磁盘)、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS的高低直接会影响着系统的性能。当前,VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。针对数据密集型业务的数据库业务和流媒体业务,由于它们的IOPS很大,所以在虚拟化环境中部署它们一定要充分考量它们的负载,也就是IOPS大小,结合实际的存储性能来查看是否符合业务标准。问题2:如何计算IOPS?如何计算每台虚拟机的IOPS?要想计算每个虚拟机的总的IOPS数量,首先就要确认磁盘类型以及它们的IOPS是多少。处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。而位于这个存储上面的单台虚拟机的IOPS,则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。现实案例:假定有6颗10000RPM的磁盘,那么它们的总的可用IOPS大约为150x6=900。如果LUN上面运行的虚拟机数量为50个,则单台虚拟机的IOPS为900/50=18 IOPS。如果以这个为标准,则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本IOPS需求,那么应该为900/30=30,也就是说同一个Volume里IOPS为30(最低要求)虚拟机需要数量控制在30台以下。备注:备份存储会消耗更多的IOPS,同时也会给Volume带来更多额外的符合。如果是这样,则需要用额外手段解决备份时的额外资源消耗(可以通过I/O meter软件来测试IOPS)34、丢失或锁定文档导致虚拟机无法Power On故障状态:1、虚拟机无法开启;2、尝试开启虚拟机时,看到类似如下错误信息:Unable to open Swap File;Unable to access a file since it is locked;Unable to access Virtual machine configuration;3、在/var/log/vmkernel文件里可以看到类似如下信息:WARNING: World: VM xxxx: xxx: Failed to open swap file ock was not freeWARNING: World: VM xxxx: xxx: Failed to initialize swap file 4、当尝试开启虚拟机的console控制台时,可能会收到如下错误信息:Error connecting to .vmx because the VMX is not started5、在开启虚拟机时,卡在95%位置无响应;6、从模板部署一台新的VM之后无法开启虚拟机;7、虚拟机在vCenter Server和ESXi/ESX主机之间报告控制台电源状态冲突;故障分析:导致这个问题的因素可能很多,但是众多问题中,都穿插或包含着文件损坏或文件被锁定等问题的可能。虚拟机常用的文件包括:*.vswp*-flat.vmdk*-delta.vmdk*.vmx*.log解决方案:首先需要确认哪些文件处于锁定状态:1、利用vSphere Client登录ESXi/ESX主机、vCenter Server主机;2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置;3、尝试开启虚拟机,如果无法开启且console显示错误,先查阅vmware.log日志文件的相关信息来确认问题;4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径:#vmware-cmd -l系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机:/vmfs/volumes/.vmx5、执行下列命令切入到这个虚拟机所在的目录:#cd /vmfs/voluems/6、然后查阅vmware.log日志,在文件的尾部查看什么原因导致这个问题后再针对性的分析。准确定位并删除掉锁定文件由于虚拟机可以在主机之间移动,如果虚拟机注册到的主机保持对文件的锁定状态,那么,这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。主机由Service Console接口的MAC来确定。lock由VMkernel或Service Console负责维护;备注:ESXi服务器没有Service Console所以,lock由VMkernel单独负责维护;首先要确定VMkernel可能锁定的文件:1、执行下面的命令来报告锁定目录所在的MAC地址:#vmkfstools -D /vmfs/volumes/2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面,那么可以用下面的命令查阅:#tail /var/log/vmkernel35、Storage vMotion失败:looking for lines staring with CBTMotion故障状态:1、执行Storage vMotion失败;2、系统提示如下错误信息:01.A general system error occurred: Storage VMotion failed to copy one or more of the VMs disks. Please consult the VMs log for more details, looking for lines starting with CBTMotion-.复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息:01.Failed with error 340983807: Storage VMotion failed to copy one or more of the VMs disks.Please consult the VMs log for more details, looking for lines starting with CBTMotion.复制代码故障分析可能由于虚拟机的硬件版本号过老导致;解决方案:关掉虚拟机后右击uxniji选择Upgrade Virtual Machine Hardware即可。36、添加LUN时提示HostDatastoreSystem.QueryVmfsDatastoreCreateOptions故障状态:系统能够扫描到Devices LUN,但是在添加过程中却提示如下错误信息:HostDatastoreSystem.QueryVmfsDatastoreCreateOptions,如图所示:故障分析:这样的问题一般都是由于LUN的尺寸过大导致,一般来说,VMware ESXi/ESX Server标准支持最大的LUN尺寸为2TB-512Byte,但是由于国内很多技术人员对这个-512Byte并不太在意,所以习惯型的讲成2TB,这就导致很多用户在使用时,直接分配了2TB的空间,这就可能导致了上述问题;解决方案:针对这样的问题,建议如下:1、如果已经分好了2TB的LUN,建议调整为1.88TB左右后再尝试添加;2、新LUN规划用户则请严格参照官方文档的参数设计,建议是1.88TB左右为一个LUN生成Datastore37、vCenter Converter推送Agent出错:Converter Agent installer/uninstaller Failed故障状态:1、利用vCenter Converter推送Agent到Windows Server 2003服务器上时,失败;2、系统提示类是如下错误信息:01.Converter Agent installer/uninstaller failed on xxxxxxxxx.3、VMware vCenter Converter的日志文件converter-server.log里面有类似如下错误提示:01.#6 2011-01-21 10:50:55.976 04080 info App agentManager,83 AgentManager Install Agent on 002.#6 2011-01-21 10:51:16.976 04080 error App agentManager,95 AgentManager Install Agent failed: converter.fault.AgentDeploymentFault03.#7 2011-01-21 11:18:37.289 03976 info App Reusing existing VIM connection to 5004.#7 2011-01-21 11:18:37.476 03976 error App Found dangling SSL error: 0 error:00000001:lib(0):func(0):reason(1)05.#7 2011-01-21 11:19:00.945 02756 info App agentManager,83 AgentManager Install Agent on 006.#7 2011-01-21 11:19:21.961 02756 error App agentManager,95 AgentManager Install Agent failed: converter.fault.AgentDeploymentFault7.#7 2011-01-21 11:19:32.445 03976 info App diagnosticManager,357 Generating Converter.Server log bundle.故障分析:以下几种情况可能导致这样的问题:1、445端口没能打开;2、曾经手动安装过Agent后卸载;3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败;4、防火墙阻绝;解决方案1、确认445端口或NetBIOS协议能正常使用;2、建议在Converter时关闭防火墙;3、如果依然有问题,尝试用Converter Standardalone版本迁移或采用ConverterCD进行冷克隆。38、解决在vSphere 5.0里开启HA时,提示:Datastore Heartbeating不足的问题故障状态:为ESXi 5.0+vCenter 5.0配置HA时,提示如下信息:故障分析:这是由于vSphere 5.0里的HA部分已经重写,并且新增了Datastore Heartbeating用于网络Partition心跳检测支持;解决方案:有2个选择,一个是加多存储用于心跳检测,这也是正确的选择,就不多讲,另一个就是忽略掉这个问题,方法如下:1、vSphere Client登录到vCenter Server 5.0后,右击HA Cluster,点击Edit,然后找到高级选项设定:2、再如上图所示的内容中,添加下参数:das.ignoreinsufficienthbdatastore备注:缺省情况下,这个参数的值是false的。39、通过vSphere Client登陆ESXi主机提示“正在更新”的问题故障状态:通过vSphere Client登陆VCenter Server4.1正常,登陆ESXi主机提示如下图:故障分析:需要通过vS来更新Client说明客户端存在问题,由于登陆VCenter Server4.1不存在任何问题,所以基本确定版本的问题。查看ESXi版本和vSphere Client,发现Client的版本低于ESXi版本。解决方案:由于Client所在网络无法上Internet,所以无法更新Client客户端,可以通过安装高版本的Client来解决此问题。40、红旗32位Linux进入系统时提示”udevu”无法继续进入系统的问题故障状态:进入系统后,出现下图的界面,之后无法向下运行,必须按Ctrl+C才能继续向下运行故障分析:由于系统安装时候是完整的,光盘镜像包是完整的,安装的时候不存在任何问题。考虑到物理机上不存在这种问题,怀疑虚拟机虚拟驱动的问题,安装新的VMware-tools问题依旧。虚拟机管理问题 早于2.6.27版本的Linux内核不报告处于关闭电源状态的每插槽内核数为2从ESXi 5.0开始,多核虚拟CPU支持允许处于关闭电源状态的每插槽内核数为2。早于2.6.27版本的Linux内核仅正确报告处于打开电源状态的每插槽内核数为2。例如,当您在.vmx文件中设置numvcpus = 6和cpuid.coresPerSocket = 3时,一些Linux客户机操作系统可能无法报告任何物理标识信息。Linux内核2.6.28及更高版本会正确报告CPU和内核拓扑。解决办法:无 将内存热添加到使用Linux 64位或Windows 7、32位客户机操作系统的虚拟机时,无法将现有虚拟内存增加到3 GB以上下列情况适用于将内存热添加到使用Linux 64位或Windows 7 32位客户机操作系统的虚拟机。 如果已打开电源的虚拟机的内存少于3 GB,则内存热添加量不能超过3 GB。 如果虚拟机内存为1 GB,则可以添加2 GB。 如果虚拟机内存为2 GB,则可以添加1 GB。 如果虚拟机的内存为3444 MB,则可以添加128 MB。 如果已打开电源的虚拟机的内存正好为3 GB,则无法热添加任何内存。如果已打开电源的虚拟机的内存超过3 GB,则可以将虚拟机内存增加到虚拟机打开电源时初始内存大小的16倍或增至硬件版本限制(以两者中较小者为准)。硬件版本7的限制是255 GB,硬件版本8的限制是1011 GB。如果在虚拟机电源打开时,内存从小于或等于3 GB增长到大于3 GB,则Linux 64位和32位Windows 7客户机操作系统会冻结。此vSphere限制可确保您不会在客户机操作系统中触发该错误。解决办法:无。 在硬件版本7虚拟机上进行CPU热添加时出错硬件版本8虚拟机的多核虚拟CPU功能支持虚拟CPU热添加。对于每个插槽的内核数大于1的硬件版本7虚拟机,当您在虚拟机属性对话框中启用CPU热添加并尝试热添加虚拟CPU时,操作失败并显示以下错误消息:该虚拟机不支持 CPU 热插拔 (CPU hot plug not supported for this virtual machine)。解决办法:要在硬件版本7虚拟机上使用CPU热添加功能,请关闭虚拟机电源并将每个插槽的内核数设置为1。为达到最佳效果,请使用硬件版本8虚拟机。 同时创建大量虚拟机会导致文件操作失败同时创建大量驻留在同一目录下的虚拟机时,存储系统变得不堪重负,导致一些文件操作失败。会显示vim.fault.CannotAccessFile错误消息并且创建虚拟机操作失败。解决办法:以更小的批量(例如64个)创建其他虚拟机,或尝试在不同的数据存储中或同一数据存储的不同目录中创建虚拟机。 在通过vMotion进行迁移过程中,从ESXi主机直通到虚拟机的USB设备可能断开连接如果USB设备从ESXi主机直通到虚拟机并且该设备配置为在通过vMotion进行迁移过程中仍保持连接,则该设备可能会在vMotion操作过程中断开连接。如果DRS触发迁移,该设备也会断开连接。当设备断开连接时,它们会恢复至主机,不再连接到虚拟机。迁移连接了多个USB设备的虚拟机时,会更频繁地发生此问题,但连接了一个或少数设备时,只偶尔发生此问题。解决办法:将虚拟机迁移回与USB设备物理连接的ESXI主机,并将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论