通达信系统应急处理方案.doc_第1页
通达信系统应急处理方案.doc_第2页
通达信系统应急处理方案.doc_第3页
通达信系统应急处理方案.doc_第4页
通达信系统应急处理方案.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通达信系统应急处理方案通达信工程部2009-9-9目 录通达信系统应急处理方案- 1 -方案背景- 3 -第1节通达信交易系统应急方案- 3 -1.1维稳期间实行特别保障措施- 3 -1.2交易系统应急处理分级- 4 -1.3交易系统分级处理预案- 4 -1.4附:交易系统错误提示及解决办法- 5 -第2节行情系统应急方案- 9 -2.1准备工作- 9 -2.2应急处理- 9 -第3节资讯系统应急方案- 14 -3.1准备工作- 14 -3.2应急处理- 14 -第4节营业部应急方案- 15 -4.1准备工作- 15 -4.2应急处理- 15 -第5节附录- 17 -5.1相关文档下载链接- 17 -5.2系统维稳人员安排- 17 -5.3工作要求- 18 -方案背景进入9月,股市暴跌的恐慌情绪仍在弥漫,管理层从国庆60周年的稳定出发,已紧急召开证券市场维护稳定工作会议。据了解,全国证券期货监管系统维稳工作视频会议已经召开,主要目的是要求各上市公司、证券期货经营机构、投资咨询机构为迎接新中国成立60周年营造和谐稳定的社会环境,要将维持稳定作为下一阶段的重点任务。对于证券IT系统服务提供商的我们而言,行情交易系统的安全稳定运行是头等大事。在全国,通达信行情交易系统在证券公司占有率很高。为了更好的维护好证券信息系统安全和稳定的运行,制定如下应急处理措施,若出现异常情况请按下述方法进行维护。第1节 通达信交易系统应急方案1.1 维稳期间实行特别保障措施1、冻结系统升级变更等事项,如属缺陷修复等必须进行的,充分做好测试工作;2、增加机房和硬件的安全巡视频率,交易期间对系统和网络进行全程实时监控;3、通知机房的工作人员,加强对机房设置和硬件的支持;4、系统相关人员保持通信畅通,涉及我公司产品的问题,随时与我公司人员沟通。1.2 交易系统应急处理分级一般故障指因服务器或应用系统局部故障,导致单一站点的网上交易系统局部的服务受到影响;客户访问其他站点服务器后,行情、交易未受严重影响。较重故障指因线路、特定设备或应用系统的故障或停用,导致单一站点系统的服务全面受到影响或多个站点系统的服务受到部分影响;客户切换访问其他站点后,大部分客户仍旧访问,部分客户反应访问缓慢,受影响客户面不超过10%。严重故障指因线路、特定设备或应用系统的故障或停用,导致多个站点系统的服务受到全面影响;大量客户反应访问受阻,受影响客户面超过10%。特大故障指因线路、特定设备或应用系统的故障或停用,导致所有站点系统的服务或应用受到影响;客户交易全面受阻。1.3 交易系统分级处理预案一般故障l 立即将受影响服务器的压力却换到其它机器或将该站点的压力分流到其它站点、通过网上交易系统通知客户选择其他站点或备用交易系统。l 立即组织券商相关人员和通达信工程师到现场查找原因,排查故障,找到故障点,拿出解决方案,并尽快使故障机器恢复生产状态。l 如果不能在一天内解决问题或明确定位是非应用系统故障,那么必须当天安排相应主要开发人员到券商相关现场排查,直到解决问题。较重故障l 立即向券商负责人通报,由工程负责人向开发负责人及技术总监汇报情况。l 立即向受影响营业部发出通知,让券商组织一些客户服务人员,做好投资者的安抚工作。l 立即启用受影响站点的备用交易服务器系统,并将部分压力转到其它站点。l 立即组织工程负责人和券商相关人员到现场查找原因,排查故障,找到故障点,拿出解决方案,并尽快使故障机器恢复生产状态。l 如果不能在一天内解决问题或明确定位是非应用系统故障,那么必须当天安排相应主要开发人员到券商相关现场排查,直到解决问题。严重故障或特大故障l 立即启动应急预案,向券商管理层通报;由工程负责人向总经理汇报。l 立即向营业部发出通知,让券商组织一线客户服务人员,做好投资者的安抚工作。l 如是网上交易被入侵,立即停止被入侵服务器的网上交易功能;并严密监控其它未别入侵服务器的状态。l 让券商组织人员进行评估,排查是否有异常委托和成交,如发现异常,则立即对异常委托报盘进行撤单处理,如异常委托已成交,则立即报告证券交易所协助处理;l 同时让券商立即组织技术人员对核心交易系统、投资者股份、资金数据进行全面核查;l 如未发现异常或排除异常情况后,则恢复网上交易功能,并立即向相关方面报告情况;l 如因特定设备或应用系统的故障或停用引起,立即组织券商人员和维护工程师到现场查找原因,排查故障,拿出解决方案,并尽快恢复生产。发生应用系统严重故障以上级别的故障时,如果不能保证一天内解决问题,那么必须当天安排相应主要开发人员到现场排查,直到解决问题。l 继续加强系统监控,保障后续交易业务的正常进行。同时对交易中断产生的原因及时进行详细分析和研究,出具相关报告。1.4 附:交易系统错误提示及解决办法连接拒绝错误0/IP地址受系统信任不会出现。/1/连接数已到达上限连接超出所支持的最大连接数。连接数最小0,存在最大个数限制,标准版限制营业部数目为2500个,企业版限制营业部数为4000个,高级企业版限制营业部数目为6000。是否连接资源中心,未连接时,默认连接3000。确定版本信息及所能支持的最大连接数(交易中心注册与否)。2/IP地址在黑名单内开启地址黑名单。黑名单项目,格式【开始地址-结束地址】,包含开始地址和结束地址。关闭地址黑名单或删除相应黑名单项目。3/同IP地址连接数过多开启重复IP数限制。重复IP最大限制数,默认10。修改重复IP最大限制数。4/IP地址已经被封锁开启客户IP安全策略。默认信用值,默认1000。不受信任信用值,默认100。客户IP信用值小于100。修改客户IP信用值或修改IP默认信用值。5/IP地址已经被沉默拒绝开启客户IP安全策略。客户IP信用值小于100。客户IP被封锁后,依然进行频繁连接。修改客户IP信用值属性。6/IP地址因未知原因被拒绝未知原因。检查网络及服务器。连接关闭错误0服务停止,连接强制关闭ERRID=0应用程序退出开启服务器。1内部错误ERRID=1交易中心错误。检查服务器相关设置。2网络错误ERRID=2网络错误(PARAM为错误号)检查网络是否通畅。3系统错误ERRID=3不可恢复系统错误(PARAM为错误号)检查系统配置。4事务错误ERRID=4事务处理过程中发生错误检查事务阻塞情况,相关接口等。0未定义错误事务处理未知错误-1内部错误内部逻辑错误-2连接已经丢失或者已被关闭连接已经丢失(关闭)检查网络是否通畅;客户端超时先断开,交易中心再显示错误,报协议异常。-3数据解包错误事务请求解包失败(外部)检查交易中心相关设置。-4加密方式或者加密类型非法事务请求的加密标志不合法(外部)-5请求长度非法事务请求的长度不合法(外部)-6请求无应答事务应答为空(外部)-7应答封包错误事务应答封包失败(外部)-8扩展协议头非法扩展请求头结构性错误(外部)-9请求结构异常请求包结构性错误(外部)-10不支持事务被调用事务不被系统支持(外部)-11连接地址已被冻结连接地址不受信任(外部)查看客户IP信用值设置。-12密钥交换中发生错误密钥交换失败(外部)。-13事务超时未处理事务超时未处理(外部)。超过事务超时等待时间。5网络异常ERRID=5网络异常或者对方非优雅关闭检查网络相关设置。6登录失败ERRID=6客户端登录失败。输入的用户名、密码或验证码错误。重新正确输入。7客户端主动退出ERRID=7客户端优雅关闭8通讯被关闭的连接被断开ERRID=8通讯被关闭的连接被断开9连接被手动断开ERRID=9连接被手动断开重新登录。10请求头非法连接被强制断开ERRID=10客户端请求包验证,请求头格式非法,被服务器强制断开。11恶意连接被强制断开ERRID=11客户端扫描、攻击服务器被强制断开。12客户端异常,连接被强制断开ERRID=121、客户端取行情超时60秒,没有向交易中心发存活包,被强制断开2、客户端登录的时候,建立连接,这个时候客户端在取行情,取码表等信息,此时这个过程超过60s,而客户端又不发存活包,就会报此错误3、新的客户端修改过此逻辑,连接建立后,向后发存活包,如果此时网络原因,TC50没能接收到客户端的包,也同样会报错,强制断开客户端连接的客户端初始化获取行情超过60秒,再次登陆时本地已经有了行情缓存,这个时候就不报错了,此错误问题不大。13地址不被信任,连接被强制断开ERRID=13客户端地址的信用值小于100,被服务器强制断开。业务错误/-10001虚拟营业部不存在请求包对应虚拟营业部不存在。检查交易中心虚拟营业部设置。/-10002实际营业部不存在对应实际营业部不存在。检查交易中心营业部设置。/-10003虚拟营业部不存在可用路由没有可用路由。/-10004功能类型不存在请求功能未配置。查看trade.ccf。/-10005功能不存在,请检查SYGN.INI请求功能不存在。检查SYGN.INI。/-10006连接地址已经被封锁由于客户信用值太低,客户地址被封锁。查看客户IP信用值设置。/-10007事务处理返回异常事务处理返回异常/-10008事务处理返回结果集合空事务处理返回结果集合空/-10009无效实际营业部无效实际营业部/-10010客户IP已经被冻结客户IP地址被冻结,无法进行操作。查看客户IP信用值设置。/-10011客户MAC已经被冻结客户MAC地址被冻结,无法进行操作。查看客户IP信用值设置。/-10012转发请求过程中到下级连接被断开数据在转发过程中失败。/-10013虚拟营业部对应的路由全部繁忙路由繁忙或者路由断开(限制协议版本=5.12.0143)检查交易中心是否开启,并提供服务。/-10014请求包结构性错误数据包结构性错误(限制协议版本=5.12.0149)交易中心是否推送消息。或是否支持相应协议(vip2000连接TC50的session算法默认应为RC2)。/-10015客户IP无效请求附加的客户端IP无效(限制协议版本=5.12.0149)/-10016客户MAC无效请求附加的客户端MAC无效(限制协议版本=5.12.0149)/-10017客户端类型非法请求的客户端类型不正确(限制协议版本=5.12.0149)/-10018功能已经临时关闭,请稍后重尝试当前功能已经关闭,请稍后重试(限制协议版本=5.12.0151)稍后重试。/-10019功能只在非交易时间开放,请在闭市期间使用当前功能只在非交易时间开放,请在闭市期间使用(限制协议版本=5.12.0151)在闭市期间使用。/-10020功能太多人调用,超过并发限制,请稍后重尝试请求功能太多人调用,超过并发限制。稍后尝试。/-10021服务器太忙,超过流量限制,请稍后重尝试限制协议版本=5.12.0156/-10022管理用户名无效监控工具管理用户名无效(限制协议版本=5.12.0158)/-10023管理用户密码无效监控工具管理用户密码无效(限制协议版本=5.12.0158)/-10024用户不具备对应权限监控工具,权限不具备/-10025目录路径无效监控工具,目录不存在/-10026不能创建目录监控工具/-10027不能删除目录监控工具/-10028文件路径无效监控工具 上层目录文件/-10029文件打开失败监控工具 /-10030移动文件指针失败监控工具 /-10031客户端使用的版本过低,已经被拒绝登录,请通过网站升级版本限制/-10032客户未登录业务操作中,比如断线重连的情况,在登录请求未返回之前,其他的业务请求被接受/-10033请求排队超时队列超时退出/-10034低优先级的请求被抛弃少见/-10035队列超过最大深度柜台慢/-10036并行超过限制服务器太忙,超过并发限制。稍后尝试。第2节 行情系统应急方案2.1 准备工作对行情系统使用的硬件设备提前进行检查。防火墙、路由器、交换机、负载均衡设备等保证有备份机,有故障后能即时更换。第一代的行情转码系统,现行的数据转码机应急措施是双机或多机备份的方案,两台主转码机互为备份,以保证其中某一台转码系统出现故障后,自动启用另外的备份机。第二代的行情转码系统,应急措施是双机或者多机备份的方案,两台VIM相互备份,以保证一种一台VIM出现问题之后,转码机会自动跳转到另外的备份VIM上获取行情。2.2 应急处理第一代行情系统:早上初始化期间,请按照下图处理。如果一个主转码机无法启动,或者通讯线路出故障,请手工修改从转码机配置:/tdx/tdx/tdx.ini 中 SVRDT_ADDRESS01和SVRDT_ADDRESS02中01与02互换(或者直接修改01的ip地址),这样切换到另外一个正常的主转码机;然后重启行情主站。工作正常后请把配置修改回来。如果一个行情源中断另一个行情源提供行情备份,这个是程序自动控制完成。如果所有备份站都出问题则由我们提供行情备份,用转码机监控工具手工切换完成。如下图:常见问题解决方法深沪交易所某行情DBF数据库没有更新。行情发送线路出现故障。从备份线路传输正确的当日行情DBF数据库到主转码机处进行转码,必要时进行强制初始化。行情主站连接不成功这种情况下,由于客户端会自动跳转到其它的行情主站,对客户端的使用的影响不大。此时请查找服务器端的网络原因,比如防火墙、负载均衡器或机房设置。客户连不上行情站点用客户端的主站测速功能检查一下各行情主站的网络延时。检查用户网络,要求用户尝试打开一个网页,看是否是本机的网络问题。检查用户是否要代理上网,代理是否设置正确。必要时使用绿色通道代理服务。行情主站数据有错乱暂时停掉此主站,从正确的行情主站拷贝数据进行恢复,确认无误后再开启此主站服务。某天K线或分笔数据有错乱启用通达信数据维护工具,对错乱的数据进行修正。转码机当天没有收盘如果转码机当天没有收盘,从数据正常的服务器上拷贝当天的运行环境yxhj目录到问题转码机上,覆盖原来的文件,检查无误后再开启转码机进行收盘。第二代行情系统:主和备VIM架设好之后,在转码机配置tdxdt.ini中要配置主备VIM的地址和端口,并保证主备都能连通。这样在行情源没有变化或者VIM无法连接的时候,转码机会自动跳转到备份的VIM上去。常见问题解决方法转码机设置了同步,但不能同步任何文件,一连接同步很快就断开请确认转码机的tdxdt.ini中设置的同步ID是否正确,另外也要确认一下VIM上设置的虚拟目录是否设置正确了(注意:VIM上设置的虚拟目录是一个目录而不是一个具体的文件,也不要设置通配符)VIM处行情库没有问题,是今天的,但转码机不能连接上去初始化是检查VIM和转码机所在机器的日期是否是今天的。(时间正确在通达信的行情系统中很重要)转码机只初始化深圳,没有初始化上海有可能的几点原因:请确认上海的VIM连接地址是否正确?VIM上面的上海服务有没有开启?VIM上的上海的show2003.dbf的路径是否正确,库是否是当天的?客户端进入后报INF失败一般情况下是主站使用的虚盘yxhj的文件不全有关请注意不要在crontab里面加入开启转码机前删除虚盘YXHJ的规则(如果碰到节假日可能会有问题)如何使用监控工具补YXHJ数据选中二代行情主站与转码监控主站,点击右键选择“服务器管理与控制”,选择“发送补充运行环境命令”,选择可供补充的二代转码机,输入目标转码机密码,点击“发送补充运行环境命令”如何使用监控工具手工切换VIM数据源选中二代行情主站与转码监控主站,点击右键选择“服务器管理与控制”,选择“VIM数据源查看及控制”,点击“切换到其他数据源”,选择一个新的数据源,点击“确定”第3节 资讯系统应急方案3.1 准备工作对资讯系统使用的设备提前进行检查。防火墙、路由器、交换机、负载均衡设备等保证有备份机,如有故障后能即时更换。检查资讯接收程序或资讯发布程序,保证资讯源正常工作。3.2 应急处理建议采取与行情系统同样的做法,采用双机备份数据库,即在另外的电脑上安装同样的数据库,作为备份数据库服务器。转入程序中增加转入这个备份数据库,资讯转入程序就可以对两部数据库同步转入数据。如果数据库发生故障不能即时解决,则可以把备份的数据库数据转移覆盖原有数据库。也可以将资讯接收,资讯转入以及分发程序转入到备份数据库服务器上,用备份数据库服务器暂时取代故障数据库服务器工作。如果资讯主站上出现错误的信息或揭示出敏感的信息,请立即停止此资讯主站的使用,查看信息来源并加以清除,确认无误后再开启资讯主站系统。第4节 营业部应急方案4.1 准备工作对营业部行情交易系统等硬件提前进行检查。防火墙、路由器、交换机等设备发现有故障后能即时修理更换。现行的营业部linux系统有两种方式:无盘模式和U股通模式。如采用无盘模式,现行使用的方案是设置备份无盘服务器,以保证无盘终端能顺序启动,客户端能正常使用。如果采用U股通模式,则需要即时检查U股通运行情况,如有U股通发生故障,则即时与通达信工作人员联系。4.2 应急处理在U股通模式下,如果客户端发生故障影响使用,则应该尽快联系通达信工作人员修复U股通。在无盘模式下,无盘服务器如果发生故障,系统会自动切换到备份无盘服务器上。常见问题解决办法9:10后行情主站行情仍为昨日行情在linux下面,用pstree查看tdxdt进程是否已启动,如果tdxdt进程启动,则查看“/tdx/data/yxhj/”是否有当日日期开头文件,如日期为昨日日期,则删除yxhj目录文件,然后重新启动tdxdt程序,等待约30秒后重新启动hostl程序,即可解决问题。如日期为当日日期,则说明行情转码机初始化正常,行情主站启动时间比行情转码初始化时间略早,导致虚盘中的缓存数据为昨日日期,重新启动行情主站即可解决问题。如果发现是主转码机的问题,请查找主转码机的数据源或链路是否正常。盘中大盘和个股出现大成交量的柱状图在linux服务器上用date命令查看,如果时间有偏差,手工使用date命令修改时间或使用自动对时程序,和互联网时间对时,修改时间完成后,运行“hwclock -systohc”,将系统时间写入到BIOS时间。从客户端收不到行情包检查hqboost的配置(DOWNHQ=1)本地下载不了数据检查hqboost的配置(DOWNDAYDATA=1)客户端的F10出现不更新检查F10数据源头或传输中途的问题。MOUNT的问题(NFS问题、网卡不兼容、地址冲突问题)果无盘客户端启动不了,出现mount不到server,那么说明我们你的无盘启动服务(tdxbstarpro)没有打开,同时检查nfs、smb等服务无盘启动时提示:Nic type is unkonwn, the computer will boot by local device(100)001BB95D5BE1无盘站网卡类型没有被无盘服务器识别,通过无盘管理工具中的终端管理中获得工作站中的网卡标识,然后在网卡管理中添加一个网卡,之后重启客户端Linux NFS mount 出错或者Linux 客户端 mount 慢先检查网络,确认无问题,然后清除服务器/etc/resolv.conf里面的全部内容,重新启动nfs服务service nfs restart客户机运行时忽然死机1, 网络问题,检查网络是否以断开,是否以断开inter网连接,再又可能是局域网交换机的带宽不够,建意使用100M的接入层交换机和足够的出口带宽。2, 服务器出现故障,服务器死机。这个时候我们可以在客户端按“ctrl+c”进入调试模式我们可以在这里输入命令,“bash-2.05”目录就是我们客户机在linux里的目录。查看这台客户端的ip是多少。然后我们到管理工具里:“终端管理”里可以找到这台客户端是连接的那台服务器,以此首先得确定是那一台服务器有问题。然后具问题具体解决NFS并发量大时报错vi /etc/sysconfig/nfs, 添加内容RPCNFSDCOUNT=128,保存退出,再执行service nfs restart,然后在pstree里面可以看到nfsd128。如果是在LINUX AS4 U5版本下没有此文件,vi etc/init.d/nfs,在# Number of servers to be started by default -z $RPCNFSDCOUNT & RPCNFSDCOUNT=8 这一段中改成RPCNFSDCOUNT=128,同样的,保存退出,再执行service nfs restart,然后在pstree里面可以看到nfsd128Cisco交换机连无盘网络,DHCP找不到服务器很慢或者需要几次DHCP才能找到设置所有Cisco交换机端口的fastport为on,如果有多个网卡,在BIOS里面关闭板载网卡。也可以使用一个傻瓜HUB检查看是否也有这样的问题,如果有的话,肯定是Cisco交换机的配置问题。营业部局域网出现无法使用的严重故障部署有盘站,调通其它上网方式(比如ADSL),让用户暂时使用网上交易系统,优先保证交易。第5节 附录5.1 相关文档下载链接/products/redbook.asp5.2 系统维稳人员安排维稳专家组黄山(总经理)13902937901027-63811190195307699田进恩(开发负责人)13971395323027-633003805788046张丽君(开发负责人)13971395325027-651306025456509维稳执行组张火军(大客户负责人)13886024526027-8778866817760800程飞(大客户负责人)13638623

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论