记者曾就工行“6.23事件”询问过一些银行技术人员,被告知,系统升级这样的事情对于他们来说是:能不升级就不升级,因为风险非常大,搞不好就会影响职业前途。但与此同时,不升级也有问题,累计多了,时不时就会爆发出来。因此向左走,向右走,都是一个问题,让人纠结。
化解升级风险的常用方法
谈到升级,中国惠普有限公司技术咨询部专家团队经理纪钟认为面临如下情况时,用户就需要考虑对系统进行升级。一是当业务应用需要更新的系统(或数据库)支持时;二是系统(或数据库)发现严重问题,需要打补丁或升级时;三是系统(或数据库)由于版本老化,不再被原厂商支持时,这些情况下都需要对系统进行升级。
中国惠普有限公司技术咨询部专家团队经理纪钟
升级存在一定风险,纪钟表示可以通过一些方法来尽可能减少风险,例如:制定可行的应急预案;升级前在与生产一致的准生产上充分测试(主要是压力测试和应急预案测试);选择业务低峰时间段进行系统升级; 如果可能,先将生产系统在线切换到备机上,完成生产机的升级,然后再切换回来,完成备机的升级;再有就是充分利用部分厂家提供的在线升级新技术(但需要提前充分测试)。这样就可以在一定程度上,减少系统升级对于业务的影响。
系统回退时机把握和选择
对于工行这种级别用户来说,自然不会犯近似常识性错误。 “6.23事件” 之所以会发生,一定是因为遇到了难以预料的问题。
按照工行的说法,是了主机DB2 V10版本内存清理机制缺陷的问题,而这是在业务高峰时才出来的。因为按照国内用户习惯,一定测试过比实际更高的压力测试,但这必经有一定的局限性,无法完全模拟真实系统。因此,在真实中出现一些难以预料的问题是完全可以理解的。
在“6.23事件”中,工行采取了“回退”的措施。对于回退时机把握,纪钟表示这是由前期制订应急预案来决定的。通常在系统回退可以解决问题,且影响业务时间在RTO允许时间范围内时,都首选系统回退,否则就要视为灾难,要进行容灾切换。“首先应该在应急预案允许的情况下(具体情况需要根据业务需求确定)继续完成升级,达到应急预案的边界点,立即启动回退机制。若应急预案准备充分,系统回退不会对业务产生较大的影响。否则可能造成数据丢失、业务办理缓慢甚至停机的。”他说。
据了解,在系统升级过程中,通常的步骤是首先升级生产中心,然后升级容灾中心,在升级过程中有可能中断一段时间的容灾。在“6.23事件”案例中,如果容灾中心也进行了升级,如果进行切换同样会到内存清理机制缺陷的问题。
克服软件短板的方法和径
对于如何有效规避类似“6.23事件”的问题。纪钟也给出了自己的,可从以下几个层面来考虑:
1).对于极其关键的业务,可考虑采用容错服务器+容错软件(如惠普公司最高端的Nonstop服务器和相关容错操作系统、容错数据库和容错中间件等)实现业务级的高可靠(容错架构完全支持在线逐节点系统升级,而不影响生产应用);
2).对于通常的关键业务系统,可考虑服务器集群+数据库集群+应用负载均衡器来保障可靠性,同时制订有效的应急预案;
3).及时更新原厂商发布的系统补丁。
“这只是一些通常的做法,对于个别的系统,还是根据实际情况,具体分析问题,寻找适合的答案。”他说。
根据木桶原理,短板决定了整个业务的可靠性水平。较之硬件,软件和运维短板问题更明显一些。“木桶原理,短板决定了整个业务的可靠性水平。软件的可靠性是有很多方式提升的(如采用容错操作系统、容错数据库、容错中间件、容错应用软件、集群软件、软件负载均衡等),关键是我们对软件可靠性的重视不足,软件的可靠性除了选择优质的商业化软件包和规划合理的软件架构外,采用先进的测试软件做好上线前的充足测试则是必不可少的一环。另外运维水平也是影响业务可靠性的一个关键因素,很多系统宕机都是运维水平不佳造成的,而ITIL则是解决这一难题的利器。” 纪钟说。
GPS仪是我们平时生活中必不可少的数码产品之一,而应运而生的测速预警仪也逐渐成为了非常重要的行车必备产品。预警仪不仅可以测出固定测速和移动测速避免车友朋友不必要的罚单,还能保障车友们行车的安全,的确是不可多得的产品。……
代号Project Logan的下一代Tegra芯片将接替Tegra 4,它的GPU部分将采用Kepler(开普勒)架构。NVIDIA声称,这是“移动领域自初代GeForce GPU在1999年问世以来的重大里程碑”。……