
此事发生在时间也很微妙,最近银行间市场资金紧张,一些市民怀疑工行的故障与“钱荒”有关,从而引发各界的解读和联想。一位银行IT工作者在社会化问答网站“知乎”上对此事做了解读,并介绍了银行IT背后的故事。
1现代IT系统非常复杂,当系统大到一定的程度,总会有失控的状况。世界上就从来都没有过没错误的复杂程序,问题只在于这个错误你有没有碰上而已。银行的系统是由很多不同软硬件厂商的产品拼在一起运作,复杂程度远超过普通家用电脑,这么简单的家用电脑还会死机呢而且系统复杂到一定程度,就不是人多或者钱多就能完全解决问题的了。
2要尽量不出问题,要钱,很多钱(比如中型银行建设一个过得去的容灾系统要上亿)。但出问题只是“有可能”,花的钱可是实实在在的。换了你是领导,你也不会无限制的向里面投钱。
3稳定运行的最好的办法之一是不对系统进行改造。由于有新的业务要求,系统确实要不停的升级,每次变动对系统的稳定运行都是一个挑战。
因为三个字:大集中。最早之前,银行系统还没联网,一出问题只是某个区或者某个市。最近十多年银行业都在搞大集中:五大行除了中国银行之外的四家都已经完成了大集中。工行是第一家完成的,当年号称9991大集中工程,好像是1999年开始2002年完成。包括工农建交,国开,农发,浦发,华夏,民生等大部分的银行都是双中心运作,一个北京一个上海(交行好像有个中心在武汉,人行好像在无锡)。中国银行很早就集中成五大中心,至今还没弄成双中心。
大集中有很多业务上的好处,但从系统稳定性影响范围来说,就有点“所有鸡蛋都放在同一个篮子”里面的意味,虽然已经是好多好多好多人花好多好多钱去看好这个篮子了,但百密总有一疏,鸡蛋那么密都能孵得出小鸡呢!
以前没有微博没有微信,只要你不是倒霉的用户就不会知道出过问题。以前没有网银没有淘宝,你半夜不会买东西刷卡。好多年前我在某大行省行做升级,凌晨3点多的时候出了大问题,如果8点前搞不定就全省这银行就停业了,6点多的时候是行长站在后面看着我 *** 作,最后7点多搞定。换成了今天压力估计更大了。
因为四个字:历史原因。银行的IT建设从80年代开始,传统的思路还是集中在单台(有的多一台做成双机热备)服务器上跑程序。互联网的IT建设大部分都从21世纪开始,大多采用的是分布式的思路:由多台计算机同时在跑程序,其中一台出了问题影响也没那么大。
银行程序的特点是要稳定,转变模式的风险很大(有的程序部分用的还是20年前的技术)。所以虽然也在慢慢的转,但起码到今天还没转多少。顺便感叹一下改革之难,赞颂一下邓伯伯。
银行IT是中国IT业中最严谨的行业。比如有的银行还要求厂商维护人员不能 *** 作,只能银行员工 *** 作。
大的变更一定会有预案,甚至换个硬盘,改个IP这种做过几百次的 *** 作都会有预案。但预案与真实一般都有相当差距。上面已经提到系统非常复杂,可能出现的问题如果真全部写下来,可能有几百个分支。而且,系统的故障并不会根据你的应急预案来发生。
应急预案的最重要的作用是应付上级监管,根据应急预案搭好可能需要的应急软硬件环境,大致理清概要思路,以及锻炼团队。真有复杂问题,还是靠牛人现场解决的多。
常见的最简单的衡量连续运行系统的整体指标有RTO和RPO,不严谨的说大致就是停业多久和数据丢多少的指标。
大家可以放心存钱在银行。一般出现问题也只是在停业(某个时间的系统不能运行)这个层面,还没到丢数据或者数据错的层面。就算真出了丢数据的问题,准确的数据一般可以从备份中心或者容灾中心里面捞回来。银行系统每天晚上都要对账,会保证数据准确。
先说定位问题的时间:从发现问题上报到IT信息中心(或者在监控系统发现问题),IT中心的人开始查系统,定位故障原因,如果定位不清还要找相关的软硬件人员到场或者远程网络支持(基于安全原因,银行大部分都不能远程网络查看系统,维护人员到数据中心也需要时间,如果还堵车),找出问题的根源,一小时算超快的了。类似你莫名高烧,到底是哪个器官出问题,去医院做检查做判断总需要时间吧
解决问题就更不好说了,其实和大家的电脑一样,往往重启是最有效的方法,但很多业务系统部分出现问题是不能重启的(可能会影响别的业务系统)。至今国外各大厂商的标准维护合同,绝大部分都没有承诺修复时间。
再说容灾系统,强调一个连很多IT人都不清楚的事实:银行容灾系统不会轻易启用整体切换!前面已经说了,IT系统已经这么复杂了,容灾系统相当于再复制一套,复杂性增加了不止2倍。切换起来是非常麻烦,非常伤筋动骨,惊动非常多人力物力,不是碰到大灾大难(比如地震,机房着火,恐怖分子爆炸之类)不会进行切换。
当然平时会进行容灾切换演练,但一般不会拿核心系统来真实切换,原因是有风险。以前也出现过华东某省级行切换到了容灾中心后切不回生产中心的悲催惨剧。最近西北某地农信社成功的把核心生产切到了容灾系统上,比较不简单,不过这毕竟是独立法人的小银行,大行不是这么个玩法。
另外,看到有不少评论说“没人敢担风险切换到灾备节点上”。
中软国际在金融业的IT解决方案实力很强。在“IDC中国银行业IT解决方案市场份额”排行榜中,中软国际在支付清算、交易银行、风险管理三大领域排 名TOP 2,占据了优势市场地位,我是香港的网友,满意采纳。
1银行每年在IT上的投入是非常难以核算的,正如 @Sgt Pepper所述,2014年工行在科技专项资金上准备了60亿元,这些资金只能专款专用,并没有算上整个IT架构、IT团队日常运行所耗费的资金,所以实际上预计2014年工行对于IT上的投入远远超过这个数字。---多谢 @Sgt Pepper 提示,我这里所计算的口径有所不同,算上了对于团队维护、日常运维的费用,并不是会计会计意义上IT投入。
2机房建设及维护。出于安全性及监管要求考虑,大多数商业银行都自行建设机房或将服务器托管给专业机构(如其他商业银行等)。按照业内机房建设的发展历程,大致可以分为这么几个阶段:一级分行--区域中心--数据中心(Data Consolidated Center)--灾备中心(Disaster Recovery Center)。各家商业银行根据历史发展情况的不同,经历的阶段也不同,比如国有四大行,从人民银行拆分出来,其机构设置也与中国行政区划类似,在机房建设方面从分到总逐级上收,经历从一级分行到区域中心的阶段;而股份制银行的发展多采用新开分行的方式,从总到分,其机房建设也跳过了区域中心直接从数据中心起航。可以说每家商业银行不是在建设机房就是在建设机房的路上,服务器的逐级上收、业务的拓展,原有的机房已经不能满足需求——设计一个永远满足需求的机房基本是不可能的事情。机房的维护也是一笔极大的开销,银行的高级别机房运行着最重要的核心系统。
1、应⽤的前期架构设计、软/硬件资源评估申请采购、应⽤设计性能隐患及评估、IDC、服务性能\安全调优、服务器系统级优化(与特定应⽤有关)等都需运维全程参与,并主导整个应⽤上线项⽬;运维⼯程师负责产品服务器上架准备⼯作,服务器系统安装、⽹络、IP、通⽤⼯具集安装。运维⼯程师还需要对上线的应⽤系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责,并负责最后将产品(程序)、⽹络、系统三者进⾏拼接并最优化的组合在⼀起。
2、计算机维护\网络维护\系统发\
如果你计算机在软件设计和编程方面专业性相当强的话可以去应聘银行信息安全部的岗位(这个你懂得)还有科技后援的岗位(主要搞内部 *** 作系统的开发好维护),硬件组装和维修很强的话可以应聘银行IT维护部门的岗位。银行只有这两个部门招收计算机专业的,一般其他的业务岗位主要为金融专业、经济专业、会计专业等经济学方向的人。如果你参加统一招收考试,经济金融方面的基本理论知识,和银行基础业务知识多少也要懂的。
以上就是关于点解银行IT那些事 为什么故障的总是你全部的内容,包括:点解银行IT那些事 为什么故障的总是你、在银行业领域,中软国际有限公司IT解决方案的实 力怎么样、银行每年对IT方面的投入有多大等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)