
如果企业建立了完善的实时监控告警以及故障定位机制,那么故障影响时间可实现大幅缩短,甚至将故障影响时间控制在分钟级别。
目前大多数企业的IT运维流程都无法实现完全脱离人工 *** 作,而人工运维将事故发生概率显著提升。我们常用的运维监控手段是通过对系统关键指标数据的监测,及时发现数据异常并向运维人员发出告警。
IT系统和设备在运行时都会产生大量日志数据,这些日志数据中包含了各种各样的系统运行信息。如果对这些日志数据中的关键字段进行提取,建立监控规则,发现异常将第一时间告警,同时基于历史数据建立分析模型并借助机器学习等算法进行异常检测,进而实现预测异常的发生。
云帮手能够提供强大的实时告警、故障定位和故障检测功能,强有力地帮助工程师实时可控地监测系统运行,大大减少事故发生概率,大幅缩短故障影响时间。
数字化时代,银行业务的快速发展,计算机的系统数量和部署规模均呈快速增长态势,且加上应用系统的微服务化,系统间的关联更为复杂,也相应提升了对运维系统的要求与难度。虽然银行内建立了较为全面的监控体系,但是面对千百万的告警风暴时,故障定位解决问题十分困难,特别不利于系统安全、持续、稳定运行。
数字化转型中,以用户为中心是驱动金融行业的核心基础。所以,对于像银行、证券公司这样拥有海量运维数据的金融行业来说,智能运维势在必行。采用先进的运维手段(智能运维)则是企业不断前行的源源动力。
说一个我们正在服务的客户案例吧,客户是一家商业银行。
这家商业银行通过擎创科技提供的夏洛克AIOps解决方案,建设了一套智能运维数据分析系统,集中收集和分析十多个系统的运维数据,包括应用系统日志、告警、性能指标、交易指标和网络性能指标等,并通过机器学习算法实现指标异常检测、关联分析和告警收敛,以此加快问题定位效率,保障系统运行。为了有效提高对异常情况的监测和未来趋势预测,提前发现系统隐患,该商业银行通过擎创夏洛克AI实验室,训练并生成了基于业务场景的多类算法,实现系统的单指标异常检测,极大降低系统故障发生的概率。
与此同时,该商业银行还用了擎创夏洛克指标解析中心和告警辨析中心,通过此实现多维指标关联分析,帮助快速发现和定位系统问题,提升排障效率;实现告警收敛,降低告警风暴,加快定位时间。目前告警压缩率达到了80%以上,运维人员的告警处理效率明显提高。实现了IT系统运维的智能化,为业务健康运转提高强力保障。
其实,擎创科技此前便服务过众多银行类客户,如中国银联、交通银行、浦发银行和宁波银行等,帮助其构建了智能化的运维平台,提升了客户运维效率,且目前很多项目都进入到二期、三期建设阶段。
针对本项目的特点,我们将针对技术支持的内容进行服务方式的选择,对于不涉及敏感内容的技术支持我们将采用上门、热线、传真、邮件、在线帮助、远程、即时通讯等方式进行售后响应;对于涉及到敏感内容的技术支持服务我们将采用现场响应支持的方式进行服务。主要的售后技术支持与服务方式主要包括以下几类:
1、售后服务热线、传真及电子邮件服务
我们将设立技术支持中心热线电话和传真,提供7×24的全天候技术支持热线。设立专用电子信箱和传真设备,用户可通过发电子邮件或者传真,向工程师咨询系统建设过程中遇到的各种技术问题。
为了更好的为用户提供技术支持服务,我方将建立用户故障跟踪机制,详细记录用户故障处置情况,主要包括:
(1)电话交流
每两周与用户(包括系统使用人员和系统维护人员)进行交流,采用启发引导的方式,获取用户需求。
(2)技术人员定期用户访问
我方技术人员将每月到用户现场进行用户访问,收集用户意见和建议,及时发现问题和隐患,以便及时处置。
(3)技术服务经理定期用户巡查
我方技术服务经理将每两个月进行一次技术服务质量巡查,了解技术服务过程中的问题,并针对发现问题及时整改。
(4)设立专业技术支持小组
当用户遇到各类紧急故障时,我方除安排技术人员按照流程进行故障解决外,还组织一批经验丰富、技术过硬的人员组成专业技术支持小组,为用户和我方派驻的技术工程师提供全面支撑。
事情做了,没有体现出价值!IT运维不是救火员,也不是背锅侠。
上面这就是疼点!如果做成这样,就是失败。
可以通过如下改善:
1 提升沟通能力和技巧,主要是和老板的沟通,和其它部门的沟通。
2 改变做事情的方式和方法,防范于未然,不要做救火员。做好应急处理预案,不做背锅侠。
你是运维的话可以看看Linux 这个可以试试。建议看看《Linux就该这么学》 里面有个专栏是 Linux命令大全(手册) 加入我们的群,一起讨论 Linux就该这么学》
由于信息技术的渗透性和先导性,信息技术已成为国内外企业战略决策的制定和调整、生产经营过程中的计划、组织、管理和控制不可或缺的重要工具以及公司核心技术的主要载体,信息技术促进了生产经营过程的集成化和科学化,从而成为各公司降低成本、维持技术领先地位的战略举措。
近年来,国内外各企事业单位都十分重视信息化建设,把加快信息化建设作为提高生产经营管理水平、促进业务流程优化、加强内部控制、提高决策质量和效率的重要手段。结合中国石油发展战略和业务需求,中国石油出台了统一的“十一五”信息技术总体规划,F5(企业信息系统管理)项目便是“十一五”信息技术总体规划中的一项,目标是建立集成的监控管理平台和统一、完善的运维管理体系,提高中国石油信息技术基础设施的可靠性和性能,从而保证中国石油各业务系统的高可用性,彻底改善IT服务的管理水平,提高客户满意度,降低IT服务支持成本。
被动的传统IT运维管理
市场研究机构Gartner调查发现,在导致IT基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了 20%,而因为运维管理方面的原因则占到80%,可见IT系统运维及管理是相当重要的。企业每年对IT部门投资都不少,但是得到的效益却没有体现,问题仍然时常发生,感觉好像所有的投入都打了水漂。
企业的IT运维部门是一个吃力不讨好的部门,因为IT运维就是在后台默默地保证信息系统的正常运行,只有在问题发生的时候才想到还有IT部门的存在。这种现象是由于IT运维管理还处于传统模式,即无相应的运维监控软件或者是仅仅单独使用某项监控软件而没有联合使用。这种传统的IT运维管理是被动的管理,是孤岛式的管理,是与业务应用没有联动的管理。
1被动管理
传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题,然后再找到IT部门要求解决问题。这是由于传统的IT管理采用人工方式管理基础设施,网络管理是从各种IT基础设备出发的,仅仅是保障各类IT设备如服务器、数据库、存储设备、交换机等等基础设施的正常运行。
不采用任何管理软件,仅仅靠运维人员定期轮询,或者执行某项命令来检查设备,在系统规模较小时,只要参与运维的技术人员足够负责,人工运维方式是可以满足日常运维需要的。但是,当应用系统达到一定的规模后,这种运维方式的弊端就暴露出来了。轮询一遍要花费几个小时,这样,轮询周期越长也就代表越需要更久才能发现故障。这种被动式管理IT导致有了问题不能及时发现。
2 无关业务、孤岛管理
有些企业虽然采用某一种或几种监控软件来监控IT基础设施,但这些监控软件都各自独立运作,没有进行对业务的整合监控。如果用户投诉业务应用不畅通,很难定位故障源,到底是网络、应用程序、数据库还是其他后台系统出了问题,或者是各部门踢皮球,都说自己所负责的设备正常
好一些的IT主管会把各个部门集合到一起开会,讨论问题根源。传统的IT运维管理方式是各类设备的管理各自为政,丝毫没有关联性。处理故障不便于追根溯源。每个人的精力有限,在专业应用系统赖以生存的各基础设施支撑单元上很难做到专、精、准的多面手角色,加之由于管理范围的界定和监控手段的限制,运维人员很难直接判定问题是出在基础网络、系统服务器、数据库还是应用系统自身,故障难以定位将直接导致业务恢复时间的推迟,影响业务系统的正常运行,大大降低服务质量。
将IT运维与业务相关联
IT运维是在后台默默地保证各项业务应用系统的正常运行。IT运维工作是无形的,怎样把这种无形的运维变为有形、甚至量化,这就要把IT的运维与业务相关联。传统的IT运维管理中,基础设施的运维工作不能和业务相结合,仅仅是在设备管理的层面上。这就导致IT管理的成绩没有体现。想想看,如有业务应用不正常,那网络或者服务器之类的任何一种基础设备的正常运行又有什么用呢业务应用是“1”,设备是“0”,没有了正常通畅的业务应用,那其他的都是空谈。只有在业务应用畅通的前提下,基础设施管理才有意义,才能体现IT运维管理的价值。
因此我们需要帮助企业IT:部门了解用户使用感受,关联真实用户感受和系统性能,指导问题事件定位和原因诊断 。
企业信息化发展过程首先是基础架构建设阶段,这个阶段主要是采购一些硬件和应用软件。随着采购的不断扩大,企业的IT组件不断完备,IT系统初具规模,这就产生了IT运维和管理的要求,即网络和系统监控(NSM)阶段,监控网络连通性和系统可用性,此阶段主要还是对IT设备的监控。随着企业业务日趋复杂,IT系统进一步扩大,这时就产生了对IT服务流程进行管理的需求,上升到第三阶段,即IT服务管理(ITSM)的阶段。以上三个阶段都是IT间接产生业务价值的阶段,对业务的顺畅起辅助监控的作用。
企业业务系统对IT系统依赖的不断增强,企业开始关心IT服务对业务带来的影响,强调从业务目标角度出发来管理IT,也就是到达第四个阶段――IT与业务融合的阶段,即BSM(Business Service Management,业务服务管理)阶段。企业可以根据业务目标对IT服务进行调整,以确保IT能够支持业务目标,从而直接产生业务价值(如图2所示)。
如今各类重要的IT应用系统相继在中国石油发挥着举足轻重的作用,所以IT应用系统的可用性尤其重要,例如ERP、OA、邮件、门户等各类重要的系统如果出现中断,都会给企业造成大量的经济损失,所以除了需要对各类应用系统部署冗余的设备以备保证其高可用性,同时也需要对应用系统进行监控和管理,并且进行关联管理。业务系统的可用性是由底层的各类基础设施的状态所决定的,因此建立一个有效的业务模型,将与某个业务相关的底层IT基础设施关联起来,该业务模型能够有效地定位故障根源。这样ERP的管理员只需要关心ERP业务的可用性,而没有必要去关注每台主机的性能参数和启动的进程,不但大大节约了运维时间,而且也提高了运维效率,使故障持续时间大大缩短了。
基于BSM的IT运维
当前中国石油IT运维管理的需求就是从业务出发,建立基于BSM解决方案的新型IT运维。
新型的IT运维管理系统要做得到的就是基于BSM架构的业务管理。
首先,要实时掌控最终用户对IT服务的使用体验,根据制定好的SLA(Service Level Agreement,服务等级协议)来管理业务服务的质量,这样就可以根据业务影响和SLA来对IT服务进行管理。
其次,通过端对端的应用交易时间测量,实现业务要求端对端的可见性;从最终用户的角度,来测量业务服务的响应性能,主动帮助运维人员在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。
第三,提供业务服务、应用及底层IT系统构架部件之间的映射关系。这种解决方案通常会基于一种称为CMDB(Configuration Management Database,配置管理数据库)来实现。通过服务依存关系映射技术,来展现业务服务、应用和底层IT系统构架部件之间的动态关系,这样就增进了对各种IT元素的掌控和理解。
第四, 借助业务服务与IT基础设施的依存关系,对告警事件进行管理。当IT系统的组件产生告警时,结合收集上来的底层的IT系统告警事件,对它们进行过滤、关联、聚合,根据对业务服务影响的严重性,来进行排序处理。
传统意义上的CMDB是服务流程中的一部分,是ITIL中最重要、最核心的概念之一,在以业务为核心的IT运维中,CMDB也是业务建模的主要工具。CMDB通过自动发现工具收集和一定范围的IT基础架构基础信息,包括配置项和关系,建立IT基础架构模型;并通过端到端的业务服务拓扑图来可视化展示业务系统所有部件和关联关系。
把这四方面的功能整合起来,从最终用户的角度来衡量业务影响和风险;自动发现业务服务、应用和底层IT系统构件,并建立依存关系;理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题,以求满足下列功能:
1 通过基于角色的业务视图,提供业务流和服务的可见性;
2 从最终用户的角度来衡量业务影响和风险;
3 设置和检测业务过程的SLA,了解应用性能对业务的影响;
4 24×7小时端到端监控,从浏览器到后台实时监控所有交易;
5 理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题;
6 主动发现和按优先级管理关键业务问题;
7 通过自动把业务和底层运营信息建立关联来缩短平均问题修复时间;
8 自动发现业务服务、应用和底层IT系统构件,并建立依存关系;
9 通过联合的CMDB,来为IT环境提供一个“统一的真实数据”视图,这样就可以为用户提供一个主动的、以业务为中心的BSM解决方案,帮助用户极大地改善业务服务的性能和可用性,降低服务突然中断带来的风险。
提升IT部门的作用
以前,IT运维部门救火队式的混乱状况导致无法判断IT运维总体表现的好坏。而IT部门又是公认的成本中心,这就导致了在很多企业中IT部门总是承受着很多批评,IT人员的工作热情也不高。
而现在,IT运维部门实现了主动发现问题、提前处理故障;IT运维管理与实际的业务应用挂钩,IT运维部门的工作由无形化为有形;促进IT部门从成本中心向利润中心转变,这一切既有利于IT人员发挥其工作热情,也有利于IT部门在整个企业地位的提升。
中石油的IT运维管理就是要基于BSM模式来建设,F5项目就是要实现基于业务来管理IT,也就是要提高信息技术基础设施的可靠性和性能,降低支持成本,对基础设施的规划进行最佳的决策和采用更好的系统支持策略。同时,获取与业务运行相一致的信息技术服务与实践,整合网络、系统、数据库和应用系统管理等关键业务,从而服务于数据大集中趋势下数据中心运维模式的建立和各专业应用日常运维的需要。
以上就是关于运维工作中,如何缩短故障影响时间全部的内容,包括:运维工作中,如何缩短故障影响时间、银行IT系统运维风险控制有哪些手段、IT运维技术支持及售后服务方案等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)