IDC机房运维管理理念和模式

IDC机房运维管理理念和模式,第1张

linux 系统管理,linux 网络服务,linux 安全,数据库等等,关于编程最好会一点,这主要根据企业要求。关于网络最好也要会一点。反正做运维接触面一点要广。

目前很多企业信息化系统都有自己的监控平台和监控手段,无论是采用哪种手段去实现对系统的实时监控和故障告警,大多采用的方式也只有两种:集中式监控和分布式监控。

为了更好、更有效的保障系统上线后的稳定的运行。对于服务器的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测机制,统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。另外是要有危机意识,就是了解服务器有可能出现哪些严重的问题,出现这些问题后该如何去迅速处理。比如数据库的数据丢失,日志容量过大,被黑客入侵等等。

一、上线之前的准备工作

1、首先是备份,做好定时备份策略,备份所有你认为重要的数据,并且定期检查你的备份是否有效、全面;

2、日志轮换,无论你想用哪种轮换方式,控制日志增长避免驱动器已满是你的目的;

3、做一定的安全措施,如防火墙iptables的访问控制,用denyhosts防止黑客远程暴力破解;

4、mysql远程登录权限等等;

5、最后就是服务器、网元设备的监控。

二、监控策略

1、定义告警优先级策略

一般的监控到的结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,发生时这些称之为故障,故障是最优先的告警。除此之外,还能监控到返回的延时、内容等,如Ping返回的延时、访问网页的时间、访问网页取到的内容等。利用返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否流量过大或者服务器CPU太高等问题。

2、定义告警信息内容标准

当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符完全知道故障内容比较困难,更需要预先定义内容规范。如:“视频直播服务器10021165 在2012-10-18 13:00电信线路监控第到1次失败”,清晰明了的知道故障信息。

3、通过邮件接收汇总报表

每天收到一封网站服务器监控的汇总报表邮件,花个两三分钟就大致了解网站和服务器状态。

4、 集中监控和分布式监控相结合

主动(集中)监控虽然能不需要安装代码和程序,非常安全和方便,但缺少很多细致的监控内容,如无法获取硬盘大小、CPU的使用率、网络的流量等,这些监控内容非常有用,如CPU太高表示有网站或者程序出问题,流量太高表示可能被攻击等。

被动(分布式)监控常用的是SNMP(简单网络管理协议),通过SNMP能监控到大部分你感兴趣的内容。大部分 *** 作系统支持SNMP,开通管理非常方便,也非常安全。SNMP缺点是比较占用带宽,会消耗一定的CPU和内存,在CPU太高和网络流量大情况下,无法有效进行监控。

5、定义故障告警主次

对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障,只发送主要监控对象的告警,其它次要的监控对象暂停监控和告警。例如用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经当机或者断网,这时只发送服务器Ping告警持续监控Ping,因为再继续监控和告警其它服务已经没有必要。这样能大大减少告警消息数量,又让监控更加合理、更加有效率。

本地监控脚本的规范化部署

6、对在本地部署的监控脚本要进行统一规范的部署并记录到KM系统。

7、实现对常见性故障业务自我修复功能

实现对常见性故障业务自我修复功能脚本进行统一部署并对修复后故障进行检查告警检查频次不多于3次。

8、对监控的业务系统进行分级

一级系统实现724小时告警,二级系统实现712小时告警,三级系统实现58小时告警。

9、 监控范围及目标

实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同时自动收集、过滤、关联和分析各种管理功能产生的故障事件,实现对故障的提前预警和快速定位;对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为性能优化及未来系统扩容提供科学依据。

通常情况下,我们可以将监控对象这么来分:

1服务器监控,主要监控服务器如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

2应用程序监控,主要监控该应用程序的服务状态,吞吐量和响应时间,因为不同应用需要监控的对象不同,这里不一一列举。

3数据库监控,只所以把数据库监控单独列出来,足以说明它的重要性,一般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误日志,性能信息等等。

4网络监控,主要监控当前的网络状况,网络流量等。

以上四条应该算是最基本的,也是保证网站正常运行必须要知道的几点内容,这样才能实现我们常说的“运筹帷幄之中,决胜千里之外”。

基础设施运维主要从以下方面入手:

一、机房管理方面:

机房人员出入管理(管理工具如:出入人员管理流程含出入申请审批等)

机房设备出入管理(管理工具如:设备出入申请,设备双电要求最重要的是机房设备台账)

机房承重(通过控制入室设备重量可以降低承重风险)

机房环境温、湿管理(通过巡检记录加以管理)

机房电力管理(通过巡检记录加以管理)

二、机房容灾方面

制定机房应急预案,其中重点包括但不限于,空调故障时应急预案,单路电力故障时应急预案

内容来源于:ITSS符合性评估落地工具-云雀运维!!!

一、机房人员日常行为准则

1、必须注意环境卫生。禁止在机房内吃食物、抽烟、随地吐痰;对于意外或工作过程中弄污机房地板和其它物品的,必须及时采取措施清理干净,保持机房无尘洁净环境。

2、必须注意个人卫生。工作人员仪表、穿着要整齐、谈吐文雅、举止大方。

3、机房用品要各归其位,不能随意乱放。

4、机房应安排人员值日,负责机房的日常整理和行为督导。

5、进出机房按要求必须换鞋,雨具、鞋具等物品要按位摆放整齐。

6、注意检查机房的防晒、防水、防潮,维持机房环境通爽,注意天气对机房的影响,下雨天时应及时主动检查和关闭窗户、检查去水通风等设施。

7、机房内部不应大声喧哗、注意噪音/音响音量控制、保持安静的工作环境。

8、坚持每天下班之前将桌面收拾干净、物品摆放整齐。

二、机房保安制度

1、出入机房应注意锁好防盗门。对于有客人进出机房,机房相关的工作人员应负责该客人的安全防范工作。最后离开机房的人员必须自觉检查和关闭所有机房门窗、锁定防盗装置。应主动拒绝陌生人进出机房。

2、工作人员离开工作区域前,应保证工作区域内保存的重要文件、资料、设备、数据处于安全保护状态。如检查并锁上自己工作柜枱、锁定工作电脑、并将桌面重要资料和数据妥善保存等等。

3、工作人员、到访人员出入应登记。

4、外来人员进入必须有专门的工作人员全面负责其行为安全。

5、未经主管领导批准,禁止将机房相关的钥匙、密码透露给其它人员,同时有责任对信息保密。对于遗失物品的情况要即时上报,并积极主动采取措施保证机房安全。

6、机房人员对机房安全制度上的漏洞和不完善的地方有责任及时提出改善建议。

7、禁止带领与机房工作无关的人员进出机房。

8、绝不允许与机房工作无关的人员直接或间接 *** 纵机房任何设备。

9、出现机房盗窃、破门、火警、水浸、110报警等严重事件时,机房工作人员有义务以最快的速度和最短的时间到达现场,协助处理相关的事件。

三、机房用电安全制度

1、机房人员应学习常规的用电安全 *** 作和知识,了解机房内部的供电、用电设施的 *** 作规程。

2、机房人员应经常实习、掌握机房用电应急处理步骤、措施和要领。

3、机房应安排有专业资质的人员定期检查供电、用电设备、设施。

4、不得乱拉乱接电线,应选用安全、有保证的供电、用电器材。

5、在真正接通设备电源之前必须先检查线路、接头是否安全连接以及设备是否已经就绪、人员是否已经具备安全保护。

6、严禁随意对设备断电、更改设备供电线路,严禁随意串接、并接、搭接各种供电线路。

7、如发现用电安全隐患,应即时采取措施解决,不能解决的必须及时向相关负责人员提出解决。

8、机房人员对个人用电安全负责。外来人员需要用电的,必须得到机房管理人员允许,并使用安全和对机房设备影响最少的供电方式。

9、机房工作人员需要离开当前用电工作环境,应检查并保证工作环境的用电安全。

10、最后离开机房的工作人员,应检查所有用电设备,应关闭长时间带电运作可能会产生严重后果的用电设备。

11、禁止在无人看管下在机房中使用高温、炽热、产生火花的用电设备。

12、在使用功率超过特定瓦数的用电设备前,必须得到上级主管批准,并在保证线路保险的基础上使用。

13、在危险性高的位置应张贴相应的安全 *** 作方法、警示以及指引,实际 *** 作时应严格执行。

14、在外部供电系统停电时,机房工作人员应全力配合完成停电应急工作。

15、应注意节约用电。

四、机房消防安全制度

1、机房工作人员应熟悉机房内部消防安全 *** 作和规则,了解消防设备 *** 作原理、掌握消防应急处理步骤、措施和要领。

2、任何人不能随意更改消防系统工作状态、设备位置。需要变更消防系统工作状态和设备位置的,必须取得主管领导批准。工作人员更应保护消防设备不被破坏。

3、应定期进行消防演习、消防常识培训、消防设备使用培训。

4、如发现消防安全隐患,应即时采取措施解决,不能解决的应及时向相关负责人员提出解决。

5、应严格遵守张贴于相应位置的 *** 作和安全警示及指引。

6、最后离开的机房工作人员,应检查消防设备的工作状态,关闭将会带来消防隐患的设备,采取措施保证无人状态下的消防安全。

五、机房用水制度

1、禁止将供水管道和设施安装在机房内。

2、应格遵守张贴于相应位置的安全 *** 作、警示以及安全指引。

六、机房硬件设备安全使用制度

1、机房人员必须熟知机房内设备的基本安全 *** 作和规则。

2、应定期检查、整理硬件物理连接线路,定期检查硬件运作状态(如设备指示灯、仪表),定期调阅硬件运作自检报告,从而及时了解硬件运作状态。

3、禁止随意搬动设备、随意在设备上进行安装、拆卸硬件、或随意更改设备连线、禁止随意进行硬件复位。

4、禁止在服务器上进行试验性质的配置 *** 作,需要对服务器进行配置,应在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

5、对会影响到全局的硬件设备的更改、调试等 *** 作应预先发布通知,并且应有充分的时间、方案、人员准备,才能进行硬件设备的更改。

6、对重大设备配置的更改,必须首先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改和调整,并应做好详细的更改和 *** 作记录。对设备的更改、升级、配置等 *** 作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先准备好后备配件和应急措施。

7、不允许任何人在服务器、交换设备等核心设备上进行与工作范围无关的任何 *** 作。未经上级允许,更不允许他人 *** 作机房内部的设备,对于核心服务器和设备的调整配置,更需要小组人员的共同同意后才能进行。

8、要注意和落实硬件设备的维护保养措施。

七、软件安全使用制度

1、必须定期检查软件的运行状况、定期调阅软件运行日志记录,进行数据和软件日志备份。

2、禁止在服务器上进行试验性质的软件调试,禁止在服务器随意安装软件。需要对服务器进行配置,必须在其它可进行试验的机器上调试通过并确认可行后,才能对服务器进行准确的配置。

3、对会影响到全局的软件更改、调试等 *** 作应先发布通知,并且应有充分的时间、方案、人员准备,才能进行软件配置的更改。

4、对重大软件配置的更改,应先形成方案文件,经过讨论确认可行后,由具备资格的技术人员进行更改,并应做好详细的更改和 *** 作记录。对软件的更改、升级、配置等 *** 作之前,应对更改、升级、配置所带来的负面后果做好充分的准备,必要时需要先备份原有软件系统和落实好应急措施。

5、不允许任何人员在服务器等核心设备上进行与工作范围无关的软件调试和 *** 作。未经上级允许,不允许带领、指示他人进入机房、对网络及软件环境进行更改和 *** 作。

6、应严格遵守张贴于相应位置的安全 *** 作、警示以及安全指引。

八、机房资料、文档和数据安全制度

1、资料、文档、数据等必须有效组织、整理和归档备案。

2、禁止任何人员将机房内的资料、文档、数据、配置参数等信息擅自以任何形式提供给其它无关人员或向外随意传播。

3、对于牵涉到网络安全、数据安全的重要信息、密码、资料、文档等等必须妥善存放。外来工作人员的确需要翻阅文档、资料或者查询相关数据的,应由机房相关负责人代为查阅,并只能向其提供与其当前工作内容相关的数据或资料。

4、重要资料、文档、数据应采取对应的技术手段进行加密、存储和备份。对于加密的数据应保证其可还原性,防止遗失重要数据。

九、机房财产登记和保护制度

1、机房的日常物品、设备、消耗品等必须有清晰的数量、型号登记记录,对于公共使用的物品和重要设备,必须建立一套较为完善的借取和归还制度进行管理。

2、机房工作人员应有义务安全和小心使用机房的任何设备、仪器等物品,在使用完毕后,应将物品归还并存放于原处,不应随意摆放。

3、对于使用过程中损坏、消耗、遗失的物品应汇报登记,并对责任人追究相关责任。

4、未经主管领导同意,不允许向他人外借或提供机房设备和物品。

十、团队精神和相互协作

1、机房工作小组人员应树立团队协作精神。

2、任何将要发生的给其他人员工作和安排产生影响的事情,或需要与其他工作人员互相协调的事情,应先提出和协调一致,禁止个人独断独行的作风。

3、工作分工要明确,责任要到位、工作计划要清晰,工作总结要具体。

4、小组人员有义务服从工作安排,并有义务对工作安排提出更加合理化建议和意见。

5、营造民主协作的工作环境,任何人员有权利和义务组织、联络其他小组成员、主管领导等展开讨论、开展会议、及时反映问题、做到相互沟通、协同工作。

机房运维内容比较广,大致可细分为七个子系统:

1、 设备管理:对网络设备、服务器备、 *** 作系统运行状况进行监控

主要是对设备的物理状态、应用/服务状态进行查看和管理,比如对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控;对邮件系统、DNS、Web等的监控与管理

2、 数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复

3、 业务管理:包含对企业自身核心业务系统运行情况的监控与管理,这需要区分是IDC机房还是企业自建机房,两者有着比较大的差异。对于业务本身的管理而言,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators)

4、目录/内容管理:简单的说,好比一个企业的门户网站,该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理

5、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互

6、 信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799:2005,它包含了133个安全控制措施来帮助组织识别在运做过程中对信息安全有影响的元素。这133多个控制措施被分成11个方面,成为组织实施信息安全管理的实用指南,这十一个方面分别是:安全方针(Security Policy)、信息安全组织(Security Organization)、资产管理(Asset Management )、人员安全(Personnel Security)、物理与环境安全(Physical and Environmental Security)、通信与运营管理(Communications and Operations anagement)

、访问控制(Access Control)、系统开发与维护(Systems Development and aintenance)九、信息安全事故管理(Infomation Incident Management)、业务持续性管理(Business Continuity Management)、法律符合性(Compliance)

7、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段

机房运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的机房运维管理是企业提高经营水平和服务水平的关键。

一、什么是IDC机房运维?

IDC机房运维涉及到方方面面的问题,它不同于其他运维,处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护,还有些大公司建有自己的IDC机房,但管理层面上可能只是网络信息部门的一个子部门,但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。

以上就是关于机房建设运维管理系统时服务器须注意什么全部的内容,包括:机房建设运维管理系统时服务器须注意什么、如何做好数据中心基础设施运维工作、IDC机房运维管理理念和模式等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/langs/8845825.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-22
下一篇2023-04-22

发表评论

登录后才能评论

评论列表(0条)

    保存