
互联网时代的网络自动化运维
互联网上有两大主要元素"内容和眼球","内容"是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,"眼球"则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的"眼球"在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长,运维部门也显得愈发重要。他们经过这些年的积累,逐步形成了高效的运维体系。本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。
一、运维的三个阶段
● 第一个阶段:人人皆运维
在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。研发人员拥有服务器权限,自己维护和管理线上代码及业务。
● 第二个阶段:纵向自动化
随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演"救火队员",收告警,有运维规范,但运维主要还是为研发提供后置服务。
这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。
具体表现为:各产品线有自己编写的脚本,利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。
● 第三阶段:一切皆自动
在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。
与此同时,运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。
图1大型互联网公司IT基础设施情况概览
二、BAT(百度、阿里、腾讯)运维系统的分析
国内的互联网公司百度、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。
1腾讯运维:基于ITIL的运维服务管理
预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作。在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。
图2腾讯基于ITIL的运维服务管理
2阿里运维系统:基于CMDB的基础设施管理+逻辑分层建模
CMDB(Configuration Management Database) 配置管理数据库(以下简称:CMDB),将IT基础架构的所有组件存储为配置项,维护每个配置项的详细数据,维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库,CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。
3百度自动化运维:部署+监控+业务系统+关联关系
百度主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。万台并不等于"百台100";机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。
图3百度自动化运维技术框架
百度的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重"关联关系"的联动。所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。
关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。在这样的一套系统中,自动化监控系统非常重要。百度的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。
图4百度自动化技术监控框架
其实无论是BAT等互联网企业还是其他行业的企业,在IT建设中都会遵循IT基础架构库(ITIL)或ISO20000服务管理的最佳实践,采用自动化IT管理解决方案以实现重要的业务目标,如减少服务中断、降低运营成本、提高IT效率等等。随着ISO20000、ITIL v30的发布和推广,两者已经成为事实上的某种标准。在当今企业IT管理领域,对两个标准有着很迫切的需求。特别是ISO20000的认证要求,已经成为企业越来越普遍的需求 。ITIL v30包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,相关方案往往覆盖了多个领域和多个产品,规划实施和工具的选择会比较纠结。如果选择开源的工具,从CMDB开始就会遇到很多的开发工作,对于很多注重成本收益比的企业,可以参考,但由于无法保证性能与效果并不一定适用。因此,成熟的商业方案会是更好的选择。
最新的iMC V7版本,围绕资源、用户、业务三个维度进行创新,发布了SOM服务运维管理(基于ISO20000、ITIL标准)等组件,增加了对服务器的管理,能很好的满足更多互联网化的场景需求。
通常认为,一个高效、好用的配置管理数据库一般需要满足6条重要标准,即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种,如网络设备、服务器、虚拟机等,因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足,但是随着服务器虚拟化技术的发展,虚拟机正越来越多的成为IT基础架构的一大元素。因此,针对这一需求华三通信基于CAS CVM虚拟化管理系统,对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同,华三通信的网管软件面向全行业,目前虽然没有对域名管理等特殊资源的'管理,但是能够通过API接口等方式与特有系统进行联动,进而满足定制化运维的需求,尤其是在互联网化的场景中,针对不同的业务需求,可以实现很多定制化的对接需求,例如,iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接,打通了iMC工具与用户自有运维平台,很好的实现了架构融和。另外,与阿里的逻辑分层建模相似,H3C "iMC+CAS"软件体系在上层也做了很多的逻辑抽象、分层,形成了诸多的模块,也即是大家看到的各种组件。
三、网络自动化运维体系
"哪怕是一个只有基础技术能力的陌生人,也能做专业的IT运维;哪怕是一个只有初中学历的运维人员,也能够带队完成中小型机房节点的建设,并负责数百至上千台服务器的维护管理工作"--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑,但实际上依托于强大的IT运维系统,国内已经有不少互联网公司能够达到或者接近这一标准。
这些企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。
总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。
1规划模型化
为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取。
标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。
模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。
图5常见互联网IDC架构
2建设自动化
互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。
要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。
批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。
自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。
图6批量配置与自动化上线
○ Autoconfig与TR069的主要有三个区别:
○ Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。
○ Autoconfig使用DHCP与TFTP--简单,TR069零配置使用DHCP与>
运维管理主要包括:空间协调管理、设备协调管理、隐蔽工程协调管理、应急管理协调、节能减排管理协调。
运维管理(IT Operations Management)帮助企业建立快速响应并适应企业业务环境及业务发展的IT运维模式,实现基于ITIL的流程框架、运维自动化。
确立以业务价值为核心,业务驱动管理的管理思想面向业务要首先在IT管理的战略层面上建立“业务驱动”的IT治理和管理思想,使得业务部门的目标和IT运维的目标一致,都是为了企业整体战略目标的实现,把对业务的支撑能力和管理实效,作为评价IT系统效用和IT部门工作的首要指标。只有这样,才能在全企业范围内建立技术服务于业务发展的意识和文化,是真正实现IT与业务融合,共同为企业的战略目标服务。
建立关键业务服务模型,今天的业务部门对应用程序的依赖性比过去更强了。应用程序软件可以实现关键业务流程的自动化,包括付款、资金转账、下订单和订单履行。由于应用程序故障或性能问题可能导致严重的业务影响,因此业务部门迫切需要IT部门在发生问题时提供更高的应用程序服务级别和更快的问题解决方案。
所以,必须结合企业战略和业务运营情况,辨识企业业务服务,特别是关键业务应用。为这些核心业务系统服务,建立和企业未来发展愿景、IT架构、管理模式等相适应的业务服务模型,能够清晰地描述业务与IT之间的关联关系和IT服务的关键目标。
IT运维管理 是ITIL标准体系的基本依据,不仅要建造底层基础设施完善,以实现流程管理的基础上。在电信IT运维管理理念,金融行业的应用是非常受欢迎的,因为这些行业用户的高度信息化,信息系统依赖于日常运作,离不开电脑,所以从一开始就比较重视管理。而一些用户,特别是中小企业,依赖电脑和网络上不那么迫切的组织,IT运维管理需求并不十分迫切。几年前,有向公众开放,许多政府反腐败的网站报告系统,税务系统的窗口,因为系统处于中断短时间内流量过高,在一定时间内,系统不能正常运行中引起,其中暴露的主管部门强调IT运维管理这个问题,一个问题往往实现运维管理的重要性。
IT运维管理 的作用:
IT运维管理的功能是保证IT数据、业务数据和业务连续性的连续性。业务部门总结出最直接的要求是-网络是连续的,系统不会瘫痪,数据不会丢失。
此外,它还可以有效地解决用户的问题。例如,信息中心主任应将信息部的工作报告给决策层。IT运维管理可以为信息中心主任提供一种计算方法或表格,对整个信息系统的运行进行量化,还可以有一系列的数据向决策级别报告信息部门的 *** 作。
IT运维管理不只是一个工具,更是一种服务,ITIL实施的阶段,首先提供了一系列的网络监控工具,网络管理,服务管理,桌面管理,安全管理等,它们可以实现系统自动监视巡逻的信息时,巡逻室通常是人工成本节省,从而减少工作量。从管理水平。另一方面,当地政府的信息中心的现状是:在某一时间的网络工程师只能解决网络故障发生时,下一个问题,另一个网络管理员必须花费一些时间来解决,应用工程师可能只知道如何申请,硬件维护人员可能会说,各管各的,工作人员也必然固定的位置,人要离开,这个系统不能改变的,出了问题必须拿回来的技术人员。一个成熟的信息部门,人员不应该受到约束,应该有一个标准化的工作流程,这个时间规范是非常重要的,IT运维工具就可以帮你解决上述问题,并实现知识沉淀,网络配置,等等。
IT运维减少成本
IT运维管理中最重要的是体现在用户可以提高客户满意度,提高了用户,这是用户最重要的需求的运维水平。通过不断提升用户的管理水平,提高了用户的系统可用性,降低服务中断时间,提高客户满意度。
其次是通过有效分配资源,可以最大限度地利用系统和资源,即在另一个层次上降低成本。
最后自动监控系统实施后减少对人的工作负担,降低人工成本,不一定是大量的工作安排大量的人,则可以通过自动监控工具做到这一点,减少工作量。
IT运维管理解决方案不仅是大型企业所需要的
大型企业的信息化程度较高,对信息系统的依赖性也较强。电脑室的规模是巨大的。这样,仅仅依靠手工工作当然就不忙了。因此,信息化程度较高、信息化规模较大的用户对信息技术运输管理的需求就更加迫切。由于这种需求的紧迫性,大型企业实施其运维管理的情况很多。但这并不意味着只有大公司才需要它的运维管理解决方案。一些中小企业也因信息化程度不同而有不同的需求。如果一个公司有几个开关和一两百台个人电脑,它可能无法使用更复杂的it *** 作和维护管理解决方案进行自动化管理。然而,对于一些地级市政府用户来说,他们有数百台个人电脑和10台服务器,而这样的规模可能需要一个工具来管理。系统问题可以是及时报警、系统潜在的风险,也可以是预警。It运维管理工具以如此微妙的方式正式提高了业务支持能力。
IT运维管理的新趋势
IT运维的目标是提高系统的可用性,提高服务能力。现在做的运维信息部门一般有两种方式,一种是为了提高自身的管理水平,基本训练,尽量让更多的详细的网络监控,监控更加智能化;完善循环管理,流程,不断优化内部管理。在另一方面,越来越多的企业IT部门将部分或全部IT资源,网络维护外包。这些企业的IT部门做了公司的好工作外包管理即可。通过量化,流程外包服务保证满足业务服务水平。
IT运维管理市场格局
大型外资企业进入市场较早,前期占有较大的市场份额,但这些国外软件不适合国内情况,很多单位从国外厂家购买软件,但实际效益不是很大,没有真正使用。因此,与国外软件相比,国产软件更贴近国内用户的需求,更贴近国情,了解客户需求,从而使it管理发挥其应有的效益。
网强网络管理软件 ,专注于为客户提供卓越的全面IT网络运维整合服务,实现软硬件一体化IT网络监控方案,打造IT网管软件产品的智能化运维、自动化管理的网管需求,遵循用户实际使用习惯,以管理概念为导向,为您提供全方面多纬度的IT网络运维管理平台整合服务。
IT服务管理软件,帮助企业建立以服务台和事件为驱动、统一的IT服务管理平台,实现规范的服务流程(如问题、变更、配置等流程),从根本上提高了IT服务运维效率,用最低的成本交付高质量的IT服务。
LANDESK Service Desk IT服务管理软件的应用价值
LANDESK Service Desk:LANDESK Service Desk流程驱动IT服务管理软件解决方案。让企业更好的控制服务交付。
功能优势
LANDESK Service Desk是一款流程驱动的IT服务管理(ITSM)软件解决方案,可以部署为预置式、云式或混合式。提供了使用者期望从市场领先解决方案中所能获得的全部核心ITSM功能,包括经ITIL®验证的事件、请求、自助服务、控制、知识管理以及多级报告。
LANDESK Service Desk提供功能丰富的端到端服务管理平台,支持核心服务管理任务,同时可实现企业IT组织从基本解决方案管理到成熟服务组合管理、能力和可用性优化以及持续服务改进的高级业务目标。LANDESK Service Deskc能与使用者的系统和网络管理环境无缝集成,包括所有用于系统生命周期管理和端点安全性的LANDESK®解决方案。
该解决方案功能开箱即用,又易于配置,无需编码就可以满足特定的需求。企业使用其能够快速从反应状态转换到一种更可控、更主动并且面向服务的状态。可提高企业服务台员工和用户的工作效率,同时可缩短系统的恢复时间,能降低停机费用和服务相关的行业风险。
易于使用 轻松拥有
LANDESK Service Desk使IT部门能够与其技术基础架构以及用户社区进行有效地交互。其流程自动化和策略执行功能简化了最佳实践应用过程。通过深度集成,提供带有基本业务环境的可 *** 作智能,可支持快速准确的决策制定及持续的服务改进。
无代码配置
特殊设计,无代码、拖放配置就能进行修改,设计界面简单直观,数据修改和创建、布局和工作流程更简单。
规范且可控
工作流程清晰明确,使用时更高效,用户体验更佳
服务部署
服务交付控制不当,可能对企业服务台成本和生产效率造成严重影响。使用LANDESK Service Desk可在服务管理的整个生命周期中进行掌控。通过从部署到终止的整个过程中应用标准的验证和授权流程,有效的确保交付那些能提供价值并与企业战略目标一致的服务。
稳定可靠 适用广
LANDESK Service Desk设计用于跨多个时区和语言环境开展运营的分布式组织。不受IT环境的范围或性质限制。
基于流程的方法
定义并记录使用者的IT支持流程,包括是哪一流程,做什么,何时做,确保每个人都以相同的方式朝着相同的目标努力。
LANDESK Service Desk通过功能强大的流程引擎赋予使用者执行能力,可构建、自动化及修改任意复杂度的服务管理流程。LANDESK服务台附带丰富的预定义流程库,及简化新流程设计的模板。
服务台流程引擎是促进与推动服务交付和质量保证各个方面的强劲动力核心。在每个阶段,根据用户的角色和职责,企业可以看到不同的视图和提示。
使用服务台解决事件、更改系统配置、满足服务请求或部署新的员工,都能确保遵循IT支持流程而不出现偏差。要完成任务就无法避开任何流程,使用LANDESK Service Desk企业可以很简单的满足法规或安全方面的合规性要求。此外,通过针对每位用户对流程和窗口进行本地化,解决方案还支持跨国境的运营。
嵌入ITIL最佳实践支持
LANDESK Service Desk使ITIL最佳实践融入企业IT组织工作流程,构成ITIL V3的全部15个流程已经通过Pink Elephant的软件认证,可轻松展示出企业的良好IT治理状态。
服务级别合规性
利用服务台,可以轻松监控事件、请求、问题、变量或服务流程如何按照SLA执行。在任意任务中,服务台会根据输入的数据为分析人员自动预先选择相应的响应级别,因此系统会采取相应的升级 *** 作。若快要违反SLA,服务台将提升优先级、重新分配活动或通知服务台。保障用户的利益。
将服务管理扩展到核心IT之外
在核心服务管理之外,还有其他服务(如:项目管理和组合管理)。使用者可通过创建核心项目生命周期流程,使用其来管理单个项目或项目组合的全部内容——从里程碑阶段和任务工作流程直至风险、时间和成本管理。
管理变更
IT基础架构变更负责人可通过LANDESK Service Desk管理整个变更流程,并降低由于变更失败、不完全或误导而造成的生产中断风险。
LANDESK服务台变更控制功能与事件和问题管理紧密集成,企业可轻松追踪变更原因,促进对变更和发布的高效管理,节省变更和发布管理所需时间。
IT运维管理软件国内哪家做的比较好
目前软件公司是一个前景较好的行业,各种各样的软件公司也在不断的增加,北京软件开发公司一直是很被看好的一家软件开发公司,下面为大家详细介绍一般客户对软件开发公司的要求有哪些
软件开发公司排行榜
华盛恒辉科技有限公司
五木恒润科技有限公司
东软
博彦
海辉
文思
浙大
奥博
浪潮
软通
一是客户软件技术需求该公司能否为客户实现,二是该公司的服务质量如何,三是该公司的报价客户是否能接受。
先来说第一点,软件技术方面,一般的企业、政府单位、学校等对软件技术上的要求不会太高,一般的功能方面都是可以实现的,一个软件功能是一方面,另一方面就是美工的要求了。小编认为,一个软件的成败,美工也扮演着十分重要的角色,如果美工不好,就算功能方面全部实现,这个软件也是不完美的,而美工是需要人员去设计的,许多软件公司有着一流的技术,但未必有一流的美工。所以一般在考察公司时,美工和技术都要考虑进去,并且要考察该公司的人员是否有设计能力。
第二点是服务质量方面了,一般来说软件公司也好,网站建设公司也好,这些互联网相关的公司都有前端销售人员与技术人员,一般与客户沟通的是前端的销售人员,销售人员可能经过培训,对技术方面有一定的了解,而且接触的客户多了,对软件功能也是比较熟悉的。服务质量也是分为两方面的,售前和售后。所以在签合同时,如果对服务方面有要求的,最好写入合同,比如要求软件是一个月内完成的,对工作效率的要求等。售后就是指对软件的维护、对软件突发问题的及时解决等方面。
第三点软件公司的报价问题,报价其实和前两点也是相关的,如果技术好、服务好,报价自然就会高一点,小编认为,一般客户要选择性价比高的,所以要找三家左右的公司进行对比后决定。
以上是小编为大家介绍的一般客户选择软件开发公司所需要满足的要求,北京软件开发公司在这些方面一直得到了客户的认可,这也是北京软件开发公司一直被看好的原因所在。
以上就是关于(转)IT:从运维到运营全部的内容,包括:(转)IT:从运维到运营、ITIL工具如何选择、互联网时代的网络自动化运维等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)