
CNFG 发生硬件配置错误。
DASD 发生硬盘驱动器错误。
FAN 风扇发生故障,或者是运行过慢,或者是
已卸下风扇。TEMP 指示灯可能也会点
亮。
LINK 保留。
LOG 已将错误消息写入系统事件日志。查看IMM 系统事件日志和系统错误日志,获取有关错误的信息。
MEM 当只有MEM 指示灯点亮时,才表示发生
了内存错误。
当MEM 指示灯和CNFG 指示灯都点亮
时,表示内存配置无效。
O V E R SPEC
由于某个电源通道上出现电源超负荷情
况,所以关闭了服务器。电源功率超过最
大额定值。
PS 电源发生故障。
RAID RAID阵列出错。
SP 服务处理器(IMM)发生故障。
TEMP 系统温度已超出阈值级别。发生故障的风
扇会导致TEMP 指示灯点亮。
VRM 模块。
serveraid manger,在Windows下安装,下载最新版本即可,老一点的版本可能需要安装后重启服务器可看到阵列信息
那个是系统错误指示灯
出现这个表示你的机器有故障 建议拉出控制板
查看上面是否有其他灯亮起
指示灯
描述
OVERSPEC
没有足够的电量为系统供电。NONRED和LOG指示灯可能也点亮
PS
一个电源故障或者被电源未插
LINK
保留
CPU
CPU出现故障、丢失或者未正确安装
VRM
直流电-直流电稳压器丢失或者故障
LOG
BMC日志或者系统错误日志满(系统错误日志达到75%满)
MEM
内存故障
NMI
系统已收到一个硬件错误报告。(PCI和MEM指示灯也可能点亮)
PCI
PCI适配器出现故障
SP
Remote Supervisor Adapter II SlimLine中出现故障
DASD
硬盘出现故障或者被卸下
RAID
RAID适配器出现故障
NONRED
服务器使用非冗余电源或者其交流电源出现故障,系统将超出规范。
TEMP
系统温度或者组件超出规范。(风扇FAN可能也被点亮)
FAN
风扇出现故障或者被卸下
PCI
BRD
PCI-X板出现故障
CPU
BRD
CPU托盘出现故障
I/O
BRD
I/O板出现故障
随着国家政策对节能降耗要求的提高,节能降耗正成为国家、全社会关注的重点。而IT能耗在所有的电力使用当中所占比重的不断上升,已经使其成为社会提倡节能降耗主要领域之一。做为全球领先的IT公司和一家具有强烈社会责任感的企业,惠普公司积极倡导“绿色IT”的理念,并加大研发,推出了一系列的针对绿色IT的创新技术和产品。10月26日,惠普公司在香山饭店举办了“绿色刀片”的研讨会,介绍了惠普公司新一代数据中心以及新一代刀片系统BladeSystem c-Class在供电散热等方面的绿色创新技术以及环保节能优势,并推出了针对绿色数据中心的完整解决方案。
长期以来,更强大的数据中心处理能力一直是我们追求的目标。但在能源开销与日俱增的今天,处理能力发展的另一面是需要消耗更多的资源。而且随着服务器密度的不断增大,供电需求也在相应增加,并由此产生了更多的热量。在过去的十年中,服务器供电密度平均增长了十倍。据IDC预测,到2008年IT采购成本将与能源成本持平。另一方面,数据中心的能耗中,冷却又占了能耗的60%到70%。因此,随着能源价格的节节攀升,数据中心的供电和冷却问题,已经成为所有的数据中心都无法回避的问题。
惠普公司十几年来一直致力于节能降耗技术的研究,并致力于三个层面的创新:一是数据中心层面环境级的节能技术;二是针对服务器、存储等IT产品在系统层面的绿色设计;三是对关键节能部件的研发,如供电、制冷、风扇等方面的技术创新。目前,来自惠普实验室的这些创新技术正在引领业界的绿色趋势。针对数据中心环境层面,惠普推出了全新的动态智能冷却系统帮助客户构建新一代绿色数据中心或对原有数据中心进行改造;在设备层面,惠普的新一代绿色刀片服务器系统以能量智控(Thermal Logic)技术以及PARSEC体系架构等方面的创新成为未来数据中心节能的最关键基础设施;同时这些创新技术体现在一些关键节能部件上,如Active Cool(主动散热)风扇、动态功率调整技术(DPS, Dynamic Power Saver)等。惠普公司的绿色创新将帮助客户通过提高能源效率来降低运营成本。
HP DSC精确制冷 实现绿色数据中心
传统数据中心机房采用的是平均制冷设计模式,但目前随着机架式服务器以及刀片服务器的出现和普及,数据中心出现了高密度服务器与低密度混合的模式,由于服务器的密度不均衡,因而产生的热量也不均衡,传统数据中心的平均制冷方法已经很难满足需求。造成目前数据中心的两个现状:一是目前85%以上的机房存在过度制冷问题;二在数据中心的供电中,只有1/3用在IT设备上,而制冷费用占到总供电的2/3 。因此降低制冷能耗是数据中心节能的关键所在。
针对传统数据中心机房的平均制冷弊端,惠普推出了基于动态智能制冷技术的全新解决方案——“惠普动态智能冷却系统”(DSC, Dynamic Smart Cooling)。动态智能冷却技术的目标是通过精确制冷,提高制冷效率。DSC可根据服务器运行负荷动态调控冷却系统来降低能耗,根据数据中心的大小不同,节能可达到20 %至45%。
DSC结合了惠普在电源与冷却方面的现有创新技术,如惠普刀片服务器系统 c-Class架构的重要组件HP Thermal Logic等技术,通过在服务器机架上安装了很多与数据中心相连的热能探测器,可以随时把服务器的温度变化信息传递到中央监控系统。当探测器传递一个服务器温度升高的信息时,中央监控系统就会发出指令给最近的几台冷却设备,加大功率制冷来降低那台服务器的温度。当服务器的温度下降后,中央监控系统会根据探测器传递过来的新信息,发出指令给附近的冷却设备减小功率。惠普的实验数据显示,在惠普实验室的同一数据中心不采用DSC技术,冷却需要117千瓦,而采用DSC系统只需要72千瓦。
惠普刀片系统:绿色数据中心的关键生产线
如果把数据中心看作是一个“IT工厂”,那么“IT工厂”节能降耗不仅要通过DSC等技术实现“工厂级”环境方面的节能,最重要的是其中每一条“生产线”的节能降耗,而数据中心的生产线就是服务器、存储等IT设备。目前刀片系统以节约空间、便于集中管理、易于扩展和提供不间断的服务,满足了新一代数据中心对服务器的新要求,正成为未来数据中心的重要“生产线”。因此刀片系统本身的节能环保技术是未来数据中心节能降耗的关键所在。
惠普公司新一代绿色刀片系统HP BladeSystem c-Class基于工业标准的模块化设计,它不仅仅集成了刀片服务器和刀片存储,还集成了数据中心的众多要素如网络、电源/冷却和管理等,即把计算、存储、网络、电源/冷却和管理都整合到一起。同时在创新的BladeSystem c-Class刀片系统中,还充分考虑了现代数据中心基础设施对电源、冷却、连接、冗余、安全、计算以及存储等方面的需求。
在标准化的硬件平台基础上,惠普刀片系统的三大关键技术,更令竞争对手望尘莫及。首先是惠普洞察管理技术——它通过单一的控制台实现了物理和虚拟服务器、存储、网络、电源以及冷却系统的统一和自动化管理,使管理效率提升了10倍,管理员设备配比达到了1:200。第二是能量智控技术——通过有效调节电力和冷却减少能量消耗,超强冷却风扇相对传统风扇降低了服务器空气流40%,能量消耗减少50%。最后是虚拟连接架构——大大减少了线缆数量,无需额外的交换接口管理。允许服务器额外增加、可替代、可移动,并无需管理员参与SAN和LAN的更改。
目前,惠普拥有完整的刀片服务器战略和产品线,既有支持2路或4路的ProLiant刀片服务器,也有采用安腾芯片的Integrity刀片系统,同时还有存储刀片、备份刀片等。同时,惠普BladeSystem c-Class刀片服务器系统已得到客户的广泛认可。根据IDC发布的2006年第四季度报告显示,惠普在刀片服务器的工厂营业额和出货量方面都占据了全球第一的位置。2007年第二季度,惠普刀片市场份额472%,领先竞争对手达15%,而且差距将会继续扩大。作为刀片市场的领导者,惠普BladeSystem c-Class刀片系统将成为数据中心的关键基础设施。
PARSEC体系架构和能量智控:绿色生产线的两大核心战略
作为数据中心的关键基础设施,绿色是刀片系统的重要发展趋势之一,也是数据中心节能的关键所在。HP BladeSystem c-Class刀片系统的创新设计中,绿色就是其关键创新技术之一,其独特的PARSEC体系架构和能量智控技术就是这条绿色生产线的两大关键技术。
HP PARSEC体系结构是惠普刀片系统针对绿色策略的另一创新。目前机架服务器都采用内部几个小型局部风扇布局,这样会造成成本较高、功率较大、散热能力差、消费功率和空间。HP PARSEC(Parallel Redundant Scalable Enterprise Cooling)体系结构是一种结合了局部与中心冷却特点的混合模式。机箱被分成四个区域,每个区域分别装有风扇,为该区域的刀片服务器提供直接的冷却服务,并为所有其它部件提供冷却服务。由于服务器刀片与存储刀片冷却标准不同,而冷却标准与机箱内部的基础元件相适应,甚至有时在多重冷却区内会出现不同类型的刀片。配合惠普创新的 Active Cool风扇,用户就可以轻松获得不同的冷却配置。惠普风扇设计支持热插拔,可通过添加或移除来调节气流,使之有效地通过整个系统,让冷却变得更加行之有效。
惠普的能量智控技术(Thermal Logic)是一种结合了惠普在供电、散热等方面的创新技术的系统级节能方法,该技术提供了嵌入式温度测量与控制能力,通过即时热量监控,可追踪每个机架中机箱的散热量、内外温度以及服务器耗电情况,这使用户能够及时了解并匹配系统运行需求,与此同时以手动或自动的方式设定温度阈值。或者自动开启冷却或调整冷却水平以应对并解决产生的热量,由此实现最为精确的供电及冷却控制能力。通过能量智控管理,客户可以动态地应用散热控制来优化性能、功耗和散热性能,以充分利用电源预算,确保灵活性。采用能量智控技术,同样电力可以供应的服务器数量增加一倍,与传统的机架堆叠式设备相比,效率提升30%。在每个机架插入更多服务器的同时,所耗费的供电及冷却量却保持不变或是减小,整体设计所需部件也将减少。
Active Cool风扇、DPS、电源调整仪:生产线的每个部件都要节能
惠普BladeSystem c-Class刀片系统作为一个“绿色生产线”,通过能量智控技术和PARSEC体系架构实现了“生产线”级的节能降耗,而这条生产线上各组成部件的技术创新则是绿色生产线的关键技术保障。例如,深具革新意义的Active Cool风扇,实现智能电源管理的ProLiant 电源调整仪以及动态功率调整等技术。
风扇是散热的关键部件。风扇设计是否越大越好?答案是否定的。市场上有的刀片服务器产品采用了较大型的集中散热风扇,不仅占用空间大、噪音大,冗余性较差、有漏气通道,而且存在过渡供应、需要较高的供电负荷。
惠普刀片服务器中采用了创新的Active Cool(主动散热)风扇。Active Cool风扇的设计理念源于飞行器技术,体积小巧,扇叶转速达136英里/小时,在产生强劲气流的同时比传统型风扇设计耗电量更低。同时具有高风量(CFM)、高风压、最佳噪音效果、最佳功耗等特点,仅使用100瓦电力便能够冷却16台刀片服务器。这项深具革新意义的风扇当前正在申请20项专利。Active Cool风扇配合PARSEC散热技术,可根据服务器的负载自动调节风扇的工作状态,并让最节能的气流和最有效的散热通道来冷却需要的部件,有效减少了冷却能量消耗,与传统散热风扇相比,功耗降低66%,数据中心能量消耗减少50%。
在供电方面,同传统的机架服务器独立供电的方式相比,惠普的刀片系统采用集中供电,通过创新的ProLiant 电源调整仪以及动态功率调整等技术实现了智能电源管理,根据电源状况有针对性地采取策略,大大节省了电能消耗。
ProLiant 电源调整仪(ProLiant Power Regulator)可实现服务器级、基于策略的电源管理。电源调整议可以根据CPU的应用情况为其提供电源,必要时,为CPU应用提供全功率,当不需要时则可使CPU处于节电模式,这使得服务器可以实现基于策略的电源管理。事实上可通过动态和静态两种方式来控制CPU的电源状态,即电源调整议即可以设置成连续低功耗的静态工作模式,也可以设置成根据CPU使用情况自动调整电源供应的动态模式。目前电源调整议可适用于AMD或英特尔的芯片,为方便使用,惠普可通过iLO高级接口显示处理器的使用数据并通过该窗口进行配置 *** 作。电源调整议使服务器在不损失性能的前提下节省了功率和散热成本。
惠普创新的动态功率调整技术(DPS, Dynamic Power Saver)可以实时监测机箱内的电源消耗,并根据需求自动调节电源的供应。由于电源在高负荷下运转才能发挥最大效力,通过提供与用户整体基础设施要求相匹的配电量, DPS进一步改进了耗电状况。例如,当服务器对电源的需求较少时,可以只启动一对供电模块,而使其它供电模块处于stand by状态,而不是开启所有的供电单元,但每个供电单元都以较低的效率运行。当对电源需求增加时,可及时启动STAND BY的供电模块,使之满足供电需求。这样确保了供电系统总是保持最高效的工作状态,同时确保充足的电力供应,但通过较低的供电负荷实现电力的节约。通过动态功率调整技术,每年20个功率为0075/千瓦时的机箱约节省5545美元。
结束语
传统数据中心与日俱增的能源开销备受关注,在过去十年中服务器供电费用翻番的同时,冷却系统也为数据中心的基础设施建设带来了空前的压力。为了解决节节攀升的热量与能源消耗的难题,惠普公司创新性地推出了新一代绿色刀片系统BladeSystem c-Class和基于动态智能制冷技术DSC的绿色数据中心解决方案,通过惠普创新的PARSEC体系架构、能量智控技术(Thermal Logic)以及Active Cool风扇等在供电及散热等部件方面的创新技术来降低能耗,根据数据中心的大小不同,这些技术可为数据中心节能达到20 %至45%。服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。下面分别举例说明各类软件故障的维修方法。
有一台HP LH6000R服务器,配置为双PIII XEON 700带2M高速缓存的CPU、512M内存。开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module (VRM) over/under-voltage 288V/0V”。从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASHEXE,然后将从网上下载的LH6KCBIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。然后在DOS下运行”FLASH /CMC A:LH6KCBIN”,刷新完成后重新启动服务器后即可。这种升级方法也适合刷新系统BIOS等,只是FLASH命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种 *** 作系统下的驱动程序,方便了客户在各种 *** 作系统中的使用。但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是否还是异常。由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。以WINDOWS NT4为例,就首先在管理工具服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER 2000,已经重装N次NT了,排除是系统故障。而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。于是我陪着朋友去了他的公司查看。
这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。但是,朋友刻的SQL SERVER 2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。
在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windataexe导致一个无效的数据溢出。Windata是朋友自己编写的一个程序,而且是随 *** 作系统启动而启动的程序。我立即结束掉这个进程后,再运行SQL一切正常。
对于此类软件故障, *** 作员最好先查看有关的日志,看看系统中是否有可疑的进程。目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。
还有一种软件故障是人为因素造成的,它一般是人为误 *** 作(包括没按 *** 作流程的 *** 作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。
人为误 *** 作因素只要加强管理都可以避免此类故障发生。在这里就详细说明意外关机或非正常关闭程序造成故障的方法。
正常关闭系统程序非常重要,尤其是WEB服务器。我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。我的朋友是使用的HP web hosting server appliance,因此我向他提供了一些使用规则。
这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它 *** 作系统均有效)。
正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才能使系统进入正常的关闭过程中。
另外,为了避免数据丢失,你应该按照如下的步骤 *** 作:
· 经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。
· 安装第二块硬盘并与原来的硬盘设置成镜像,
一旦Server Apliance未能正确关闭,并无法重起,请按如下 *** 作恢复:
1 当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。
2 连接串口线的另一头到一台运行Windows的PC的串口上。
3 运行超级链接程序(HyperTerminal),并设置端口的参数为19200, n-8-1, Flow control - None 你可以看到appliance的控制提示,并要求你输入管理员口令。
4 重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。
5 敲入"emergency"并回车。此时需要耐心等待几分钟。然后,登录提示又将出现,此时,LCD屏又能正常工作了。
6 在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)
翻至Defaults… 并按右箭头键选中。
翻至Root Password…并按右箭头键选中。
翻至Random 并按右箭头键选中,会提示一个随机产生的密码。
记下此密码。
翻至Yes并按右箭头键选中,系统密码会立刻更改。
7 回到超级链接的控制屏,登录appliance,用"root"用户名和刚才的密码,此时会出现“#”提示。
8 为修复分区,请按如下方法 *** 作:
对于sa1100,按顺序输入:
[…]#: fsck /dev/hda5
[…]#: fsck /dev/hda6
[…]#: fsck /dev/hda7
对于sa1120,按顺序输入:
[…]#: fsck /dev/sda5
[…]#: fsck /dev/sda6
[…]#: fsck /dev/sda7
当所有的分区都被修复后,应回到“#”提示符下。
9 输入“reboot”重新启动系统。
如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。
对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。CNA和VRM均采用ISO安装,然后VRM可以添加主机CNA。
结论:一定要采用默认密码,VT是开启状态,磁盘是IDE。
但又有一个问题,就是CPU资源不足,在集群那里显示的CPU是0Hz,导致创建不了虚拟机!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)