由典型故障看数据中心可靠性隐患
发布时间:1318408145 作者:Reton技术部2011年10月10日,不少黑莓用户上网抱怨无法使用电子邮件、BlackBerry Messenger或网络浏览等服务,随后黑莓手机制造商RIM即证实服务出现故障,影响欧洲、中东、非洲及印度等地的使用者,而且在数小时后尚未完全修复。RIM至今尚未公布故障原因以及受此影响的用户数,但有媒体报导,出现问题的是RIM位于英国Slough的数据中心服务器,而且有数百万名黑莓用户受到影响。10月11日,在经历了约20小时的宕机后,服务才得以已经恢复。
2010年3月25日,在线百科全书维基百科在欧洲的数据中心出现散热问题,导致温度过高,引起服务器关机,因而该网站被迫停运。这个问题最初只影响了欧洲的欧洲百科用户,但是当维基媒体基金会(WikiMedia)将系统切换到建在美国坦帕市的数据中心的工作遇到不顺时,主要的英文维基百科网站也受到了影响。
2010年10月29日,一个网络硬件故障引发了PayPal网站停运,结果数百万的商家无法处理网上交易。除了硬件故障外,更要命的是,将流量转换到另一个数据中心时也遇到了问题,导致支付处理服务停运了大约90分钟。
由此可见,每座数据中心都并非完美,或多或少存在有薄弱领域,一旦数据中心发生故障,造成机构业务的停顿,造成重大的社会影响和经济损失将会是非常严重,甚至是无法估量的。
现如今,数据中心是机构各种业务的提供中心,是数据处理、数据存储和数据交换的中心,它承担着机构的核心业务运营、信息资源服务、关键业务计算、数据存储和备份、以及确保业务连续性等重要任务。确保数据中心安全、可靠、有效成为了许多机构永恒的挑战和目标。但目前很多数据中心的可靠性着实令人担忧。
日常管理复杂、难度大
数据中心是一个庞大而复杂的系统,就基础设施层面而言,其动力和环境调节系统涵盖了更加多样化的设备:UPS、空调、服务器机柜、电池、输入配电、油机、温湿度、烟感、门禁、红外,等等。这些系统是一个有机的整体,牵一发而动全身,机房可靠性的发挥有赖于每个设备的正常运行,有赖于这些设备的协调一致,任何一个环节出现故障,都有可能造成巨大损失。因此,对整个系统的管理越来越重要,而难度也越来越大。
为此,数据中心应当建立可靠的监控系统,对电源、空调等设备的运行状态、节能方案进行管理,同时对机房内环境,如温湿度、漏水、烟感等参量进行监控,并对数据中心设备运行参数和环境量实时监控和管理。一旦数据中心出现动力设备和动力机房故障时,系统应能够进行自动告警和记录,同时还应具备全程记录日常维护和故障维修情况的功能,确保数据中心的稳定运营。在此基础之上,监控系统还应具备远程监控和管理能力,实现数据中心机房24×7小时无人值守或少人值守的管理目标。
灾难备份策略意识薄弱
数据是机构的最宝贵的资产之一。集中的数据备份、恢复和管理已经成为数据中心的重要问题。目前,灾难备份策略已经被很多机构提到了发展战略的高度上来,近代几次严重的灾难让很多机构在灾后纷纷倒闭,这让很多机构都认识到了灾难备份策略重要性。但普遍来说,对灾难备份工作的重要性、紧迫性认识还不够深入。为此,机构必须建立灾难备份策略专门机构,并分析灾难备份策略需求、制度方案,并灾难恢复计划持续可用。
能耗消费高,散热问题成隐患
数据中心是数据大集中而形成的集成IT应用环境,它汇集了大量的应用服务器、存储设备、网络设备等等。高密度的设备就必然导致高能源消耗。据统计,数据中心的能源消耗每五年翻一番,能源成本占数据中心总运营成本50%。于此同时,数据中心冷却系统承担着数据中心难以释放的散热压力。散热问题,虽不起眼,却也至关重要。
从艾默生网络能源的实施经验来看,在数据中心规划建设初期,就应充分考虑机房的基础架构。因为硬件设备的摆放、通风口的设置、机房的布线设计等环节都影响着制冷效率和数据中心的能耗。根据艾默生网络能源长期对机房主设备的研究结果来看,一个典型数据中心封闭冷通道比封闭热通道节能2%,比不封闭通道节能4.2%。因此,艾默生网络能源推荐机房管理者为设备机架布局时,采用面对面、背靠背的方式,这有利于形成独立的冷通道和热通道,从而提高制冷效率,改善制冷效果。
(责任编辑:Reton技术部) 赞
【在百度搜索更多 由典型故障看数据中心可靠性隐患】