2012年数据中心十大宕机杯具大盘点
2012年度最为典型的例子是云中断,一些领先的云计算平台供应商经历了惨痛的停机,最值得注意的是亚马逊网络服务。该事件使得人们对于先进的云供应商的可靠性提出了质疑,也促使人们更多地着眼于构建多个区域和位置的云应用,创造更大的弹性。同时,超级飓风桑迪所遗留的影响才刚刚开始显现,并将在2013年继续。
1、10月29至30日超级飓风桑迪:纽约和新泽西州的数据中心都受到了此次飓风的影响,所带来的恶劣影响包括为曼哈顿下城地区的洪水和一些设施的停机,周围地区数据中心发电机运行失常。飓风桑迪所带来的影响超出了一般单一的中断事故,为受灾地区数据中心产业带来了规模空前的灾难。受影响地区的一家名为Datagram的供应商的首席执行官AlexReppen与我们分享了他的故事,他描述他所在地公司由于洪水泛滥不得不关闭其柴油泵,简直像经历了一场“世界末日”。事实上,柴油已然成为了数据中心恢复工作的生命线,作为备用电源系统接管了整个地区的负荷,促使特别措施,保持发电机的燃料。随着眼前的工作重点逐步转移到灾后重建,我们有必要长期就数据中心的选址、工程和灾难恢复进行探讨,这一话题可能将持续几个月,甚至几年。
2、9月10日GoDaddy网站DNS服务器中断:域名巨头GoDaddy是一家最重要的DNS服务器供应商,其拥有500万个网站,管理超过5000万的域名。这就是为什么九月10日中断事故会是一个2012年最具破坏性的事件。一些炒作甚至认为,此次长达6个小时的中断事件是由于拒绝服务攻击的结果,但GoDaddy后来表示,这是路由器表的损坏数据造成的。“服务中断不是由外部影响造成的。”GoDaddy的临时首席执行官史葛瓦格纳说。“这不是黑客攻击也不是一个拒绝服务攻击(DDoS)。我们已经确定了服务中断是由于内部的一系列路由器的数据表造成的网络事件损坏。”
3、6月29日至30日亚马逊停运事件:亚马逊的EC2云计算服务以及包括Netflix公司、Heroku、Pinterest、Quora、HootSuite和Instagram的服务被认为是最受欢迎的网站和服务新力量。当亚马逊数据中心断电,停电事件向涟漪一样波及到了整个网络。6月29日,一个被称为derecho的不同寻常的强雷暴天气系统通过弗吉尼亚州北部。使得亚马逊在该地区的设施失去了动力,发电机不能正常运行,消耗应急电源的不间断电源(电源)系统。亚马逊表示数据中心中断只是影响了一小部分业务,但允许客户跨多个数据中心进行工作负载加剧了系统问题。这一事件刚刚过去两周,另一次中断事故再一次在该地区发生。亚马逊在十月下旬再次经历了另一场云中断事故。
4、7月11日卡尔加里数据中心火灾事故:加拿大通信服务供应商ShawCommunicationsInc位于卡尔加里阿尔伯塔的数据中心发生了一场火灾,造成当地医院的数百个手术延迟。由于该数据中心提供管理应急服务,此次火灾事件影响了支持关键公共服务主要的备份系统。此次事件为一系列政府机构敲响了警钟,必须确保及时的恢复和拥有故障转移系统,同时结合出台灾害管理计划。
5、7月1日澳大利亚机场混乱:“闰秒Bug”,一个单一的一秒加入了世界原子钟,成为了7月1日的头条新闻。该变化造成的电脑问题使得Amadeus航空公司预订系统触发了长队,造成澳大利亚各地机场的旅客被迫延迟,停电肆虐直接影响了澳大利亚快达航空公司和维尔京的登机系统。
6、2月29日WindowsAzure云停运事件:这是由“闰秒”的安全证书日期相关的故障所引发的,2月29日的“闰日Bug”每四年发生一次。该事件造成Azure客户无法管理他们的应用程序长达大约8个小时,并且还造成了北美的一些基于Azure的用户服务离线。微软的比尔?莱恩说:“这个问题似乎是由于不正确的闰年时间计算造成的。”微软后来在其服务水平协议中为客户提供了服务信用服保证。
7、7月10日Salesforce.com停运事故:六月和七月往往是事故频频发生的一段时间。Salesforce.com在这两个月均发生过停运事故。最重要一次发生在7月10日,是由Equinix公司在硅谷数据中心操作的一个简短功率损耗造成的。通常情况下,恢复数据中心的供电是及时的,但随后为客户提供数据库和应用程序需要一个较长的恢复期。Equinix公司在一分钟内便恢复了电力,但Salesforce.com影响却超过了9个小时。
8、11月29日叙利亚互联网管制停机事件:停机事件有时也可能是由于政治原因造成的。在过去两年中,我们已经了解到很多在埃及、利比亚以及最近的叙利亚由于“拉闸限电”造成互联网连接中断。11月29日,网络监控服务报告说,叙利亚的84个IP地址模块不可访问。CloudFlare的监测表明,当地政府声称,恐怖主义和电缆削减缺乏说服力。该系统路线被撤回的方式表明,这是路由器配置更新,而不是通过物理故障或电缆切断造成的。
9、7月28日Azure“安全阀”事件:有时系统设置是为了保护您的网络在不经意间受损。在7月28日WindowsAzure云计算平台中断事故中,一个“安全阀”功能旨在扼杀流量高峰中的不正确连接配置,以处理西欧地区容量升级,而洪水般的网络管理消息刷爆了Azure系统。其结果是西欧地区的用户经历了长达2小时24分钟的停运。
10、7月28日Hosting.com停运事件:人为错误通常被认为是数据中心停机的主导因素之一。7月Hosting.com中断事件造成1100名客户服务中断就是一个例子。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护,“服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。”Hosting.com首席执行官ArtZeile说。“没有任何重要的电力系统或备用电源系统出现故障,完全是一种人为的错误造成的。”