全球公有云一哥十年宕机故障大全

2019-06-03 11:51

阿明观察

关注

任何一个公有云供应商，在发展的历史长河中，都遭遇了这样那样的宕机、故障。

或因人为因素、或因雷电太凶、或因机房停电、或因光缆被挖、或因代码错输……

这些问题的出现与解决，正好也是公有云服务不断优化与提升的过程。

不过，作为全球公有云的一哥，从可以查询记载的故障宕机等事件来看，几乎每年都会出现。

在此，阿明来回顾一下，特别整理编辑了：

这套

2010年到2019年今日为止，

全球公有云一哥十年宕机故障大全。

【2010年】

AWS云服务因UPS和人为错误中断，持续时间不详。

2010年5月4日Amazon云计算服务出现两次故障，原因则分别是一个UPS单元故障和人为操作失误。

AWS云服务因数据中心电路中断，持续时间长达7个小时。

2010年5月8日Amazon云计算服务故障，因数据中心配电屏电气接地和短路，曾导致部分用户失去服务长达7个小时，而且还导致极少量用户的数据丢失。

Amazon数据中心停电AWS云服务中断，持续时间1个小时。

2010年5月11日，Amazon云计算服务因停电事故出现故障，致使美国东部的少量用户失去服务长达一个小时。

这次事故的原因，是一辆汽车撞倒了Amazon数据中心附近的高压电线杆，而数据中心的配电开关又未能正常地从公用电网切换到内部的备用发电机（配电自动化系统错误地将停电原因理解为电气接地）。

值得注意的是，这是Amazon云计算服务一周内第四次因停电发生故障。

亚马逊欧洲网站宕机，持续时间超过一个半小时。

2010年12月13日，亚马逊旗下英国、法国、德国和西班牙网站周日晚间宕机超过一个半小时，但目前还没有迹象显示这与网络攻击有关。自从维基解密开始公布美国机密外交电文后，亚马逊是首批宣布与维基解密断绝业务的公司之一。随后一批支持维基解密的网络黑客对亚马逊网站发起了网络攻击。

亚马逊旗下英国、德国、法国以及西班牙网站均出现了时间超过30分钟的宕机，直至格林威治时间周日21：45逐步恢复正常。亚马逊美国网站此次并未遭受影响。

【2011年】

AWS云数据中心服务器大面积宕机，持续时间很长。

2011年4月22日，亚马逊AWS云数据中心服务器大面积宕机，这一事件被认为是亚马逊史上最为严重的云计算安全事件。

由于亚马逊在北弗吉尼亚州的云计算中心宕机，包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。

亚马逊官方报告中声称，此次事件是由于其EC2系统设计存在漏洞和设计缺陷，并且在不断修复这些已知的漏洞和缺陷来提高EC2，即亚马逊ElasticComputeCloud服务的竞争力。

AWS被雷击断网，故障持续了大约两天。

2011年8月，亚马逊在北弗吉尼亚州的EC2（弹性计算云）服务发生断网故障，使许多使用亚马逊Web服务云计算基础设施的网站和服务临时中断。这个数据中心是亚马逊在欧洲唯一的数据存储地，也就是说，EC2云计算平台客户在事故期间没有其他数据中心可供临时使用。

亚马逊称，在北爱尔兰都柏林出现的闪电，引起亚马逊在那里的数据中心停电故障，导致在那里的云服务断网。亚马逊证实美国东1区与互联网之间的连接问题么，但很快连接全面恢复。同时还发现在北弗吉尼亚州的关系数据库服务中的另一个连接问题。这个故障在11分钟内修复。不过，宕机事件使得采用亚马逊EC2云服务平台的多家网站长中断达两天时间之久。

【2012年】

亚马逊AWS的EC2服务故障，持续时间超过29个小时。

2012年6月14日，Amazon位于美国东部的数据中心出现故障，并影响了AWS多项云服务以及基于之上的Heroku、Quora等知名网站。16日，Amaozn公布了事故分析。事故是由公共电网故障引起，并引发了一系列连锁故障。

雷暴使得亚马逊在该地区的设施失去了动力，发电机不能正常运行，消耗应急电源的不间断电源（电源）系统，从而导致运行在Amazon RDS上的大概上千个MySQL数据库宕机。

同时EBS－related EC2 API的损失集中在20：57－22：40。具体来看，这段时间内，可变系统调用（如创建，删除）失败，进而直接影响到客户发布新的EBS－backed EC2实例。EC2和EBS APIs实施在多个可用复制数据存储区。EBS数据存储被用来存储元数据等资源的卷快照。

一般来看，为了保护数据存储，系统会自动翻转为只读模式，直到电力恢复可以启动可用区，进而尽快恢复到一致状态，并返回到数据存储读写模式，使得启用可变EBS调用成功。但这个事件中，这一保护方案没有起到作用。

AWS网络服务中断，持续时间不详。

2012年10月22日，亚马逊位于北维吉尼亚的网络服务AWS中断。

事故影响了包括Reddit、Pinterest等知名大网站。中断影响了弹性魔豆服务，其后是弹性魔豆服务的控制台，关系数据库服务，弹性缓存，弹性计算云EC2，以及云搜索。这次事故让很多人认为，亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。

亚马逊AWS弹性负载均衡服务故障，持续时间不详。

2012年12月24日，刚刚过去的圣诞节平安夜，亚马逊并没有让他们的客户过得太平安。亚马逊AWS位于美国东部1区的数据中心发生故障，其弹性负载均衡服务（Elastic Load Balancing Service）中断，导致Netflix和Heroku等网站受到影响。

其中，Heroku在之前的AWS美国东部区域服务故障中也受到过影响。