全球公有云一哥十年宕机故障大全

2019-06-03 11:51

阿明观察

关注

【2014年】

AWS CloudFront DNS服务中断，持续时间近2个小时。

2014年11月26日，Amazon Web Services的CloudFront DNS服务器从美国东部时间下午7：15开始持续了近2个小时。在下午9点之后DNS服务器开始恢复备份。

部分网站和云服务发生掉线，在这期间内容交付网络无法完成DNS请求。没有发生什么大事，但是值得列入该榜单，因为它涉及到全球最大的也是运行时间最长的云。

【2015年】

AWS大规模宕机，宕机持续时间超过40秒。

2015年7月1日亚马逊Web服务（AWS）出现大规模宕机情况，宕机持续时间超过了40秒。Slack、Asana、Netflix、Pinterest等多款APP、以及多家使用AWS服务的网站出现无响应的情况。

对此不少网友笑称“都是闰秒惹的祸！”。也有网友怀疑是“苹果音乐服务”导致的。此外，还有用户在Hacker News网站上撰文称是由于亚马逊的一个EC2服务器引起的。

亚马逊AWS平台DynamoDB超时引发宕机，故障持续时间5小时。

2015年9月，亚马逊自动化基础设施过程中断，造成AWS平台宕机。从简单网络中断级联反应成大面积服务掉线，亚马逊经历了传统内部数据中心才会经历的那种断网——尽管它有非常先进和集成的云平台。

亚马逊的网络中断影响到其一部分DynamoDB云数据库的存储服务器。此事发生时，一些存储服务器还在请求其成员资格数据。于是，断线造成了检索和传输超时，这些服务器无法获得自己的成员资格数据，自动退出了服务。

当那些无法获得请求的服务器开始重新尝试请求的时候，DynamoDB超时问题便引发了更大面积的断网。如此，恶性循环产生，亚马逊客户有5个小时无法使用AWS。

数据中心停电AWS服务中断，停运超过5小时。

2015年9月20日亚马逊AWS一个数据中心遭遇停电事故，影响了Netflix，Tinder，Airbnb等应用程序的在线服务，以及Reddit和IMDB服务中断。

此次服务中断归咎于其在北弗吉尼亚的us－east－1数据中心软件的问题，而其受到影响的客户大多是本土的客户。20日早上3点停电后不久，一共24个应用和服务报告出现问题，其中有10个处于完全“服务中断”模式。

【2016年】

亚马逊AWS宕机，持续时间20分钟。

2016年3月11日，美国当地时间2点20分钟左右，电商巨头亚马逊官方网站发生宕机事故，时间长达20分钟，这次事故不仅导致亚马逊电子商务主网站无法访问，而且也波及到了亚马逊的其他服务，这其中就包括了全球最强的亚马逊云计算服务以及一些数字内容服务等。

这对于亚马逊来说是一个相当巨大的事故，并且这一事故将造成巨大的经济损失。作为实力及用户数量均为全球第一的亚马逊而言，云服务事故不仅是经济损失那么简单，也给追赶者带来了赶超的希望。

澳大利亚AWS因停电中断服务，持续近10个小时。

2016年6月悉尼遭遇风暴，AWS在该地区的设施停电，很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。

在那个周末，澳大利亚AWS可用区域的网站和在线服务中断了近10个小时，使得从银行服务到披萨送货都出现了问题。

【2017年】

亚马逊AWS S3宕机事件，宕机4个小时。

2017年2月28号，号称亚马逊AWS最稳定的云存储服务S3出现“超高错误率”的宕机事件。

最终，AWS给出了确切的解释：一名程序员在调试系统的时候，运行了一条原本打算删除少量服务器的脚本，结果输错了一个字母，导致大量服务器被删。被错误移除的服务其中运行着两套S3的子系统，从而导致S3不能正常工作，S3 API处于不可用状态。

由于S3负责存储文件，为AWS体系中的核心组成部分，这导致北弗吉尼亚日（美国东一）服务区中，依赖于S3存储服务的其他AWS的S3 控制台、Amazon弹性计算云（简称EC2）新实例启动、Amazon弹性块存储（简称EBS）分卷（限于需要读取S3快照的数据）以及AWS Lambda均受到影响。

为了修复这个错误，亚马逊不得不重启整个系统，在此之前已经几年都没有重启过了，最终导致了震惊全球的Amazon S3宕机4个小时事件。

【2018年】

AWS网络故障，故障持续时间不详。

2018年3月，亚马逊Alexa智能家居出现了区域性失灵，用户在家中唤醒亚马逊Echo系列产品时，Alexa会让用户重试并报告找不到服务器。

Alexa这一故障源于亚马逊AWS的网络服务出现了问题，不仅是Alexa，其他依赖AWS作为骨干网的应用在当天也受到了影响，其中包括软件开发公司Atlassian，云通讯公司Twilio等。

亚马逊的一位发言人表示，这可能跟弗吉尼亚州AWS的一个冗余互联网连接点断电有关。在后续的故障确认中，AWS表示已经引起了美东1区的多个数据中心故障。同时，数据包的丢失导致美国东部地区的一些AWS Direct Connect客户服务受到影响。也影响到了来自弗吉尼亚州阿什本的Equinix DC1 － DC6 ＆ DC10 － DC12和来自弗吉尼亚州雷斯顿的CoreSite VA1 ＆ VA2的Direct Connect连接。

AWS数据中心硬件故障导致云服务影响，持续时间30分钟。

2018年5月31日，因北弗吉尼亚地区的数据中心出现硬件故障，AWS再次出现连接问题。在此事故中，AWS的核心EC2服务，Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。

AWS管理控制台故障，故障持续近6小时。

2018年7月18日消息，亚马逊盛大的购物促销活动Prime Day遭遇了史上最大的尴尬，亚马逊网站和应用出现了重大技术故障，威胁到了其持续36个小时的销售盛宴。

与此同时，亚马逊核心产品AWS云服务也出现了中断。客户登录AWS管理控制台时，将收到一条带有狗图片的错误消息，消费者Prime Day在亚马逊网站上看到带有狗的图片类似。

AWS故障在声明中表示：“客户使用帐户登录时遇到间歇性错误，无法访问AWS管理控制台。”管理控制台是客户控制他们从Web使用AWS资源的方式的入口，该功能出现故障，客户将无法实现AWS资源的调配。

该故障持续了将近6小时，AWS发言人表示，间歇性的AWS管理控制台问题，并未对亚马逊的消费者业务产生任何有意义的影响，AWS和Prime Day问题没有关联。

AWS韩国服务器中断，故障时间持续一个多小时。

2018年11月23日亚马逊网络服务（AWS）的核心服务器在韩国全国发生中断，导致两个主要的加密货币在线交易平台停止运作。AWS是全球广泛使用的云服务之一，受到内部核心服务器故障的影响，导致主要的数字资产交易平台Upbit和Coinone戛然而止。据外媒报道，几个主要的电子商务中心在大约一个小时内也无法访问。

AWS表示“在太平洋标准时间下午3点19分到4点43分之间，亚太服务器错误率上升，但问题已得到解决，服务器正常运作。”亚马逊的声明细节也证实了首尔网络受到中断影响最大。Upbit平台在停电后发布了几份声明，并为无法提前告知用户突然停机而道歉。 Coinone平台还宣布进入维护模式。

【2019年】

AWS北京区域因光纤被挖断中断新实例启用，故障时间持续不详。

2019年6月1日晚，AWS北京区域CN－NORTH－1地区的隔夜道路施工中有几处光缆被切断，导致可用区无法链接Internet，进而引发所有可用区中新的实例无法启动的故障，包括EC2 API启用故障。因而EC2 API在整个CN－North－1区域都不可用。目前维修团队已经找到了具体的断点所在，正在尽力恢复过程中。

业内人士指出，这是一个北京区域一个可用区的光纤被市政施工挖断，被挖断不止一处。EC2 API接口部分正好在被挖断的那个可用区，所以不能启动新的实例。遭遇这样的事情，也说明了市政的施工队总是那么猝不及防。

以上内容信息整理自：新浪、搜狐、腾讯新闻等相关网站、信息平台、公开新闻报道。

如有编辑统计疏漏之处，还望各位业内朋友补充补充。