从谷歌全球宕机看智能运维到底是哪里出了问题?

2020-12-22 14:11

自动配额管理系统出现故障,属于典型的运维问题。

出品 | 常言道

作者 | 丁常彦

据彭博社报道,美国太平洋时间12月14日凌晨3点47分左右,谷歌突然遭遇全球大面积故障,导致旗下的YouTube、Gmail、Google Drive、Google Search等服务出现异常,用户无法正常使用,全球多个国家及地区用户均受到影响。直到当地时间早上8点左右,谷歌的大多数服务才恢复正常。

这已经是谷歌5个月内第三次“掉链子”了。今年8月20日,谷歌旗下多项服务出现异常,涉及美国、印度、日本等多个地区,官方抢修5小时后才恢复正常;今年9月25日,谷歌系统瘫痪多半集中在美国东岸Gmail、YouTube、Google云端在系统死机时,不断有用户持续尝试进入,但都无法顺利使用。

到底是哪里出了问题?

对于12月14日这次全球大面积瘫痪,谷歌的工程师们连夜奋战,反应不可谓不迅速。但相比较危机之后的迅速反应,用户更希望谷歌能够提前做出预判,避免问题发生。

12月15日,谷歌官方出具的一份调查报告显示,导致宕机的原因是“internal storage quota issue”,即内部存储配额问题。具体来说就是:“我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。”

自动配额管理?这概念根本不理解啊,小编赶紧去咨询了华为存储的专家,经过专家解释,小编终于明白了。原来数据要写入到存储中,需要将数据存放在一个池中,每个要存进来的数据都要在对应的空间内存放,业务能写多少数据到池中,则需要“配额”来管理。

这就类似于仓库管理一样,货物来了要想入库,必须先让仓库管理员给指定位置。而自动配额管理出了问题,就相当于来了一卡车货,仓库管理员只给了几平米的空间,仓库管理员又没有及时调整地方,货物根本无法入库,不报错才怪。

华为存储的专家认为,自动配额管理系统出现故障,属于典型的运维问题;配额的出发点是希望限制应用对存储资源的无节制使用,但凡事总有例外,如果有突发情况,自动配额管理系统不能及时调整配额或者给出了错误的配额,就会导致谷歌这样的问题出现。

搞清楚了问题根源,以后如何彻底避免类似问题出现呢?专家建议,运维工作不仅仅在存储池即将写满的时候报警,如果能做到提前预测,在存储池即将写满的几个月之前就能发出预警,提前扩容来避免自动配额管理系统“罢工”。

存储的智能运维该怎么做?

调查显示,随着全球数据规模的爆炸式增长,企业数据中心的故障中,与存储设备有关的故障占到70%以上。尤其在新技术和新应用层出不穷的今天,运维工作日趋复杂。传统运维高度依赖人的经验,如何借助AI等技术的应用,实现智能运维已经成为行业发展的大势所趋。

谷歌自动配额管理系统出现问题无疑给智能运维提出了更高要求,企业必须选择更先进的存储容量预测和管理解决方案,以应对在智能运维上可能遇到的风险。为此,华为存储也在逐步构建起面向智能运维的AI能力,围绕客户关心的设备异常、容量预警等关键场景,逐步发布多个重量级AI特性,为客户业务的正常运行保驾护航。

DME(Data Management Engine,数据管理引擎DME)是华为数据基础设施智能运维平台,该平台通过与存储设备内置的设备AI以及云端AI(eService)实现三层AI协同,并通过融合统一的管理界面、自动化的闭环机制以及开放的API、旨在使能数据存储的“规划、建设、运维、优化”全生命周期场景的管理与运维自动化,帮助客户简化存储管理,提升数据中心的运营效率。

在容量预测方面,如果客户能够提前预知存储设备或存储池,甚至是更细粒度对象的容量变化趋势,那么容量配额不足导致服务宕机的发生可能性则会大大降低。华为提供的云上+本地联动运维能力,基于时序预测等关键技术,能够向客户提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒用户提前扩容。

在风险盘预测方面,华为硬盘异常检测模型服务依托华为自身在硬件领域的技术及经验积累,基于S．M．A．R．T．(Self-Monitoring Analysis and Reporting Technology)等硬盘关键数据信息构建机器学习模型,每日采集数据中心硬盘数据(硬盘ID、SN、硬盘非安全断电次数、通电时长),从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测,结合用户反馈数据,定期执行模型自优化,持续提升预测精度,可以为数据中心硬盘提供主动运维。截至目前,华为硬盘异常检测模型服务已经覆盖200多家企业数据中心,可帮助客户提前14天识别硬盘故障或风险,其中查全率达80%,误报率低于0．1%。

在存储性能异常预测管理方面,华为可以围绕存储性能相关问题提供全面分析处理方案。其中,基于时间序列预测等关键技术的性能预测特性以及基于阈值触发的性能潮汐预警,能够让客户预知设备关键性能指标变化趋势,如时延、IOPS、块带宽等,从而提早发现设备性能瓶颈点,辅助客户尽早规避可能发生的异常。

基于机器学习的关键性能KPI异常检测及根因定界特性,无监督自学习的异常检测模型能够实时检测设备时延是否异常,现网数据验证,异常检测准确率近90%;存储设备内置基于多集成树算法融合模型,外加皮尔逊相关性关联分析算法,实现异常根因的定界分析,基于现网数据的验证结果,根因定界Top3命中准确率近83%,提升客户发现性能问题、定位问题边界的效率。

未来,华为存储将基于领先的三层AI架构,通过与客户的联合创新,逐步推动产业迈向数据基础设施的“自动驾驶”时代,实现异常场景的快速自愈等L3级特性,不断降低客户运维门槛和运维成本,实时保障客户业务不受干扰。

数据基础设施进入AIOps时代

AIOps的概念最早出现在Gartner的报告上,即将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。简单地说,过去需要花费数个小时、数天甚至数周才能完成的故障诊断和修复工作,AIOps可能只需要花几秒钟,而且判断更加精准。

Gartner相关报告预测,AIOps的全球部署率将从2017年的10%增加到2020年的50%。到了2022年,部署AIOps平台的大型企业数量将2017年的不足5%,迅速提升到40%左右。如今,AIOps主要应用于电信、互联网、金融等多个涉及的IT运维领域,涉及网络、存储等多个层面。

尤其在数据基础设施层面,AIOps的应用不仅可以提升其自动化运维、故障处理和数据管理等能力,还可以进一步推动数据基础设施的智能管理,从而帮助存储管理员从繁琐、复杂的工作中解放出来。

华为DME作为融合AIOps理念的产品,正在开启数据基础设施运维自动化时代。以某全国性商业银行为例,该银行基于华为DME数据管理引擎,在融合管理、业务变更以及统一运维等场景引入安全可控的自动化以及智能能力,显著提升了运维效率及业务敏捷水平。

其中,在业务变更方面,传统方式下,银行为了确保零失误,往往采用堆人堆时间的方式,每一个具体任务都由运维工程师出具一个设计脚本,单任务脚本往往需要45分钟,而通过华为DME的应用,单任务脚本准备时间从45分钟降低到10分钟。在变更执行阶段,通过自动化能力的引入,变更前预审时间从20分钟直接减少到半分钟;不仅如此,DME还能够实现所有任务的并发执行,大大减少人力投入,变更任务越重,效率提升越明显。

而在性能分析方面,通过华为DME的引入,相较之前的逐段分析,通过端到端的拓扑呈现以及快速关联分析,性能问题的定位时间从小时级锐减到分钟级。

从谷歌的此次全球宕机事件,我们可以看出,在数据基础设施的运维层面,拥有强大的AIOps能力,才能在短时间内完成故障诊断和自动修复,对于保障业务连续性意义重大。正因为如此,华为也在通过DME与自身存储产品的融合,致力于为企业实现AIOps提供软硬搭配的全方位解决方案,为企业的数字化转型提供有力支撑。