从崩溃到有序,阿里巴巴数据中心如何一路走来?
2015 年,微信在春晚发红包,在全国观众的冲击下,一度跪倒长达一小时,俯首拜年;
2018 年,淘宝在主持人口播活动开始的一瞬间,服务器瞬间超过负荷,重蹈腾讯三年前的覆辙;
2019 年,百度呕心沥血,成功接下春晚红包项目,洗刷过往十年风尘。
春晚战事下,强大如腾讯、阿里皆落得狼狈收场,百度也大有“一将功成万骨枯”之势方才稳下阵脚。
上述种种,在罗振宇的口中,“我们对春晚一无所知”,道出了其中的艰辛和挑战。
无知、不慎、血拼之后,尘埃落定,春晚战事告一段落。表面上看,是中国三大互联网巨头在春晚巨大流量面前的脆弱。再往深处看,看到的则是数据库、服务器等 IT 设施无法满足时代需求。
春晚一战后,BAT 回归自己的商业地盘,在趋势需求和技术驱动下,化曾经的不堪、不甘、不逮为新的动力,奋力去构建更稳固的护城河。或许,相比之下,阿里有更多机会去再次证明自己。
2019 年双 11,就是一个不错的机会,在需求和挑战面前,静待曾经的不堪被打破。
96 秒成交额破 100 亿,达全球最大流量洪峰,每秒订单峰值 54.4 万笔,在这个刚刚过去的 2019 年双 11 中,一个个数字对于消费者多是一场惊叹的狂欢,对于局中人则是静默的宣告着战场的残酷。
这一次,阿里技术团队面对第十一次双 11,他们扛住了。
在平稳度过 2019 天猫双 11 流量峰值后,阿里宣布其核心系统已 100%跑在阿里云公共云上,中国唯一自研的飞天云操作系统成功扛住全球最大规模的流量洪峰。今年的订单创建峰值更是创下新的世界纪录,达到 54.4 万笔 / 秒,是 2009 年第一次天猫双 11 的 1360 倍。
据阿里介绍,两个月前悄悄完成这一浩大的迁徙工程,将数以十万计的物理服务器从线下数据中心迁移到了云上。由此,阿里巴巴成为全球首个将核心交易系统 100%运行在公共云上的大型互联网公司,同为云计算巨头的亚马逊、微软、Google 等无人能出其右。
天猫双 11 十一年来一直在推动着阿里的技术进步,每一个峰值性能的背后都需要一个大规模数据中心来支撑,征服双 11 流量洪峰意味着阿里云已经有能力应对商业世界更加复杂的技术挑战。
从 0 到 1 的跨越,外人或知此非易事,唯有阿里苦走了十年。今天,站在阿里以技术引领时代的潮头,回顾往昔,忆其峥嵘岁月。
忆往昔峥嵘岁月
回顾阿里数据库发展历程,大概可以分为三个阶段:
第一阶段(2005-2009)商业数据库时代;
第二阶段(2009-2015)开源数据库时代;
第三阶段(2016 年 - 至今)自研数据库时代。
商业数据库时代:IOE 成瘾
商业数据库时代是大家熟知的 IOE 时代。
IOE 即:
I(IBM,服务器提供商,他们提供的服务器俗称“小型机”)
O(Oracle,数据库提供商,他们的软件是著名的“甲骨文商业数据库”)
E(EMC,存储设备提供商,他们提供的是“集中式存储”)
商业数据库时代,购买国外成熟的设备和系统,几乎是 BAT 和所有国内大企业的唯一选择。从阿里业务规模起始到 2008 年渐成规模,阿里的 IT 架构中,淘宝和支付宝使用的绝大部分都是 IBM 小型机、Oracle 商业数据库以及 EMC 集中式存储。
随着用户数和数据量的猛增,服务器的处理能力几近满载,同时伴随着彼时阿里的崛起之势,IOE 的设备和系统逐渐开始暴露出问题,价格太高以及对于大数据量处理能力的瓶颈成为了“去 IOE”最大的诱因。
2008 年中旬,研发一套新技术架构替换掉阿里旧引擎的计划,在公司内部开始萌芽、发酵。
同年,王坚加入阿里,为阿里技术的基因埋下种子。
开源数据库时代:“去 IOE”拥抱开源数据库
“去 IOE”
2009 年,阿里的 Oracle RAC 集群节点数达到了创记录的 20 个,排名亚洲第一。但随之而来的是服务器的频繁宕机、无法很好满足业务需求和设备、软件等方面越来越高昂的成本支出。
规模和动荡之间,有对阿里业务发展速度的褒奖,另一方面又无不是对摆脱 IOE 的敦促。
在 2009 一整年的摸索和筹备之后,“去 IOE”正式写进了阿里的公司战略:“2010 年以后,再也不购买小型机、放弃 Oracle、转投开源数据库。”
“去 IOE”:即去除以 IBM、Oracle、EMC 为代表的小型机、集中式数据库和高端存储所组成的传统 IT 基础架构,转而以商业化的 x86 服务器和 SSD、开源数据库 AliSQL(阿里巴巴的 MySQL 分支)和分布式数据库中间件 TDDL 组成的更加灵活、易于扩展、成本更优的适合互联网需求的新型 IT 基础架构。
“去 IOE”带来了三个重大的意义:
第一是解决了扩展性的问题,让数据库具备了横向扩展(弹性)的能力,为未来很多年双 11 零点交易峰值打下了很好的基础;
第二是自主可控,阿里在 AliSQL 中加入了大量的特性,更能满足双 11 等特定情况下对于数据库的技术要求;
第三是稳定性,原来在商业数据库时代,把所有数据都放在小型机里,去 IOE 之后不仅仅解决了单机故障,更是通过异地多活的架构升级让数据库跨出了城市的限制,可以实现数据库城市间的多活和容灾,大大提升了系统的可用性。
从更深层的意义上说,“去 IOE”是在互联网+、云计算快速兴起后,企业用户迫切需要能够保证其业务发展和创新的更加开放、灵活、高效的 IT 基础架构。此举推动了用横向扩展取代纵向扩展,用开源软件代替商业软件的进程,为云计算的发展搭桥铺路。
此外,“去 IOE”还促进了我国自主可控的发展。阿里的成功让大量中国的服务器厂商、软件平台和应用软件厂商,以及立足自主研发的存储厂商看到了实现跨越式发展的契机。
2009 年,阿里云正式成立,在王坚的带领下从零开始打造那个想象中的属于中国的云计算系统,取名“飞天”。
开源数据库
“去 IOE”迫在眉睫,一众阿里技术大牛投入其中。一年的努力,开源数据库 MySQL 的一个阿里专属分支 AliSQL 被雕刻出来。2011 年 7 月,淘宝商品库完成了从 Oracle 到 AliSQL 的大迁移,意味着软件替代方案被验证成功。
硬件方面,AliSQL 团队在硬件替代方案上不断验证,协助设计了一套兼顾网络性能、存储性能和成本最优的服务器采购方案。
软硬俱全,阿里扣响了通往开源数据库的大门。整个阿里巴巴集团进入了 2012-2013 年史诗般的整体大迁移。
AliSQL 数据库开始一点一滴地渗透进集团每一个服务中。2013 年 5 月,阿里最后一台小型机下线;2013 年 7 月,淘宝核心系统中的最后一台 Oracle 数据库下线。至此,“去 IOE”战略宣告达成,这场史诗般的大迁移落下帷幕。
2012 年双 11 前,淘宝天猫的所有数据库都从 Oracle 替换成 AliSQL,阿里巴巴依靠 AliSQL 重返那个盛大的战场,接受最严酷的考验;
2013 年,阿里惊险的实现单集群 5000 台服务器,把飞天推上 5K,杜绝了诸多业务停摆的灾难。
其中,在 2013 年双 11 前,阿里技术团队还完成了两项技术创新:“服务器资源弹性部署”和“数据中心异地双活”。
服务器资源弹性部署,可以应对不可预知的业务爆发。一旦有超出预期的业务热点出现,系统可自动调用其他资源使用不足的服务器,实现“分钟级无缝切换”,在不增加硬件部署的情况下应对更复杂的流量变化;数据中心异地双活则可以帮助阿里应对极端的情况,即使杭州的数据中心宕机,系统仍然能够支撑双 11 的顺利运转。
在此,有业内人士指出,目前行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。而阿里的容灾系统是“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,阿里的底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。
帷幕之下,大众尽兴四散,看不到的背后是阿里 2012 年双 11 的涅槃重生,是 2013 年双 11 有惊无险。惊险一跃,飞天 5K 的成功开始让阿里云驶上了快车道。
因为突破了技术瓶颈,在 5K 之后,ODPS(飞天 5K 计划项目名)只用了几个月就冲上了单集群 10K,进而实现了无限制扩展。到 2018 年,已经更名为 MaxCompute 的 ODPS 达到了数万台的规模。
飞天是国内目前唯一自主研发的云操作系统,已发展成国内规模最大的计算平台,调度全球数百万台服务器,在全球 200 多个国家和地区为数百万客户提供服务,可扩展至 10 万台计算集群,在阿里经济体中支撑了全局数据存储和计算,年数据处理量超过 600PB,阿里提供的数据显示,公司 AI 服务的每日调用量高达百亿次,服务全球近 15 亿人。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论