历经6年红包大战后,BAT云计算正走向“春晚时代”
百度APP不像微信是个日常应用,它是一个刚需但低频的工具型APP,用户用完即走,不会保持长时间在线。但在春晚期间,用户抢红包、集卡会使得使用时长、操作频次大大提高。
同时,春晚红包涉及百度数十个产品、数百个操作场景,这会给百度APP带来高并发、大流量,同时给百度云的服务器、带宽等技术基础设施带来巨大冲击。后果可能是用户打开百度APP缓慢,无法登录账号,点击界面无反应,甚至白屏,更别说抢红包。
因此,百度技术团队需要梳理的问题很多,甚至比腾讯FIT、阿里云团队更要繁琐:
1、需要针对本次春晚的突发需求,让外网骨干网可以支撑大带宽快速接入;
2、技术方案确定后,还要解决资源供应问题。比如要在2周内采购到货3000台服务器。还需要运营商资源为百度核心IDC提供近10T带宽和数十个CDN节点等资源;
3、准备时间过短引发运营商资源提供方面的许多问题,比如商务部门需要和50多个城市的CDN运营商资源紧急谈判;
4、外部对接结束之后,内部技术团队还需要进行资源部署、系统联调、压力测试。
可以说,2019年以前,几乎每一个春晚红包团队,都会遭到炼狱一般的技术考验,从腾讯到阿里无一幸免。然而,2019年春晚,百度APP的“零宕机”纪录是互联网公司的首创。
二
你开心抢红包时,程序员却在心惊胆战
春晚时,每一个人都在开心抢红包。你以为只是页面偶尔卡顿了一下、网络延迟了1秒,实际上背后有着无数个技术团队的“紧张时刻”。每一个程序员都是心惊胆战,时时刻刻准备着对系统进行抢救。
对于2019年的春晚红包而言,期间也是考验频频,而背后的百度技术团队总算让这场红包狂欢有惊无险。
简单说,春晚红包带来的技术难点基本是这几个:不可预见的峰值流量瞬间涌入,红包系统架构复杂带来了协调成本,春节返乡导致地区间流量资源分配要临时调整。
1、不可预见的峰值流量瞬间涌入
淘宝春晚项目技术负责人此前在2018年春晚淘宝多次崩溃时曾出面解释其中的原因——我们真的对春晚的力量一无所知。
以2018年春晚为例,当时淘宝是那年春晚的主角,主要策略是绑亲情账号、发红包。技术团队很早就预估到了登录系统压力。当时基于一些历史数据推导出了极端情况,最终决定以2017年双十一的容量为基础,对登录数扩容3倍。
结果,春晚当晚登录的实际峰值超过了2017年双十一的15倍,尤其新用户的瞬时登录更是完全超出预料。
可以说,互联网公司上春晚,等于是往下沉市场扔了一颗炸弹——这一次据百度技术部门统计,春晚期间登录值可达到日常用户登录峰值的2500倍。
大量用户在同一时间发、抢红包、点页面,瞬间产生每秒千万级,甚至亿级的请求,请求如果不加以疏导处理直接到达后台,会导致服务过载甚至崩溃。
为完成今年春晚的高并发流量考验,百度提前进行服务流量隔离、系统升级、专线新增以及服务器扩容等工作,完善流量峰值时段的体验,还进行了多轮全链路压力测试和多轮的方案预演。
今年春晚百度APP也的确相对平稳,没有出现崩溃的情况。
2、红包系统架构复杂带来了协调成本
和淘宝注册、登陆系统还不一样,注册登陆一般只有一次响应,注册登陆之后响应就结束了。今年百度的红包系统更多是支付系统,支付系统的响应次数往往是多次的,而且表面上看,一个红包从发出到抢到时间不足一秒,但背后是在红包业务系统、交易支付系统、零钱账户系统这三个层级之间游走——它需要多方提前沟通测试。
因为一个红包如果是通过银行卡发出,必须要先向银行提出申请,银行会进行扣款,扣款成功后,后台会通知支付系统,红包系统到这时才会把红包放出。在其他用户抢到红包后,又会以零钱形式进入用户账户中。
红包几秒钟现金出出进进,都需要耗费服务器资源,由于资金频繁进出银行,部分银行的技术能力又非常有限,百度也需要和银行前期协调,进行承压测试。
百度工程效率部对用户刚登录APP时的内容加载进行了优化。后台系统还会自动检测流量变化,快速计算资源,智能调度早已准备好的冗余资源,增加系统容量,合理分配带宽。这些措施可以让数亿级用户同步登录APP,正常加载服务,不出现白屏。
3、春节返乡导致地区间流量资源分配要临时调整
抢红包的指令是从全国不同地区下达的,服务器还需要根据不同地区进行响应。
百度系统部一位负责人就提到,因为回家过年,网民会从一线城市下沉到三四线城市。这使得流量结构发生改变,DC数据中心和CDN带宽不得不进行调整。
阿里云2017年也曾遇到过这个问题,当时的解决方案还相对简单。蚂蚁金服技术专家天镜飞在2017年的一场活动中就曾提到阿里是如何应对流量结构变化这个问题的:
华东1机房和华南机房分别承担40%和60%的流量,并且它们都是非云的机器。在新春红包业务上,支付宝将60%的流量切到华东2机房中,并且将其上云。此外,在华南机房会部署15%的云机器。也就是说,新春红包业务中,75%的机器是在云上运行的,在活动结束后,流量又会切出。
不过,百度吸取前人教训后,把这种应对策略进行了改进调整:提前规划好了不同地区的所需要的网络资源。通过智能调度系统,分钟感知不同地区资源紧张程度,并进行相对应的资源调度和补给。也就是说,流量资源调度分配更智能了。
在这个系统中,整个体系就像一个弹性容器,可以全自动自如扩容缩容。
最新活动更多
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
精彩回顾立即查看>> 全数会2024中国深圳智能制造与机器人展览会
-
精彩回顾立即查看>> 2024(第五届)全球数字经济产业大会暨展览会
-
精彩回顾立即查看>> 维科杯·OFweek2024中国工业自动化及数字化行业年度评选
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论