数据中心因暴雨崩溃,应急处置如何做
就算没有暴雨,在云时代,人们对宕机的容忍度也越来越小,这对数据中心容灾的能力提出了新挑战
“上云”已是共识,但云计算在自然界的“云”面前依旧脆弱。
7月18日18时开始,河南郑州出现罕见持续强降水天气过程。强降雨导致当地多区域电力、电信基础设施受到影响。云服务需要24小时在线,电力是其基础。断电的直接结果是,云服务受到了不同程度的冲击。
7月21日,中国移动公告称,河南部分地区受极端天气影响,枢纽机房断电,目前无法正常办理移动业务。
当天,河南本地一家名为海腾数据的服务商也在官网挂出数据中心受影响的通知。该公司称,机房由柴油发电带载,附近油站因道路积水导致无法供油到机房。考虑到存储油量有限,市电恢复时间不确定,建议用户紧急备份数据,或远程关机以避免数据受损。
7月22日,《财经》记者致电多位海腾数据人士得知,其服务依旧尚未完全恢复。出问题的郑州机房已有十余年历史,存储了当地政府、企业的数据。
此外,中国联通、中国电信也不同程度受到了影响。部分互联网公司在郑州的服务器节点出现波动。老牌网络原创文学平台晋江文学在7月20日发布公告称,主要网站业务所在的异地骨干机房在郑州市,机房因为暴雨停电暂时靠备用发电机供电,部分线路会有不稳定现象。这意味着,短时间内,晋江文学的一部分服务和用户将受到波及。
在中国企业在“上云”越来越普遍的情况下,云基础设施的7×24小时运转显得愈发重要。公司规模越大,用户越多,宕机造成的服务中断将引发越严重的后果。郑州暴雨前一周,B站、A站、豆瓣、晋江文学也曾因服务器故障服务长时间中断。尤其是中国最大的视频社区平台B站的宕机,在全网引发轰动。
人们对云宕机的容忍度几乎到了无法容忍的地步了。“水电煤”是生活必需品,云作为新一代的“水电煤”,也断不起。数据中心作为云计算的基础设施,和发电厂、自来水厂一样举足轻重。
自然灾害不可抗拒,但除了紧急启动保护措施,数据中心其实在灾害发生前有一整套“容灾备灾”的机制。如何建立这套机制,正是这次暴雨留下的最大教训。
01 被暴雨冲击的“云”
此次郑州暴雨来的又急又猛。
郑州市气象台数据显示,18日-20日三天降雨量617.1mm。郑州常年平均全年降雨量为640.8mm。这意味着三天下了以往一年的量。
暴雨以及随之而来的内涝直接导致电力设备崩溃了。郑州市区一座110千伏变电站被迫停止运行,部分区域生产生活用电受到影响。通信运营商是重要的受影响对象。郑州暴雨致多处通信网络中断。截至7月21日10时,郑州移动基站停电3563个,基站退服3152个。这还不包括当地的联通和电信。
如此暴雨下,云基础设施也很难独善自身。
事实上,和北京、东部沿海、南部沿海城市相比,位于中部地区的郑州并非云厂商数据中心的集中所在地。阿里云、腾讯云、百度云均未在此建设数据中心,也没有关键节点。
但郑州本地有多家云服务代理商,包括景安网络、海腾数据、亿恩网络、腾佑科技等公司。它们通常提供服务器托管、IDC加速等云计算周边服务。它们在中原地区很重要,甚至被一些三方研究报告称为本地IDC龙头企业。
简单理解,大型云厂商在全国重要区域会建设云计算的“大脑”和“骨架”,但在无法全面覆盖的其他区域,这些代理商则是提供了“血管”或是“毛细血管”的服务。
值得注意的是,他们大多位于郑州高新技术产业开发区,也就是这次暴雨核心影响区域之一。
有消息称,暴雨发生后,海腾数据在其官网挂出了数据中心受到影响的通知。该公司建议用户紧急备份数据,或远程关机以避免数据受损。记者致电海腾数据相关人士得知,断电之后,其柴油发电设备随即上线,但供油量不足,无法覆盖所有服务器。
受影响的还有景安网络,《财经》记者致电景安网络人士得知,其机房位于郑州东部的高新技术产业开发区。20日下午16时,断电导致服务器下线。截至7月21日下午18点,该公司已经通过柴油发电机紧急供电,但服务依旧不稳定。
前述的另一家郑州本地IDC服务商情况类似。这家公司也在郑州高新区。该公司有技术人士证实,其服务也因断电受到冲击。好在公司服务器都在二楼,没有被泡,不会因暴雨而不可挽回。
一位头部云厂商资深技术人士解释说,服务器被浸泡会直接导致服务中断,设备受损。严重情况下,IT设备可能直接报废。其中的数据也会遭遇无可挽回的丢失。
该技术人士认为,通常情况下,云厂商对数据中心的选址、建造都有考虑,容灾备灾技术能力相对较强。数据中心用电会有一套三级保护机制,除了正常供电外还有柴油发电、蓄电池,可以保证全年不间断供电。为避免暴雨、洪灾的影响,服务器通常会放在二楼以上。
不过,这次郑州暴雨强度太大,直接导致郑州本地部分服务商三级保护失效了。
首先是城市大规模、长时间断电。中国电网郑州供电公司此前在面对媒体“停电抢修为何这么久”的疑问时回应,大水浸泡过后的受损电力设备都需要抢修后重新做实验,保证安全的情况下才能送电。云服务商机房里的柴电设备、备用电源在长时间断电的情况下,不敢给所有机房同时开足马力。
另外,部分公司的柴电设备、备用电源均被特大暴雨“一锅端了”。前述郑州本地IDC服务商一位技术人士说,公司柴电设备在户外、备用电源智能撑1小时-2小时。暴雨袭来,一楼被泡,发电机和电源都派不上用场,两个大机房都受到了影响。
其中还包含少部分人为因素。一位资深技术人士告诉《财经》记者,一些严格的做法是,服务器、IDC机房会摆放规则,还会限制服务器的数量、摆放密度,以及备用电源的所在区域。目的就是避免出现“一锅端”现象,但这样成本会高很多。除了电信运营商的大型机房,大部分中小型企业会选择低成本模式。
云计算服务中断往往会连带造成客户损失。当问及客户损失要如何处理时,景安网络相关人士表示,目前已经多次接到相关反馈,公司会予以处理。上述郑州本地IDC服务商技术人士则称,暂时无法预估哪些客户受到了何种程度的冲击,也不知如何赔付。目前只能先考虑恢复服务。
《财经》记者查阅政府采购网、部分企业合同发现,关于服务器托管部分,往往一般会有一项“不可抗力条款”。不可抗力通常指地震、台风、火灾、水灾、战争、罢工以及其他双方共同认同的不能预见、不能避免并不能克服的客观情况。
部分“不可抗力”引发的事故被视为甲乙双方均不用承担责任。但在部分合同中,不可抗力引发的事故有严格的分级指标,而且服务商需要承担不同级别的责任。
7月22日,《财经》记者再次致电景安网络和上述郑州本地IDC服务商。对方回应称电力供应暂时尚未恢复,目前柴电设备处于满负载状态。好在郑州大雨已经暂停,预计22日内可恢复服务。
02 好的防御机制越来越重要
云计算中心的事故通常是天灾人祸综合因素的结果。
郑州并非全国核心数据中心主要聚集地。此次暴雨虽然受到了一定冲击,好在冲击并未造成重大事故,尚在可接受范围内。
历史上,亚马逊、三星,欧洲最大的云服务和网络托管服务运营商OVH都遭遇过重大事故,甚至部分事故引发了不可挽回的严重后果。
2012年7月,美国东海岸大型雷电风暴导致中部各州断电。亚马逊一数据中心因此暂停服务。这导致Netflix、Instagram、Pinterest以及Tinder等多个美国国民级App瘫痪。
2014年4月,三星在韩国首尔郊区果川的机房发生重大火灾。三星官网因此暂时瘫痪,部分手机用户的服务也受到了影响。
2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾。大火导致了五层高、占地 500 平方米的 SBG2 数据中心被烧毁。这直接引发1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复,其中还包括法国政府的部分数据。
这类重大安全事故在国内目前相对少见,但并不排除未来会出现。随着国内上云速度进一步加快,如何避免重大安全事故,保证基础设施稳定运行将是一个重要核心议题。
此前多家云厂商管理与技术人士曾对《财经》记者表示,数据中心安全保护不可能靠临时抱佛脚解决,全靠形成一整套完整的选址、防护、备灾以及容灾机制。
其中一位腾讯基础架构部人士说,“这套机制就像在一个可能会决堤的河流上提前修起大坝。我们应该靠机制减少抗洪抢险的现象。”
建立选址、备灾、防护体系是为了让数据中心有一套“安全网”。比如,头部云厂商选址时会统筹考虑自然因素。数据中心通常会远离地震、洪水等灾害多发地。不能避免这个问题的话,也有解决措施。比如,在火灾高发地,洪灾高发地都有不同建设方案。
“不同数据中心的备灾措施需要根据当地的自然环境各方面去统筹考虑。”阿里IDC事业部总经理高山渊说,设计备灾措施时,方案如何执行、谁去执行只是基本考虑因素。备用设备的状态切换时间、启动成功率等细致因素都需要一一想到。这都是尽量提高备用设施的启动概率。
容灾则是形成了容错机制。“多点多活”是其中的重要办法。简单说,就是让数据长出“三头六臂”,砍掉一个之后,依然可以正常运转。或是让一个面临重大灾害的人被瞬间传送到其他安全场所。
阿里云数据中心能源与碳管理专家毛宏举向《财经》记者解释,保障数据中心和云服务的可靠性,不仅需要保障硬件,软件层面也要有备份,“相当于云服务的容错机制”。即使在最糟糕的情况下,一处数据中心出现故障,也可以把这部分负载切到其他地方。
一位百度云人士则透露,百度业务是多地域容灾部署(华北/华东/华南三地域),数据在每个地域都有副本,同时还有离线远程备份,能容忍单个地域出现的极端灾害。
也有腾讯基础架构部人士此前对《财经》记者称,腾讯春晚保障团队其实就是在反复练兵。前些年,各个头部互联网公司的“容灾备灾”在春晚红包活动中得到了沉淀。
实战才是检验各个云厂商“容灾备灾”最佳方式。不过,没人会希望这一天真正到来。