双11,如果数据中心断网断电会怎样?

双十一刚过,每年的双十一都非常火爆,那么阿里巴巴是如何来保证双十一的网络正常、平稳的呢?

6天前,阿里巴巴内部曾先后发起了断网、断电的突袭,而这些突如其来的意外一旦真实发生,都会对双11造成毁灭性的打击。

发现断网后,阿里工程师快速发现定位到故障,并完成了主备切换,仅仅88秒后,一切恢复正常。断电则更为粗暴,数据中心工程师直接拉下电闸,随后,备用蓄电池第一时间为服务器供电,几秒种后柴油发动机自动启动,所有设备恢复正常。据悉,此次突袭没有任何提前预警或通知,而最终所有业务没有受到影响,用户也毫无察觉。

阿里云五大超级数据中心支撑双11,采用液冷服务器

阿里云启用五大超级数据中心支撑双 11,包括上万台液冷服务器

2020年11月3日,在阿里巴巴双11技术沟通会上,阿里巴巴副总裁、阿里云基础设施负责人周明表示,为支撑屡创纪录的交易峰值,2020年双11将有包括张北、乌兰察布、河源、南通、杭州在内的五大超级数据中心合力支撑,让消费者们享受丝般顺滑的”剁手”体验。其中在杭州数据中心内,全球规模最大的液冷服务集群将有上万台液冷服务器投入生产处理双11的海量计算工作,这些服务器的网线连起来,可以绕地球一周。

阿里巴巴重构了业内罕见的”给服务器泡澡”冷却技术——工程师将服务器浸泡在特殊的绝缘冷却液中,散热全程无需风扇、空调等制冷设备,大大降低了数据中心的能耗,整体节能超70%,年均PUE可达1.09,全球最低。除了硬件外,阿里工程师还设计了一套适合浸没液冷的监控管理系统,故障率降低了50%。
(图:液冷服务器)
这也是全球唯一投入大规模部署的液冷集群,近十亿剁手党们在消费的同时还将创造史上最绿色环保的双11。初步估算,相比传统数据中心,阿里云杭州数据中心可每年省电7000万度,相当于西湖周边所有路灯连续点亮8年的耗电量。假如全中国所有的服务器都采用液冷技术,每年将节省超过800亿度电接近三峡大坝一年的发电量。未来阿里云还将在全国建立10座以上的绿色超级数据中心,支持数字新基建发展。
与此同时,AI机器人、智能运维等技术也逐渐大规模使用。今年双11,阿里云数据中心的巡检机器人”天巡”升级到了第二代,不仅实现了无”人”值守,还可全自动更换故障硬盘:自动巡检——故障盘定位——取盘换盘——硬盘通电,整个动作一气呵成,只需4分钟即可完成更换动作。”我们的智能检测系统可以做到1分钟发现、1分钟定位、分钟级恢复,通过技术手段实现了从故障预测、故障诊断到故障修复的系统化、自动化流程,最大程度提升维修效率。”周明表示。
(0)

相关推荐