从青萍之末到微澜之间,问题就是这么简单
作者|康翔
编辑|阿冒 设计|沐由
2020年,终于翻篇了。然而,还有很多事情却不会成为“过去式”,譬如挥之不去的宕机。就像是数字时代的瘟疫一样,宕机在2021年乃至未来,必然还会长期存在。
至今我们犹记得,国外某家大型云服务公司在12月遭遇的事故:由于“内部存储配额”的小小问题,导致了各种数字业务罢工,人们的工作生活被极大干扰。
不难想象,技术领先、体量庞大的云服务公司尚且会中招,那么更多的传统企业和机构必然也面临类似的威胁,或者说它们已经有切肤之痛,只是由于自身不够有名,因此不为人知罢了。
那么,我们不妨来看一下,到底什么是存储配额呢?
先举个不一定恰当的例子。就像我们在上大学时,肯定会对家里提供的生活费做出一个初步的规划,衣食住行各自需要多少的预算。一旦某项出现overflow,就势必会影响到其他项目,导致月底啃咸菜、喝稀粥的状况。
显然,如果不想出现这样的情况,就必须对具体的项目作出硬性的规定,并且进行严格的执行。譬如每天的饭钱应该控制在多少,每月的社交聚会最多参加几次……
实际上,这就是配额在日常生活中的表现形式之一。
顾名思义,存储配额是一种在存储容量上做出的限制,即通过事先规划一个存储池,让不同业务来源、不同类型的数据,都能够在其中得到自己的居所,大庇天下数据俱欢颜。
然而,理想与现实之间,总会有一种我们始料不及的巨大落差,在存储系统里也是如此。原先,我们可能以为某个应用占用存储空间不大,因此在配额上更多地向其他应用进行了倾斜。
孰料,由于某些特殊的原因,该应用的存储需求在短期间内突然上涨,导致分配给它的空间被迅速消耗殆尽,包括它在内的各种应用甚至没有得到咸菜稀粥的机会,就直接被shut down了。
实际上,诸如此类的故障在我们身边,仍在日复一日地上演着。与往年相比,各种科技巨头、证券公司在2020年遭遇到了更多的系统故障与瘫痪。
究其原因也很简单,由于新冠疫情的缘故,越来越多的公司在2020年寄望于数字化的运营提升企业的业务表现。主观上这自然没有问题,然而由于不相匹配的运维能力,导致各种宕机情况迭出。
显然,在新基建的大背景下,以及数字化转型的迫切需求,运维能力已经成为企业存续与业务发展的前提条件,它关乎到企业在不确定性环境下的数字化应变能力,从原先垂直的技术领域升格为企业决策层日常关心的核心议题。
在一日千里的数字世界里,运维不能再“深藏闺中”,企业必须做好数字基础设施的管理与运维。当前,每时每刻都有数据不断从本地、云上、边缘产生出来,因此传统的存储管理与运维模式已经难以为继,企业需要统一的AI运维。
作为数据基础设施的智能运维平台,华为数据管理引擎DME通过统一的管理界面、开放的 API、云上联动的AI 功能、多维度智能风险预测与智能调优等优势,能够帮助企业实现数据存储的“规划、建设、运维、优化”。
对于企业而言,华为数据管理引擎DME实现了数据存储全生命周期的自动化管理与智能运维(AIOPS),整个过程可视、可控、可追溯,可以极大地简化存储管理流程,从而提升数据中心的运营效率。
在日前由百易传媒(DOIT)发起的“百易奖”评选中,华为DME数据管理与运维自动化解决方案获得了“2020年度人工智能技术创新奖“。
专家评委一致认为,华为DME解决方案创新性地引入了三层AI架构,实现了数据中心存储网络的自动化资源发放、智能运维以及智能数据流动,助力运维极简以及业务敏捷创新。
最近几年以来,围绕客户关心的设备异常、容量预警等关键场景,华为存储逐步构建了面向智能运维的AI能力,并连续发布了多项重量级AI特性,为客户业务的正常运行保驾护航。
譬如,在容量预测方面,华为存储提供云上+本地联动的运维能力,基于时序预测等关键技术,能够向客户提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒用户提前扩容。
想想看,这是不是有点像现在的天气预报?基于超级计算机,我们可以“预知”相当长一段时间里的天气状况,从而做到未雨绸缪、防微杜渐。
同样,通过华为存储提供的容量趋势预测,客户能够提前预知阵列或存储池等对象的变化,那么由于容量配额不足导致宕机的可能性,必然会大大降低。
与此同时,基于华为S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)技术,每一天数据中心里的硬盘状态都会被预测,并反馈数据,让客户对硬盘进行主动运维,化风险于无形之中——制敌机先,这也是智能运维的核心理念。
截止目前,华为硬盘异常检测模型已经服务于超过200家企业数据中心,能够帮助客户提前14天识别硬盘的故障或风险,查全率达到80%,误报率低于0.1%。
另外,存储的目的不是“存得了”,而是“存得好”。基于一系列的创新技术与功能,华为可以帮助客户提前发现设备性能的瓶颈点,早早加以解除,始终让业务和数据运行在最佳状态,为企业提供最好的ROI(投资回报率)。
通过内置基于多集成树算法的融合模型,外加皮尔逊相关性关联分析算法,华为存储还能够实时监测设备时延是否异常,解决传统经验或静态阈值预警难以应对的场景。
最后,在智能运维的自动驾驶之路上,华为存储将不断创新,不断突破业界难题,逐步实现异常场景的快速自愈,大大降低客户的运维门槛和成本,为客户的业务保驾护航。
通过主动下沉AI能力,集成各种创新技术,华为在存储端带来了全新的智能运维体验,让那些看起来似乎微不足道,但却可能带来极大伤害的问题,最终消散得无影无踪。
风起于青萍之末,浪成于微澜之间。很多时候,那些影响到企业业务的大范围故障,甚至造成区域乃至全球数字服务宕机的根本原因,还是在于数据存储管理与运维的不足,而这将最终决定企业的数字化运营能力。
我们由衷希望,通过像华为数据管理引擎DME这样的创新产品方案,广大企业能够补齐数字化转型的短板,全面激活创新,释放出更多的活力和创造力。
欲看更多文章