华章数据运维能力发展工作组:手把手教你如何做好数据中心接维
数据中心发展简介
20世纪40年代,美国生产了第一台全自动电子数据计算机“埃尼阿克”。庞然大物“埃尼阿克”的问世开启了计算新时代,也是与之配套的“数据中心”的鼻祖。到20世纪80年代,微机开始流行起来(微机:现在叫“服务器”),虽然计算机被大量运用在各个领域,但人们似乎还未重视计算机的运维需求。到了90年代中期,互联网掀起的“波浪”,让成百上千的小机房在创建中广泛发展,但机房配套设备还是十分简陋。到2010年代,云计算数据中心又逐渐的走进了大家的视线,智能化、模块化、虚拟化成为云计算数据中心的标签。设备配置以及供电、供冷保障已达99.99%,99.999%的高可靠级别。
随着数据中心的演变发展以及第三方托管数据中心的迅猛发展,行业之间的竞争愈发激烈。安全可靠、高效节能数据中心是数据中心业主最关心的两个指标。作为运维人员,需要保障业务连续性100%来作为数据中心最有力的“捍卫者”。
纵观整个数据中心的生命周期需要经历5个阶段,分别是规划阶段、设计阶段、建设阶段、测试验证阶段、运维管理阶段。而五个阶段中历时最长、最关键的阶段就是运维管理阶段。为确保一个数据中心顺利而安全的从建设阶段转入运维阶段,是需要运维人员付出大量努力的。最关键是需要运维人员提前介入到前面阶段中去,如果条件允许,运维人员在设计阶段介入最为有利,如条件不具备,最晚也是要在建设初期阶段介入。笔者有幸负责过几个大型数据中心的接维工作。在这里将建设阶段介入时的接维工作经验分享给大家,供大家参考。
施工初、中阶段
1
运维团队搭建
从项目开始施工,运维团队就要开始组建,优先保障核心人员的到岗时间及工作分工。然后再着重关注运维值班组的招聘,建议运维管理者全程参与招聘全过程,从简历的搜索、面试并与应聘者保持生活、工作方面的持续沟通。
2
图纸熟悉、解读
运维人员组织熟读施工图纸,包括但不限于(柴发、电气、电源、给排水、暖通、智能、装修)将打印成册的纸质版图纸携带到施工现场分专业、分楼层、分房间进行核对,施工现场与图纸有出入的及不利于日后运维的地方及时反馈形成一份问题表,每日滚动更新,跟进建设团队整改,直至闭环。
3
跟进工程进度
参与工程日例会,了解施工工程进度,例如柴发到货、安装日期,冷机吊装进入冷冻站的工序及安装操作项等。根据施工进度实时对齐,检查安装工艺,提前做好隐蔽工程的验收。
4
运维团队搭建组织测试验证招标
根据图纸及设备清单开始编写测试验证招标文件,开始组织招标工作。确保在设备完成调试前一个月确定测试验证服务单位。
5
运维管理体系
数据中心运行管理文档工作可以开始制定,例如值班管理制度、例会管理制度、机房施工管理制度、设备上下架管理制度、上下电管理制度、标签标示管理制度、备品备件管理制度、钥匙管理制度、工具仪表管理制度、库房管理制度、资料档案管理制度、设施运维部门职责、培训、考核管理、团队建设管理等等。
施工中后期阶段
1
测试方案审核
确定好测试验证单位后马上组织编写测试验证方案并审核,对测试方案细则内容提出合理化修改建议并根据工程施工可交付的工作面实时提出方案里对于测试时间方面的调整。同时要求测试验证单位开始准备人员、假负载、工具等物资。
2
管理流程制定
运维服务合同、SLA服务协议及支撑文档的解读,拆分、细化形成相对应的变更管理流程、事件管理流程、问题管理流程、知识库管理流程。
3
运维培训
运维梯队专业技能培训,形式主要为专业理论知识及现场完工区域设备模拟操作培训,内容包括但不限于各类子设备之间的关系、电、油、水路控制逻辑、安全生产培训,各类管理制度宣贯等等。
测试验证阶段
按工程交付出的测试界面及测试方案开展测试验证工作,这时候运维团队需要全程配合测试工作。原因是:
1. 为监督测试方实行的工作是否到位,过程中运维可根据经验对测试方提出测试方案未具体定义的测试项。
2. 运维团队在测试验证工作中深度掌握设备控制、切换逻辑、设备标准操作流程、应急操作流程等。
3. 为后续编辑4P文档(SOP、EOP、MOP、SCP)提供技术指导支持。
验收阶段
1
问题整改
大力推进总包单位对客户、运维、测试方提出的问题整改。整改率可按A类问题100%的比例、B类问题95%的比列、C类问题90%的比例整改。例如机楼墙体渗水、设备精保洁、隐蔽工程问题的查找,这些老大难的问题需要有运维专人跟进落实整改。
数据中心验收问题数量最多的几类问题分别是:
1. 封堵:线槽、管道、电缆穿墙、跨层穿越楼板的孔洞封堵;
2. 标识:设备标识、管线标识、路由标识、指示标识等是最容易出错且需要大量补充完善的地方;
3. 清洁:地板上、地板下、天花上、吊顶里、设备内部等部位是最难清洁的部位,一定要请专业精保洁公司进行逐层、逐房间清洁,否则此问题将会耗费大量精力;
4. 漏水:外墙、天面、窗户等雨水渗透,冷凝水、管道漏水等将此起彼伏,需要专项建立管理制度,持续治理漏水问题。
2
验收、文档工作
数据中心验收管理方面,数据中心验收内容、文档清单、设备验收移交记录表、数据中心验收问题列表等。供应商管理方面,合同研究分析、厂商通讯录整合、供应商级别明细列表、供应商服务报告模板制定等。
3
运维团队考核
根据运维团队前期跟进机房建设、运维专业知识培训、测试验证跟进所积累的经验出具运维笔试题库以及现场各子设备实操、应急时效保障及正确性几方面考核运维团队,查漏补缺以及实行老带新、传帮带的方式提升运维整体专业水平。
运维接管阶段
1
文档工作
制定基础设施巡检表、维护保养表单、全年维护保养计划表(需上墙)、应急演练方案(涵盖单、双路市电停电演练、单台变压器故障演练、单台UPS故障演练、市政停水演练、BA故障演练、冷机故障停机等演练方案)、电气、暖通拓扑图、消防疏散逃生指示图制定并上墙、PUE记录表、能效持续优化方案、空间、能源、电力、水资源管理办法等等。
2
细节管理分工
运维管理者日常对数据中心内、外进行整体协调、管理工作外,运维值班工程师也可承担“小管理”的工作,例如库房管理、备品备件管理、工具仪表管理、资料档案管理等等。
3
问题闭环
刚进入运维期间的数据中心设备运行是最不稳定的,会存在不少量的设备部件需要更换、温湿度不能有效的控制、各种设备通讯中断、保温棉包裹不严实产生冷凝水等问题。运维需做此些问题的逐条整改并优化机房,毫无疑问,这时的运维团队将工作价值再一次的体现出来。
4
日常工作
许多工作在前期就已经剖析、开展进行,此时的运维工作不至于日夜加班追赶进度了。只需按部就班的开展日常对内管理工作、对外沟通协调工作以及日常设备巡检、设备维护保养、应急抢通抢修工作等等。
总结
通过梳理数据中心从土建施工阶段到运维接管阶段过程大致工作内容,将有利于运营管理者对比管理工作的缺漏,通过上文的大致阐述加上运维管理者自身的经验,学习、综合更加全面的运维管理策略,提高运维管理思路及大大减少返工率。