建维以法 众智远行——建行云生态化运维方法助力AIOps实践
1
建行AIOps实践现状与挑战
缺人才。AIOps人才门槛比较高,既要有丰富运维经验,又要掌握一定的AI算法知识。如果没在运维领域工作四~五年,就不会懂运维。
缺问题。我们不缺乏运维问题本身,而是缺乏边界清晰、描述准确且有评价标准的运维问题。
缺数据。机器学习领域知名学者吴恩达提出“80%数据+20%的模型=更好的AI”。从实际应用来看,如果找一个场景做AI,80%的数据非常客观。不过由于安全性的问题,我们很难从公开市场获得运维数据。
缺平台。AI要持续发挥作用,必须有敏捷、开放、共享且支持数据产生、模型训练、模型部署和优化一体的ModelOps平台做支撑。
2
建行云生态化运维体系
整体性,生态化运维是从方法论、制度流程、组织架构、技术能力、运营管理、内外部环境等全方位、多角度整体考虑的运维模式,面向生态圈成员整体而不仅仅是组织内部。
开放性,开放是生态的基础,包括技术、服务、理念以及价值的开放,具备以客户价值为核心的跨行业开放式的架构设计。
可持续性,生态圈需要经营管理、价值引导和文化润泽等生态运营举措,如采用仲裁管理、激励机制、评价反馈、开源管理、生态大学、生态链管理,切实保障和推动生态圈的互利互赢和良性可持续发展。
多元化,生态圈中涵盖不同行业、不同地域、不同性质的多元化组织。
服务化,是指将服务接口标准化,所有运维能力都以服务的方式向生态圈开放。
运维技术中台能力,运维能力通过碎片化中台沉淀,是生态化运维的基础支撑能力;
多租户支持能力,以混合云租户的形式提供开放能力,是生态共存的方式;
服务管理集成能力,生态圈中每个组织共享出来的运维服务需通过公共平台集成发布,是共享、众创的关键;
端到端安全能力,保障从服务发布到使用的企业级流程安全,是生态圈的生存基础;
生态管理能力,生态圈需要通过合理的运营才能发展壮大,是良性演进的融合催化剂;
运维实践能力,保障共享的运维能力能够快速在其他组织中参与实践,是生态化运维落地的必要条件;
组织保障能力,以全新的组织架构和绩效考核推动运维生态化转型,是生态运维动力源;
工具产品化能力,在运维中台的基础上提供将运维工具快速产品的能力,是生态化的共享基础。
活动标准化。将运维领域各项工作进行分解识别运维活动,并对活动的要求基本步骤、规则接口进行抽象和标准化表述,即将运维已知方法论进行精简、统一描述,基于此构建原子化的对象无关的运维活动服务。
对象模型化。在满足运维活动要求的基础上,按照奥卡姆剃刀原则,设计包含规则、属性、关系、指标、轨迹和标签的六要素对象模型,对象模型是特定对象运维管理的实例化,包含了对象整套的管理实践。模型是对传统CMDB的极大拓展,通过引入动态和高阶语义信息,实现运维对象的完整描述。
场景行业化。运维场景是运维人员的实际工作界面,每个场景都是为了实现特定运维业务的流程、对象、活动的组合。不同行业、不同IT组织的特定管理流程和行业参数设置等都需要在场景中落地。
3
生态化运维助力AIOps实践
写在最后
END