智能运维服务平台(AIOPS)
运维的发展在不断经历着数据场景转移、工具场景转移、运维场景复杂化等场景。从最初的没有数据,到有数据,再到数据太多的一个过程。然而这也带来了诸多的问题,比如数据孤立、工具的复杂化、无法贴合业务,无法有效融合数据,提炼数据的价值。数据永远是多纬度并存管理的关系,无法快速提炼核心关注点,很难有效的进行管理分析。
有数据、有工具、有团队,但是缺少集中告警、缺少统一展现、缺少关联分析,这是当前众多企业IT运维共同面临的问题。
面对工具多样性、告警源多样性、数据多样性、团队多样性的场景,TOC 智慧服务方案提供了边融合、边迭代的解决方案。通过 “松耦合” 的方式持续整合专业运维工具、数据、流程,持续优化运维数据共享、团队协同、资源优化的一体化智能运维效果。
统一的告警服务台管理流程
TOC 集上整合来自不同工具的告警信息,实现统一告警。平台注重实际运维场景的需求,对告警提供原始发生时间、接收时间和响应时间多个维度的统计显示。服务台人员在收到告警后,能够根据告警所关联的项目信息,预先通知系统记录的具体处理人进行告警故障处理,实现重大告警责任到人,及时升级
团队协助,高效的工作流程
TOC提供灵活的告警分类及分派策略,可以将不同级别、内容的告警分配给不同的运维人员。利用多级告警升级策略,逐级进行告警匹配。运维团队可通过排班和自动化升级机制,组织起一线、二线、三线的阶梯式团队,建立起 7 x 24 小时的应急响应机制。 在合适的时间,把告警推送给最合适的人员。
告警级别映射,统一服务水平管理
对于不同的告警源数据可以在TOC平台进行告警级别重新映射,支持多种条件进行告警级别映射,方便服务台统一告警管理。
多场景的告警抑制及屏蔽策略
TOC平台对接多个子系统的告警,针对各子系统会有定期或不定期变更的情况,容易产生大量告警误报,平台提供了灵活配置的告警勿扰、屏蔽及智能压缩规则。比如:有些系统产生的告警需要7x24告警管理服务,有些系统只需要5x8告警管理服务。另外针对网络环境中因为一个问题而导致大面积故障的现状,可以利用TOC的告警压制策略抑制告警风暴,让用户把精力放在最重要的问题处理上。
ITSM工单对接,告警全生命周期管理
TOC 平台支持和流程工单系统进行对接,实现手动派单和自动派单的自动化流程,同时支持多维度的工单统计信息,为IT运维持续优化提供依据。
TOC 作为汇聚多个告警源的集中告警服务台,与ITSM 工单流程统一对接,不仅避免各告警工具分别与ITSM 对接,而且能够从更高维度实现告警响应能力的统筹管理,能够从更高维度支持多个关联告警的合并开单,提升服务管理效率。