什么是 AIOps?

在复杂的现代 IT 环境中,AIOps 利用人工智能简化 IT 运营管理并加速和自动完成问题解决过程。

什么是 AIOps?

AIOps(即人工智能 IT 运营)是应用人工智能 (AI) 来改进 IT 运营的方法。 具体而言,AIOps 使用大数据、分析和机器学习功能来执行以下操作:

  • 收集并汇总由多个 IT 基础架构组件、应用程序和性能监视工具生成的、不断增加的海量运营数据

  • 智能地从“噪声”中筛选出“信号”,以识别与系统性能和可用性问题相关的重要事件和模式。

  • 诊断根本原因并将其报告给 IT 部门以便他们快速响应和补救,或在某些情况下自动解决这些问题而无需人工干涉。

通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台,AIOps 使 IT 运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。

它可以缩小下面两大对立面之间的差距:一方面是日益多样化、动态且难以监控的 IT 环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 大多数专家都认为 AIOps 是 IT 运营管理的未来。

详细了解 AIOps

为何需要 AIOps?

如今,大多数组织都在经历转型,从包含独立静态物理系统的传统基础架构转向包含本地环境、托管云环境、私有云环境和公有云环境的动态组合基础架构,后者是在虚拟化或软件定义的资源(用于不断扩展和重新配置)上运行。

这些环境中的应用程序和系统将会产生海量的数据,而且数据量还在不断增长。 事实上,Gartner 估计,与原有基础架构相比,一般企业 IT 基础架构每年会产生 2 至 3 倍的 IT 运营数据。

基于领域的传统 IT 管理解决方案无法跟上数据量增长的步伐。 它们无法智能地从如此大量的相关数据中筛选出重要事件。 它们也无法将来自不同但相互依赖的环境的数据关联。 它们无法提供实时洞察和预测性分析,以便让 IT 运营团队快速响应问题,满足用户和客户对服务级别的期望。

走进 AIOps,它可以直观呈现所有环境的性能数据和依赖关系,分析数据以提取与慢速或中断情况相关的重要事件,并自动提醒 IT 人员关注问题、根本原因及建议的解决方案。

AIOps 如何工作?

了解 AIOps 工作方式的最简便方法是查看每一种 AIOps 组件技术(包括大数据、机器学习和自动化)在这个流程中起到的作用。

AIOps 利用大数据平台将孤岛式 IT 运营数据汇总在一处。 这些数据包含:

  • 历史性能和事件数据

  • 流式实时运营事件

  • 系统日志和指标

  • 网络数据,包括包数据

  • 事故相关数据和工单

  • 基于文档的相关数据

然后,AIOps 会应用重点分析和机器学习功能:

  • 从“噪声”中分离重要事件警报:AIOps 利用规则应用和模式匹配等分析功能来梳理 IT 运营数据,并将信号(即重要的异常事件警报)与噪声(其他数据)分离。

  • 确定根本原因并提出解决方案:借助特定于行业或环境的算法,AIOps 可将异常事件与环境中的其他事件数据相关联,以确定中断或性能问题的原因,并建议补救措施。

  • 自动响应,包括实时主动解决:AIOps 至少可以自动将警报和建议的解决方案传送给相应的 IT 团队,甚至可以根据问题的性质和解决方案来组建响应团队。 在许多情况下,它可以处理机器学习的结果,触发自动系统响应,甚至是在用户意识到问题之前实时解决问题。

  • 不断学习,改进未来问题的处理:根据分析结果,机器学习功能可更改算法或创建新算法,以尽早识别问题并推荐更有效的解决方案。 AI 模型还可帮助系统了解和适应环境的变化,例如 DevOps 团队提供或重新配置的新基础架构。

AIOps 优势

AIOps 的关键优势在于,它可以让 IT 运营人员识别、处理和解决慢速和中断事件,而且速度比在多个 IT 运营工具提供的警报中手动筛选更快。因此,它具有以下几个特定优势:

  • 缩短了平均解决时间 (MTTR):通过消除 IT 运营中的噪声并将多个 IT 环境中的运营数据相关联,AIOps 可以比人工操作更快、更准确地确定根本原因并提出解决方案。 因此,组织可以设立并实现以前无法想象的 MTTR 目标。 例如,电信运营商 Nextel Brazil 可以使用 AIOps 将事件响应时间从 30 分钟减少到 5 分钟以内。

  • 从被动管理到主动管理再到预测管理:由于不断学习,AIOps 更加擅长识别与较紧急情况相关的不太紧急的警报或信号。 换言之,它可以提供预测性警报,让 IT 团队提前解决潜在问题,从而避免导致慢速或中断事件。

  • 实现 IT 运营和 IT 运营团队现代化:AIOps 运营团队仅接收满足特定服务级别阈值或参数的警报,从而免受每个环境所产生的大量警报的轰炸,同时还会补全必要的背景信息,以便做出最佳诊断并采取最快且最佳的补救措施。 AIOps 学习越多且自动化程度越高,越能帮助在减少人力投入的情况下“保持警戒”,从而让 IT 运营团队集中精力完成能为企业创造更大战略价值的任务。

AIOps 用例

除了优化 IT 运营外,AIOps 可视性和自动化功能还可以支持和帮助推动其他重要业务和 IT 计划:

  • 数字化转型:数字化转型是导致 IT 复杂性(如多个环境、虚拟化资源、动态基础架构)的原因,而 AIOps 则是专门为此而生。 采用合适的 AIOps 解决方案,组织便可以更灵活地根据战略业务目标实现转型,而不必担心 IT 运营负担。

  • 云应用/迁移:对于大多数组织而言,云应用是一个循序渐进的过程,而不是一蹴而就,这会导致混合多云环境(私有云、公有云、多个提供商),并且存在多种相互依赖关系,而这些关系变换得太快太频繁,难以记录。 通过直观呈现此类相互依赖关系,AIOps 可以大幅降低云迁移混合云方法的运营风险。

  • DevOps 应用:DevOps 赋能开发团队提供和重新配置基础架构以便加速开发,但 IT 部门仍需要管理该基础架构。 AIOps 提供了 IT 部门支持 DevOps 所需的可视性和自动化功能,而无需完成大量额外的管理工作。

AIOps 和 IBM Cloud

IBM Cloud  允许您跨多云架构和现有 IT 进行构建和部署。IBM 的  AIOps  解决方案提供了所有环境的集中式可视性,使 IT 运营效率迈上新的台阶,从而让您的运营团队能更快诊断问题并解决事件。

IBM Cloud Pak for Watson AIOps  利用机器学习和自然语言理解,实时关联运营工具链中的结构化和非结构化数据,从而发掘隐藏的洞察并帮助更快识别根本原因。 无需使用多个仪表板,Watson AIOps 可以将洞察和建议直接反馈到团队工作流程,从而加快了事件解决速度。

要开始操作,请注册 一个 IBMid 并创建 IBM Cloud 帐户

(0)

相关推荐

  • 网络安全的 10 个步骤之日志记录和监控分析

    设计系统,使其能够检测和调查事件. 收集日志对于了解系统是如何使用的至关重要,并且是安全(或保护性)监控的基础.如果出现问题或潜在的安全事件,良好的日志记录实践将能够回顾发生的事情并了解事件的影响.安 ...

  • 5G邂逅AI,一场发生在运营商体系内的智能化“浪漫”

    "新基建"体系的明确,又一次把5G和AI两种技术紧密摆在了一起. 几年以来,全球对5G的价值讨论不断增多,"5G改变社会"成为了街知巷闻的常识.在众多关于5G的 ...

  • 数据中心变得更加灵活和可靠的五种方式

    By Vijay Kumar Mahalingam, VP, Technical Services, Rahi Systems 目前的大流行已经完全改变了组织对业务连续性流程的思考方式.企业正在重新思 ...

  • 你听过冰面的破裂声吗?AIOPS带你去聆听运维的细小故障

    关键词:AIops.运维.大数据 传统IT运维背景: 当今企业所面临的IT环境越来越复杂, 线上业务创新和业务开发的快速迭代已经成为企业保持增长的主要推动力量.随着业务发展的深入,企业的IT系统也日益 ...

  • 自媒体运营方案一、内容清单(定位、来源、...

    自媒体运营方案 一.内容清单(定位.来源.受众) 二.内容策划(目标.来源.标准) 三.内容定位(创造.呈现.效果) 四.内容初始化(架构.种子.路径) 五.内容运营(质量.渠道.机制) 六.数据复盘 ...

  • 排除Kubernetes故障,只需3步

    Kubernetes 生态系统充斥着各种工具,例如监控.可观察性.跟踪.日志记录等,但一般很难真正理解故障排除与这些工具有何联系. 当故障发生时,我们要掌握是从哪里发生,了解所面临的问题,解决眼前的问 ...

  • AIOps,又一个独角兽乐园

    资本的嗅觉往往是最灵敏的. 互联网行业是国内近年来变化最快的行业之一,电商.游戏.人工智能等风光的企业也往往是投资的热门.在风口变换的当下,资本也要寻找新赛道来抢占先机,对于ToB企业的投资已成为新风 ...

  • AIOps在美团的探索与实践——故障发现篇

    总第415篇 2020年 第39篇 AIOps,最初的定义是Algorithm IT Operations,是利用运维算法来实现运维的自动化,最终走向无人化运维.随着技术成熟,逐步确定为Artific ...

  • 建维以法 众智远行——建行云生态化运维方法助力AIOps实践

    建维以法 众智远行——建行云生态化运维方法助力AIOps实践

  • AIops | 一文了解日志异常检测

    背景介绍 日志是有关系统运行状态的描述,例如Linux的系统日志,数据库系统的日志以及分布式系统的日志等.日志是运维人员查看系统运行状态,寻找系统故障的重要数据.另一方面,日志属于非结构化数据,兼具有 ...

  • AIOPS趋势下的CMDB建设方向、思考与实践

    作为运维体系的基础组件,CMDB系统的建设质量与整个运维体系的建设息息相关,而当前AIOps的迅速发展也给CMDB的建设提出了更高的要求.付正全老师在充分分析了CMDB的发展趋势后,带大家重新认识了他 ...

  • LinkedSee灵犀创始人朱品燕:聚焦AIOps,智能运维将迎来大时代

    LinkedSee灵犀创始人朱品燕 近年来,人工智能正在从最初的概念泡沫变成随处而见的落地场景,AIOps(智能运维)就是在这样的趋势下,成为运维界不断追求的目标.脱胎于百度运维体系,成立于2015年 ...

  • 智能,服务,生态:华为调制的AIOps,味道有何不同?

    追踪AI技术这么长时间,我们亲眼见到了许许多多的职业,工作环境因AI而变得更好. 昔日在高空连续工作的吊车司机,变成了可以远程操作的"空调哥""空调姐":曾经风 ...

  • 智能运维服务平台(AIOPS)

    运维的发展在不断经历着数据场景转移.工具场景转移.运维场景复杂化等场景.从最初的没有数据,到有数据,再到数据太多的一个过程.然而这也带来了诸多的问题,比如数据孤立.工具的复杂化.无法贴合业务,无法有效 ...

  • AIOps基本概念以及能力分级

    AIOps 自从 Gartner 于2016年提出至今已有一段时间,虽然在顶级互联网及电信企业,已有较多落地,但至今仍无基于生产实践的理论体系及实施指南. 高效运维社区和云计算开源产业联盟(OSCAR ...