从安全事件响应流程谈 SOAR 的高效运维 | 绿盟科技技术博客

一、前言

随着现代信息化的快速发展,全球已进入互联网+大数据+人工智能时代。网络在带给我们生活便利的同时,各种网络安全威胁也层出不穷,特别是数据泄露、DDoS攻击以及感染物联网设备僵尸网络等网络攻击事件日益严峻,传统的安全防护手段已经很难应对。因此,在信息化大数据时代,我们要以大数据技术对抗大数据时代的网络安全威胁。

二、ISOP简介

绿盟智能安全运营平台(ISOP),利用其强大的大数据分析能力及各类机器学习算法,快速检测各类威胁攻击,如APT攻击事件、Botnet事件、恶意样本传播、WebShell、隐蔽隧道,ARP攻击,账号口令暴力破解等,并产生运维事件(incident)。同时,兼具自动化编排与响应系统,用户异常行为分析系统,网站安全管理系统,一键处置闭环管理系统,脆弱性威胁管理系统。

三、SOAR简介

SOAR(Security Orchestration, Automation and Response)安全编排与自动化响应,是Gartner2017年提出的新概念。绿盟科技经过2年自研,于2019年发布了安全编排与自动化响应解决方案。通过可视化编排技术,定了端到端的响应处置流程。

绿盟科技SOAR解决方案,采用自研的SecDevOps框架,工程人员可以基于标准插件化模板实现不同设备厂商的数据源接入,快速引流数据到ISOP平台。同时还可以基于标准插件化模板快速集成不同设备厂商的设备管控能力, 并完成管控设备插件的启用,实现管控设备的开箱即用能力。

四、可视化编排

绿盟科技SOAR以案例为逻辑管理单元,采用端到端的形式进行可视化编排,通过编排组合SOAR工具箱中的安全日志,安全事件,规则模块,提取模块,逻辑处理模块,工单模块,预警模块,NDR模块等,实现安全能力的集成与编排。

该可视化编排页面采用拖拽的方式进行节点的编排,每一个节点都支持编辑,删除操作(起点和终点除外)。其中,数据源标签下的节点,主要用于确定自动化处置的事件来源;分析标签下的节点,在数据源的基础上,进一步明确事件来源;研判响应标签下节点,主要用于自动化处置,例如:获取IP字段的情报的信息,根据情报结果进行判定是否需要进行封堵或者创建工单,最后,当处置完成后,进行告警通知;逻辑判定标签下的节点,可以根据已有的字段信息,进行逻辑运算,决定是否进行下一步处置动作。

五、SOAR在安全事件运维中的作用

攻击无法避免,在攻守时间线上,攻击者处于先手位置,攻击者发起了攻击,防护者才有可能发现异常,并进行防守,且防守存在一定的滞后。特别是人工防守,涉及到防守方案制定,多人员协作,多设备联动,审批,工作流等,MTTR(平均响应时间)花费时间较长。

根据PPDR模型:Pt>Dt+Rt时,系统才是安全的。Pt:防护时间,入侵者攻击安全目标花费时间;Dt:入侵开始到系统检测到入侵行为花费时间;Rt:发现入侵到响应,并调整系统到正常状态时间。Pt,Dt变化很小,那么,减少Rt时间,就可以快速的达成保证系统安全运行的目的,而SOAR正好为此应运为生。

SOAR有助于将复杂的事件响应过程转换为一致的、可重复的、可度量的工作流。SOAR通过联动多个系统和平台来调整不同的安全工具和技术,将人和技术编入业务流程中,创建手动和自动协同操作的工作流步骤,以简化安全流程,加快事件响应,减少MTTR时间。

SOAR能够弥补传统SIEM/SOC运维中的短板:

  1. 事多人少

大量的运维事件/告警,有限的运维人员,虽然在引擎层面可以归并一部分事件/告警,但是当面对大量不同的事件/告警时,人工无法及时处置,导致系统暴露在危险中,同时,也给运维人员增加了较大的工作压力,由此导致更加容易犯错。

  1. 响应时间较长

从确定响应方案到执行,除了团队人员内部协同外,还需要EDR/NDR设备的参与。人工去执行封堵等操作,可能需要在不同的系统和工具间进行切换,涉及到审批时,也不及时,无法在短时间内阻断破坏的进一步传播。

  1. 知识积累

在进行运维事件响应处置的时候,针对具体的事件,选择其对应的处置方式,而这些需要对运维人员有较高的要求,必须拥有丰富的运维处置经验。而这些处置经验,有一些比较固定的流程在里面,可以固化下来。案例库就是SOAR的一个主要功能,其固化了安全专家的经验,运维响应可以借鉴案例库中的响应流程对运维事件继续处置。

六、安全运维的流程

事件(Incident)响应与管理,是SIEM/SOC平台中的一个关键能力,在绿盟智能安全运营平台ISOP中,运维的入口为【运维响应】->【运维工作台】->【事件运维】。

安全事件响应流程,依据不同的威胁程度、事件类型,响应流程不同;不同公司、部门对于安全事件的响应流程也不同,这里列举一种通用的响应流程为:

精简化的流程为:

  1. 信息收集

当一个运维事件/告警产生的时候,安全员要做的工作,就是收集事件/告警的相关信息(IP信息,端口信息,涉及资产信息,攻击手段,流量上下文,载荷,外联情况,ATT&CK库,情报信息等)

  1. 初步判断

根据收集到的信息,和系统实际情况进行比对,确认该事件/告警是否为误报,如果确认误报,需要调整规则或策略,使之不再产生,减少运维人员在此类事情上投入的时间。当排除误报后,需要对攻击结果进行判定。在判断的时候,可以保留取证信息,根据事故的严重程度决定是否需要司法机关接入。

  1. 研判

在经过初判之后,研判人员根据信息收集的结果,进一步判定:

a.    是否攻击成功,

b.    事件等级(特别重大,重大,较大,一般)是否需要重新判定,

c.     影响范围确认,

d.    攻击强度及持续性定级确认,

e.    响应方案的制定。

  1. 处置

如果攻击成功,结合阻断/隔离-消除-加固策略,根据实际情况第一时间采取封堵,隔离等有效措施防止威胁在内网中横向传播,将损害和影响降到最小范围,并保留现场,报告本单位信息技术安全分管责任人和主要负责人。如果是外部攻击,根据类型及强度决定是否报警。如果是内部攻击,就定位到IP(责任人),收集证据,评估影响,和当事人约谈,根据公司的安全制度进行相应的处置。合适的遏制手段可以为应急响应团队争取了对事故根本原因调查和判断的时间;对于需要线下进行处置的工作,可以使用工单系统进行线下处置。

注:线上指的是可以直接登录系统进行执行动作,线下指的是需要人工参与去手工确认。

  1. 清除、加固

在阻止威胁进一步传播之后,下来就进入原因分析阶段,我们将在这个阶段收集更多的数据,从而了解攻击发生所使用的ATT&CK,确定事故的源头是内部还是外部,以及攻击者如何获得对资产的访问权限。在调查清除运维事件(incident)的原因后,紧接着需要消除威胁,消除方式根据事件类型而定,可以参考权威机构发布的修复策略和清除工具。消除之后,将进入加固阶段,除了修复入侵的薄弱点之外,还需要查漏补缺,对系统进行巡检,以确保此类事故不会再次发生。具体的操作有:关闭不必要的服务,增加IP/网段访问控制规则,限制请求频率,系统升级,安装最新漏洞补丁等。在执行完加固措施后,还需要依据生产环境上线运行流程规范,对所实施的措施进行验证和评估,防止引入新的脆弱性和其他安全问题。

  1. 总结经验

历史总是惊人的相似,受到的威胁可能还会再次遭遇,对于运维事件的响应流程,我们应该及时分析,总结整个处置过程, 不断优化,并且固化到流程中,以达到高效运维的目的。同时,安全运维人员需要多关注安全威胁动态,及时更新技术知识,不断提升自己的安全能力水平。

高效运维,已经成为当前各行业和企业IT部门必须要解决的问题。高效运维是人,流程,设备之间的达到一个可跟踪,高协调,可量化,流程标准化的一个状态。短时间内,一个企业的运维人员和安全设备的变动情况很小,那么,最有可能优化的地方就是流程了。SOAR 具有安全编排和自动化响应能力,可以把一致的、可重复的动作预先通过“剧本”的方式编排好,就像音乐会演奏的交响乐剧本一样,当安全事件发生时,可以按照预先定义好的流程顺序执行,自动化完成整个响应过程。

七、如何提高运维效率

那么如何用SOAR来提高运维效率:

1. 掌握保护、检测、响应、恢复模型,安全编排和自动化响应适用于该模型的各个环节,并不只针对响应。但由于现阶段响应环节自动化比较薄弱,且SIEM/SOC系统已经包含了检测能力,所以,目前SOAR主要侧重于响应,恢复环节。在编排的时候,需要对处理的安全事件非常了解,正确编排取证、判断的字段等关键信息,以及联动设备做出何种反应,如何进行恢复。

2. 积累经验库,并不是所有的安全事件都可以用SOAR来进行自动化处置,SOAR也并不是要取代安全人员,SOAR是一种自动化手段,是用来提高安全人员的处理能力。对于已处理的威胁事件,响应的步骤应该固化到经验库中,增加经验积累。针对可以自动化的步骤,形成剧本,使用自动化的手段来执行,以提升处置的效率,减少人工参与带来的风险。

八、SOAR演进方向设想

  1. 细化编排能力

  • 针对情报黑名单,可以引入白名单的功能;

  • 针对固定的封堵时间,可以引入阶梯封堵策略;

  • 针对告警信息不足,可以主动去丰富信息等;

  • 针对全局统一策略,可以针对不同分组设置不同的策略;

  • 针对固定的阈值,可以根据条件设置不同的阈值等。

  • 主要思想就是满足不同场景化的编排能力。

  1. 打通设备/平台壁垒,扩充编排能力

  • 和终端设备联动,如UES ,扩充的能力有进程隔离,进程终止,文件隔离,文件恢复,注册表清理,启动项管理,主机端口封禁,主机服务禁用等。

  • 和网关设备联动,如WAF, NF, ADS, IPS, IDS,扩充的能力有:封堵,隔离,牵引等。

  • 和检测类系统联动,如沙箱检测,支持的能力有:确认动态确定文件是否恶意。

  • 和工作系统联动:对工作流进行跟踪、处置,效率评估。

  • 和情报系统联动:支持对IP, 域名,文件等情报检测。

  • 通过不断的和其他系统进行联合,逐步扩充SOAR的安全编排、处置能力。

  1. 融入智能基因

目前市场上的安全编排都是事先定义的、流程确定的编排,当SIEM/SOC检测出新型威胁,而没有对应的案例与之匹配时,系统可能短时间内暴露在失陷的封风险中。那么,基于机器学习,基于已经成功处置的大量运维经验,以及案例模板库,AI是否可以”新建”一套处置流程,并进行自动化响应处置?答案是肯定的,且”新建”的编排流程应该支持修改,用户可以自定义进行调整。

参考资料:

https://www.gartner.com/en/documents/3882466

https://www.gartner.com/doc/reprints?id=1-1YE69EYM&ct=200218&st=sb

https://nti.nsfocus.com/pdf/The_situation_analysis_of_network_security_for_2020_07.pdf

(0)

相关推荐

  • 网络安全应急响应技术实战指南

    用于安全事件响应的工具与资源的列表,旨在帮助安全分析师与 DFIR 团队. DFIR 团队是组织中负责安全事件响应(包括事件证据.影响修复等)的人员组织,以防止组织将来再次发生该事件. 目录 对抗模拟 ...

  • 网络安全的 10 个步骤之日志记录和监控分析

    设计系统,使其能够检测和调查事件. 收集日志对于了解系统是如何使用的至关重要,并且是安全(或保护性)监控的基础.如果出现问题或潜在的安全事件,良好的日志记录实践将能够回顾发生的事情并了解事件的影响.安 ...

  • 网络安全等级保护:应急响应计划规范思维导图

    信息系统容易受到各种已知和未知的威胁而导致有害程序事件.网络攻击事件.信息破坏事件.信息内容安全事件.设备设施故障和灾害性事件等信息安全事件的发生. 虽然很多信息安全事件可以通过技术的.管理的.操作的 ...

  • 安全运营中心需要提升的核心能力

    根据NIST Cybersecurity Framework,网络安全工作可以分为识别.防御.检测.响应.恢复五个大的阶段,安全建设在识别.防御.恢复三个阶段成熟度已经比较高了,相比之下检测.响应是当 ...

  • Forrester:2020年安全分析平台厂商评估

    [注:本文不是译文] 在Gartner 2020年度的SIEM魔力象限出来之前,我们先看看Forrester最新的安全分析平台(Security Analytics Platform)的厂商评估报告( ...

  • Gartner:2021年SIEM(安全信息与事件管理)市场分析

    [注:本文非译文!] 2021年6月29日,Gartner发布了2021年度的SIEM市场魔力象限分析(MQ)报告,对全球2020年的SIEM市场进行了分析和厂商评比.由于2019的报告被推迟到了20 ...

  • 防病毒管理策略

    防病毒管理目的是规范防病毒管理过程,加强病毒的预防和治理,提高病毒防范能力,提升病毒处置水平,防范和化解病毒带来的信息安全风险,保障信息系统安全稳定运行. ▼▼防病毒管理原则 病毒防治工作遵循&quo ...

  • SOAR还面临着一条很难跨越的鸿沟

    如果问当前安全圈儿热点的话,SOAR无疑算是炙手可热的一个.相比当年威胁情报.态势感知的火爆,一点也毫不逊色. SOAR相关的创新产品.科普知识和媒体宣传铺天盖地,但传达出来都是"积极&qu ...

  • 什么是应急响应?网络安全应急响应体系的要素

    学习网络安全的小伙伴,肯定都听说过应急响应,那么到底什么是应急响应?网络安全应急响应体系的要素是什么?这是每个网络安全工程师需要了解的问题,我们一起来学习一下吧. 什么是应急响应? "应急响 ...

  • 定时任务的书写流程是什么?linux运维知识

    Linux运维基础学习中,关于定时任务了解多少呢?咱们今天就来简单了解下定时任务的书写流程. 一.定时任务的书写流程 1.为定时任务规则加必要的注释 2.执行shell脚本任务前加/bin/sh 3. ...

  • DNS系统解析基本流程有什么?linux运维知识

    DNS在一一个网站运行中起到了至关重要的作用,主要作用是把网站域名解析为对应的IP地址.DNS的解析流程实际上就是从用户在客户端浏览器中输入网站地址并按回车开始的,一直持续到获取域名对应的IP.那么在 ...

  • 稳妥运行!我为华事德电厂连续7年提供高效运维服务

    项 目 背 景 伊拉克华事德电厂项目是上海电气首个自主EPC总承包.长期运维的大型总包工程.该项目共计4台330MW与2台610MW燃油机组.自2013年首台机组获得预验收证书以来,上海电气已经在当地 ...

  • (1条消息) 产品开发管理之流程和体系(总篇)_weixin_33736832的博客-CSDN博客

    weixin_33736832 2018-10-10 08:43:00 你是否因为游戏画面模糊不清.头疼不已却又不知道如何改变?锁定1月21日在线公开课,技术大佬空降直播间与您共同探讨如何借助硬件光线 ...

  • saltstack高效运维

    saltstack高效运维   salt介绍 saltstack是由thomas Hatch于2011年创建的一个开源项目,设计初衷是为了实现一个快速的远程执行系统. salt强大吗 系统管理员日常会 ...

  • 数字员工替代人力办公,「金智维」如何为企业降低人力成本,实现高效运维?

    2009年,金智维开始着眼于将自动化引入到企业工作流程中,这成为RPA(机器人流程自动化)进入中国市场的早期雏形.如今,金智维已成为一家专业的RPA解决方案服务商,为金融行业等提供专业RPA实施,让软 ...

  • 有了这个数字化双胞胎,数据中心高效运维,稳了!

    618年中大促结束了,各大电商平台及商家纷纷晒出了战绩,你今年贡献了多少?每次大促销时,各大电商平台都要提前排兵布阵,从优惠活动到客服团队再到数据中心的运行,必须万无一失,才能斩获辉煌业绩. 今年,某 ...

  • 【大家谈】安全事件响应: 自动化引领未来 | 网络安全

    网络安全技术的不断发展为网络安全管理人员提供了大量的工具和数据,可是每个组织内部应急响应队伍中的人员数量仍然有限.欧洲网络与信息安全局(ENISA)在对45个国家.企业的应急响应组(CERT)进行调查 ...

  • 陈刚大夫讲糖:从“糖尿病问诊流程”谈医患双方应该如何做?

    (陈刚大夫讲糖) 我在做科主任和基层医生培训师的时候,做过一个"糖尿病问诊流程图",那是对一名糖尿病医生的基本问诊要求.通过详细的问诊,您就会获得更加详细的资料,这对医生充分评估患 ...