大数据安全分析05_数据采集技术

大数据分析中的数据采集方式包括Logstash、Flume、Fluentd、Logtail等,本文对这几种数据采集技术进行简要介绍。

Logstash

Logstash是一个具备实时处理能力的开源的数据收集引擎。可以动态地从不同的来源收集数据,将数据处理(过滤、变形)过之后统一输出到某个特定地址,为将来更多样化的数据分析做准备。Logstash的作用包括:
  • 收集各类系统日志:如Apache日志、log4j(Java程序日志)、Windows系统事件日志。通过Filebeat能够实现安全、快速的的日志传输。能够与很多采用UDP及TCP协议的工具对接,如JMX、NetFlow等等。

  • Elasticsearch的数据采集的利器,可以配合Elasticsearch和Kibana使用;对input、filter及output部分可以使用多种插件灵活配合部署用以实现不同功能。

  • 在Web接口服务中,可以收集HTTP请求。能够与各类SQL或非SQL数据库对接,只要这个数据库支持JDBC接口。

Flume

Flume是由Cloudera公司开源的,分布式可靠,高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本,经过架构重构后,Flume NG更像是一个轻量级的小工具,适应各种方式的日志收集,并支持failover和负载均衡。

Flume NG的特点:
  • NG只有一种角色的节点:代理节点(Agent)
  • 没有collector,master节点,这是核心组件最核心的变化
  • 去除了physical nodes,local nodes 的概念和相关内容
  • agent节点的组成也发生了变化,脱离了zookeeper

Fluentd

Fluentd是一个日志收集系统,通过丰富的插件,可以收集来自于各种系统或应用的日志,然后根据用户定义将日志做分类处理。通过Fluentd,你可以非常轻易的实现像追踪日志文件并将其过滤后转存到MongoDB这样的操作。Fluentd可以彻底的将你从繁琐的日志处理中解放出来。
本质上,Fluentd可以分为客户端和服务端两种模块。客户端为安装在被采集系统中的程序,用于读取log文件等信息,并发送到Fluentd的服务端。服务端则是一个收集器。在Fluentd服务端,我们可以进行相应的配置,使其可以对收集到的数据进行过滤和处理,并最终路由到下一跳。下一跳可以是用于存储的数据库,如MongoDB, Amazon S3,也可以是其他的数据处理平台,比如Hadoop。Fluentd有四个关键功能,使其适合构建清洁,可靠的日志管道:
  • 使用JSON进行统一日志记录:Fluentd尝试尽可能地将数据结构化为JSON:这允许Fluentd 统一处理日志数据的所有方面:收集,过滤,缓冲和跨多个源和目标(统一日志层)输出日志。使用JSON可以更轻松地进行下游数据处理,因为它具有足够的结构,可以在保留灵活模式的同时进行访问。
  • 可插拔架构:Fluentd拥有灵活的插件系统,允许社区扩展其功能。我们的500多个社区贡献插件连接了数十个数据源和数据输出。通过利用插件,您可以立即开始更好地使用日志。
  • 所需的资源较少: Fluentd是用C语言和Ruby组合编写的,只需要很少的系统资源。vanilla实例运行30-40MB内存,可处理13,000个事件/秒/核心。
  • 内置可靠性:Fluentd支持基于内存和文件的缓冲,以防止节点间数据丢失。Fluentd还支持强大的故障转移功能,可以设置为高可用性。

Logtail

Logtail是日志服务提供的一种便于日志接入的日志采集客户端。通过在您的机器上安装Logtail来监听指定的日志文件并自动把新写入到文件的日志上传到您所指定的日志库。Logtail的功能优势主要包括以下几个方面:
  • 基于日志文件、无侵入式的收集日志。用户无需修改应用程序代码,且日志收集不会影响用户应用程序的运行逻辑。
  • 除支持文本日志采集外,还支持binlog、http、容器stdout等采集方式。
  • 对于容器支持友好,支持标准容器、swarm集群、Kubernetes集群等容器集群的数据采集。
  • 能够稳定地处理日志收集过程中各种异常。当遇到网络异常、服务端异常等问题时会采用主动重试、本地缓存数据等措施保障数据安全。
  • 基于服务端的集中管理能力。用户在安装Logtail后,只需要在服务端集中配置需要收集的机器、收集方式等信息即可,无需逐个登录服务器进行配置。
  • 完善的自我保护机制。为保证运行在客户机器上的收集Agent不会明显影响用户自身服务的性能,Logtail客户端在CPU、内存及网络使用方面都做了严格的限制和保护机制。

扩展  ·  本文相关链接

· 大数据安全分析04_数据传输方式

· 大数据安全分析03_数据采集对象与数据类型

· 大数据安全分析02_大数据安全分析技术框架

· 大数据安全分析01_为什么要用大数据技术进行安全分析?

· UEBA如何在企业有效地应用与落地

· 安全运营的定义与核心目标

·SOAR还面临着一条很难跨越的鸿沟

·网络安全成熟度与投入产出比

·这些年我对安全成熟度模型的一点点思考

·透过等保2.0,解读当前网络安全新趋势

· OODA循环在网络安全运营平台建设中的应用

·基于主动防御能力,建设安全运营体系的一点思考

·如何利用量化指标评价网络安全建设成熟度(四):安全运营评价指标

·如何利用量化指标评价网络安全建设成熟度(三):安全控制评价指标

·如何利用量化指标评价网络安全建设成熟度(二):评价过程与方法

·如何利用量化指标评价网络安全建设成熟度(一):框架模型

(0)

相关推荐

  • Fluentd Bit 1.6文档

    ‍ Fluent Bit 是一个开源的 日志处理器和转发器. 它支持从不同的数据源采集日志和系统指标, 并使用过滤器修改这些数据,然后将其发送到多个目的地. 相比Fluentd,Fluentd Bit ...

  • Fluentd插件:输出插件概述

    输出插件用于将日志输出到指定的后端系统(包括存储.实时分析等).输出插件通常支持格式化和缓存功能. Fluentd v1.0输出插件有3种缓存与输出模式: 无缓存模式:不缓存数据,直接输出处理结果. ...

  • Fluentd输出插件:out_elasticsearch用法详解

    " 把日志输出到elasticsearch做业务分析,这大概是最普遍的日志采集用途了" out_elasticsearch 输出插件用于将日志记录写入elasticsearch. ...

  • 大数据平台

    大数据平台-数据采集和集成技术和工具整理 原创人月聊IT2021-03-01 18:09:03 今天谈下大数据平台构建中的数据采集和集成.在最早谈BI或MDM系统的时候,也涉及到数据集成交换的事情,但 ...

  • EFK:免费的日志采集与可视化搜索套件

    我们收集日志是为了做进一步的分析.收集是第一步,收集到日志后还需要进行存储.索引,以便进行快速查询分析.我们还需要一个友好的查询界面,来方便用户使用日志. 本文介绍一个免费的开源软件组合,正好可以实现 ...

  • 大数据安全分析03_数据采集对象与数据类型

    安全告警.系统与应用日志.网络流量以及资产漏洞.威胁情报等数据中,都包含大量有价值的安全信息,对这些分离的多源异构数据进行统一的采集与预处理,能够为网络安全大数据分析提供重要的数据基础. 日志数据 日 ...

  • 大数据安全分析07_大数据存储技术介绍

    鉴于网络安全数据组成的复杂性.规模,以及对实时搜索响应的需求,需要通过大数据存储集群快速实现空间的扩容,在PB级的安全数据中做到安全分析查询的秒级响应,同时需要为数据提供了冗余机制,保障数据的安全. ...

  • 大数据安全分析06_数据解析技术

    由于网络空间态势感知的数据来自众多的网络设备,其数据格式.数据内容.数据质量千差万别,存储形式各异,表达的语义也不尽相同. 如果能够将这些使用不同途径.来源于不同网络位置.具有不同格式的数据进行预处理 ...

  • 大数据安全分析02_大数据安全分析技术框架与关键技术

    大数据分析通过对安全告警.系统日志以及网络流量等海量多源异构数据进行采集.存储与分析,打破原有网络安全烟囱式防护模式,将所有安全防护措施与安全数据打通,解决网络安全防护孤岛和数据孤岛问题. 大数据分析 ...

  • 大数据安全分析01_为什么要用大数据技术进行安全分析?

    关于安全运营系列文章,在2020年10月份写了篇<安全运营的定义与核心目标>,算是开了个头.后面几个月由于精力不够,内容方向也没有想清楚,就一直没有继续写. 安全运营的范围太大了,还是觉得 ...

  • 大数据安全分析08_大数据处理框架介绍

    大数据安全分析需要支持对接分布式数据库进行离线批处理分析,来实现长周期的网络安全.用户行为.业务安全分析,所以大数据平台首先需要支持批处理模式. 网络流量产生的实时数据往往是高吞吐量的,一个小型Mbp ...

  • 大数据安全分析09_关联分析简介

    大数据关联分析提供了基于规则.基于统计的关联分析功能,能够实现对于安全事件的误报排除.事件源推论.安全事件级别重新定义等效能. ▼▼关联分析简介 关联分析是在大规模数据集中寻找有趣关系的任务.这些关系 ...

  • 大数据安全分析10:复杂事件处理(CEP)简介

    复合事件架构是由史丹佛大学的David Luckham与Brian Fraseca所提出,使用模式比对.事件的相互关系.事件间的聚合关系,目的从事件云(event cloud)中找出有意义的事件,使得 ...

  • 大数据安全分析04_数据传输方式

    大数据分析中数据传输方式包括SYSLOG.kafka.JDBC/ODBC.文件或FTP.Agent等方式,本文对数据传输方式进行简要介绍. SYSLOG syslog日志消息既可以记录在本地文件中,也 ...