大数据安全分析06_数据解析技术

由于网络空间态势感知的数据来自众多的网络设备,其数据格式、数据内容、数据质量千差万别,存储形式各异,表达的语义也不尽相同。
如果能够将这些使用不同途径、来源于不同网络位置、具有不同格式的数据进行预处理,并在此基础上进行归一化融合操作,就可以为网络安全态势感知提供更为全面、精准的数据源,从而得到更为准确的网络态势。
数据解析是从事先规定好的格式中提取数据。解析的前提是需要提前约定好格式,数据提供方按照格式提供数据、数据获取方则按照格式获取数据。
常用的数据格式有TXT, Excel, CSV, XML,JSON 和数据库(典型的如关系数据库MySQL,NoSQL数据库MongDB等)。支持的解析类型主要包括正则表达式、键值对、XML、json等。

▼▼正则表达式

正则表达式,又称规则表达式。是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式是数据解析主要使用的方法,通过正则表达式的语法编辑出需要匹配的正则表达式,就可以从收集到的源数据中截取出可以作分析有用的字段。

▼▼扩展标记语言 (Extensible Markup Language, XML)

用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。
XML使用DTD(document type definition)文档类型定义来组织数据;格式统一,跨平台和语言,早已成为业界公认的标准。
XML是标准通用标记语言(SGML)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
XML的优点格式统一,符合标准。容易与其他系统进行远程交互,数据共享比较方便。

▼▼JSONJavaScript Object Notation

JSON是一种轻量级的数据交换格式。它使得人们可以很容易地进行阅读和编写,同时也方便了机器进行解析和生成。
JSON采用完全独立于程序语言的文本格式,但是也使用了类C语言的习惯(包括C、C++、C#、Java、JavaScript、Perl和Python等),这些特性使得JSON成为理想的数据交换语言。
JSON的优点数据格式比较简单,易于读写,格式都是压缩的,占用带宽小;易于解析。

▼▼常用解析字段

在数据解析过程中,需要针对不同的设备/系统类型,解析不同的关键字段,解析字段与安全分析息息相关,能够对关键字段进行准确解析直接影响着安全分析的质量。常见解析字段包括以下内容:
  • 基本解析字段:包括发生时间、事件名称、事件分类、事件级别、源地址、源端口、目的地址、目的端口、设备名称、设备地址等。

  • 安全常用字段:包括主机名称、事件内容、事件摘要、日志类型、传输协议、响应、结果、操作、状态、获取方式等。

  • 网络流量字段:包括入接口、出接口、源转换端口、目的转换端口、接收包数、发送包数、接收流量、发送流量、总流量、流量标记、客户端主机、协议、用户账户、持续时间、源安全域、目的安全域等。

  • 主机应用字段:程序名称、厂商、产品、源地址、事件名称、事件级别、状态码、请求信息、获取方法、原始日志。

扩展  ·  本文相关链接

· 大数据安全分析05_数据采集技术

· 大数据安全分析04_数据传输方式

· 大数据安全分析03_数据采集对象与数据类型

· 大数据安全分析02_大数据安全分析技术框架

· 大数据安全分析01_为什么要用大数据技术进行安全分析?

(0)

相关推荐

  • JSON 与 Xml的对决

    Json 和 Xml 的目的是相似的,他们都是将方便理解和易读的方式将复杂数据组织到各种接口和语言中,这种类型的技术当然是不能缺少的,我们通过他们构建数据也能很好的去共享他们,但是尽管他们的目标类似, ...

  • 大数据安全分析07_大数据存储技术介绍

    鉴于网络安全数据组成的复杂性.规模,以及对实时搜索响应的需求,需要通过大数据存储集群快速实现空间的扩容,在PB级的安全数据中做到安全分析查询的秒级响应,同时需要为数据提供了冗余机制,保障数据的安全. ...

  • 大数据安全分析01_为什么要用大数据技术进行安全分析?

    关于安全运营系列文章,在2020年10月份写了篇<安全运营的定义与核心目标>,算是开了个头.后面几个月由于精力不够,内容方向也没有想清楚,就一直没有继续写. 安全运营的范围太大了,还是觉得 ...

  • 大数据安全分析05_数据采集技术

    大数据分析中的数据采集方式包括Logstash.Flume.Fluentd.Logtail等,本文对这几种数据采集技术进行简要介绍. Logstash Logstash是一个具备实时处理能力的开源的数 ...

  • 大数据安全分析02_大数据安全分析技术框架与关键技术

    大数据分析通过对安全告警.系统日志以及网络流量等海量多源异构数据进行采集.存储与分析,打破原有网络安全烟囱式防护模式,将所有安全防护措施与安全数据打通,解决网络安全防护孤岛和数据孤岛问题. 大数据分析 ...

  • 大数据安全分析08_大数据处理框架介绍

    大数据安全分析需要支持对接分布式数据库进行离线批处理分析,来实现长周期的网络安全.用户行为.业务安全分析,所以大数据平台首先需要支持批处理模式. 网络流量产生的实时数据往往是高吞吐量的,一个小型Mbp ...

  • 大数据安全分析09_关联分析简介

    大数据关联分析提供了基于规则.基于统计的关联分析功能,能够实现对于安全事件的误报排除.事件源推论.安全事件级别重新定义等效能. ▼▼关联分析简介 关联分析是在大规模数据集中寻找有趣关系的任务.这些关系 ...

  • 大数据安全分析10:复杂事件处理(CEP)简介

    复合事件架构是由史丹佛大学的David Luckham与Brian Fraseca所提出,使用模式比对.事件的相互关系.事件间的聚合关系,目的从事件云(event cloud)中找出有意义的事件,使得 ...

  • 大数据安全分析04_数据传输方式

    大数据分析中数据传输方式包括SYSLOG.kafka.JDBC/ODBC.文件或FTP.Agent等方式,本文对数据传输方式进行简要介绍. SYSLOG syslog日志消息既可以记录在本地文件中,也 ...

  • 大数据安全分析11:复杂事件处理(CEP)引擎简介

    目前已有的CEP引擎根据事件处理语言可以分为两大类:面向流和面向规则的CEP引擎. 面向流的CEP引擎有Microsoft Streamlnsight.Oracle CEP.IBM SPADE.Esp ...