由于网络空间态势感知的数据来自众多的网络设备,其数据格式、数据内容、数据质量千差万别,存储形式各异,表达的语义也不尽相同。如果能够将这些使用不同途径、来源于不同网络位置、具有不同格式的数据进行预处理,并在此基础上进行归一化融合操作,就可以为网络安全态势感知提供更为全面、精准的数据源,从而得到更为准确的网络态势。数据解析是从事先规定好的格式中提取数据。解析的前提是需要提前约定好格式,数据提供方按照格式提供数据、数据获取方则按照格式获取数据。常用的数据格式有TXT, Excel, CSV, XML,JSON 和数据库(典型的如关系数据库MySQL,NoSQL数据库MongDB等)。支持的解析类型主要包括正则表达式、键值对、XML、json等。
▼▼正则表达式
正则表达式,又称规则表达式。是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是数据解析主要使用的方法,通过正则表达式的语法编辑出需要匹配的正则表达式,就可以从收集到的源数据中截取出可以作分析有用的字段。
▼▼扩展标记语言 (Extensible Markup Language, XML)
用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML使用DTD(document type definition)文档类型定义来组织数据;格式统一,跨平台和语言,早已成为业界公认的标准。XML是标准通用标记语言(SGML)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。XML的优点格式统一,符合标准。容易与其他系统进行远程交互,数据共享比较方便。
▼▼JSON(JavaScript Object Notation)
JSON是一种轻量级的数据交换格式。它使得人们可以很容易地进行阅读和编写,同时也方便了机器进行解析和生成。JSON采用完全独立于程序语言的文本格式,但是也使用了类C语言的习惯(包括C、C++、C#、Java、JavaScript、Perl和Python等),这些特性使得JSON成为理想的数据交换语言。JSON的优点数据格式比较简单,易于读写,格式都是压缩的,占用带宽小;易于解析。
▼▼常用解析字段
在数据解析过程中,需要针对不同的设备/系统类型,解析不同的关键字段,解析字段与安全分析息息相关,能够对关键字段进行准确解析直接影响着安全分析的质量。常见解析字段包括以下内容:
基本解析字段:包括发生时间、事件名称、事件分类、事件级别、源地址、源端口、目的地址、目的端口、设备名称、设备地址等。
安全常用字段:包括主机名称、事件内容、事件摘要、日志类型、传输协议、响应、结果、操作、状态、获取方式等。
网络流量字段:包括入接口、出接口、源转换端口、目的转换端口、接收包数、发送包数、接收流量、发送流量、总流量、流量标记、客户端主机、协议、用户账户、持续时间、源安全域、目的安全域等。
- 主机应用字段:程序名称、厂商、产品、源地址、事件名称、事件级别、状态码、请求信息、获取方法、原始日志。